تهران ، ولیعصر
021-987654

گوگل در درصدی که محتوای تکراری را نشان می دهد

جان مولر از Google اخیراً به این سؤال پاسخ داد که آیا آستانه درصدی برای تکرار محتوا وجود دارد که Google برای شناسایی و فیلتر کردن محتوای تکراری استفاده می‌کند.

چند درصد برابر با محتوای تکراری است؟

مکالمه در واقع در فیس بوک زمانی شروع شد که Duane Forrester (@DuaneForrester) پرسید که آیا کسی می‌داند اگر هر موتور جستجو درصدی از همپوشانی محتوا را منتشر کرده باشد که در آن محتوا تکراری در نظر گرفته شود.

بیل هارتزر (bhartzer) به توییتر برگشت و از جان مولر درخواست کرد و تقریباً بلافاصله یک پیام دریافت کرد. پاسخ.

بیل توییت کرد:

“Hey @johnmu آیا درصدی وجود دارد که محتوای تکراری را نشان دهد؟

برای مثال، آیا باید سعی کنیم مطمئن شویم که صفحات حداقل ۷۲.۶ درصد از سایر صفحات سایت ما منحصر به فرد هستند؟

آیا گوگل حتی آن را اندازه گیری می کند؟»

جان مولر از Google پاسخ داد:

چگونه Google محتوای تکراری را تشخیص می‌دهد؟

روش Google برای تشخیص محتوای تکراری سال‌هاست که به‌طور قابل‌توجهی مشابه است.

در سال ۲۰۱۳، مت کاتز (@mattcutts)، یک مهندس نرم افزار در آن زمان در Google یک ویدیوی رسمی Google را منتشر کرد که توضیح می‌دهد چگونه Google محتوای تکراری را تشخیص می‌دهد.

او ویدیو را با بیان اینکه مقدار زیادی از محتوای اینترنتی تکراری است و اینکه این یک اتفاق عادی است، شروع کرد.

“این مهم است که بدانید اگر به محتوای موجود در وب نگاه می کنید، چیزی حدود ۲۵٪ یا ۳۰٪ از کل محتوای وب محتوای تکراری است.

…افراد یک پاراگراف از وبلاگ را نقل قول می‌کنند و سپس به وبلاگ پیوند می‌دهند، این نوع چیزها.”

او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بی‌گناه و بدون هدف اسپم است، Google آن محتوا را جریمه نمی‌کند.

او گفت که جریمه کردن صفحات وب به دلیل داشتن محتوای تکراری، تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت.

کاری که Google هنگام یافتن محتوای تکراری انجام می‌دهد این است:

«…سعی کنید همه آن‌ها را با هم گروه‌بندی کنید و طوری رفتار کنید که انگار فقط یک قسمت از محتوا است.»

مت ادامه داد:

«فقط به عنوان چیزی تلقی می‌شود که باید به‌درستی آن را خوشه‌بندی کنیم. و ما باید مطمئن شویم که رتبه‌بندی درستی دارد.»

او توضیح داد که Google سپس انتخاب می‌کند کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را برای بهبود تجربه کاربر فیلتر می‌کند.

چگونه Google با محتوای تکراری مدیریت می‌کند – نسخه ۲۰۲۰

به سرعت به سال ۲۰۲۰ برسید و Google یک قسمت پادکست Search Off the Record را منتشر کرد که در آن همان موضوع به زبان بسیار مشابهی توضیح داده شده است.

در اینجا بخش مربوط به آن پادکست از دقیقه ۰۶:۴۴ پس از اپیزود:

“گری ایلیز: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.

مارتین اسپلیت: آیا این یک جور نیست؟

گری ایلیز: [۰۰:۰۶:۵۶] خوب، اینطور نیست، درست است؟ زیرا ابتدا باید فریب‌ها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریب یکدیگر هستند،
و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید.

…و آن هم متعارف سازی است.

بنابراین، شما تکرار را دارید، که کل اصطلاح است، اما در داخل آن، خوشه‌سازی دارید، مانند ساختن خوشه‌ای فریبنده، و متعارف‌سازی. “

گری در ادامه به صورت فنی توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، Google واقعاً درصدها را دقیقاً بررسی نمی کند، بلکه به مقایسه جمع های چک می پردازد.

می‌توان گفت که یک چک‌جمع نمایشی از محتوا به صورت مجموعه‌ای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.

گری آن را اینگونه توضیح داد:

“بنابراین، برای تشخیص فریب کاری که انجام می دهیم، خوب، سعی می کنیم فریبکاری ها را شناسایی کنیم.

و چگونه ما این کار را انجام می‌دهیم، شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام می‌دهند، که اساساً محتوا را به یک هش یا چک‌سوم کاهش می‌دهند و سپس چک‌سام‌ها را با هم مقایسه می‌کنند.»

گری گفت که Google این کار را به این صورت انجام می‌دهد زیرا ساده‌تر (و بدیهی است دقیق است).

Google محتوای تکراری را با چک‌سام تشخیص می‌دهد

بنابراین، هنگامی که در مورد محتوای تکراری صحبت می‌شود، احتمالاً یک آستانه درصد نیست، جایی که تعدادی وجود دارد که گفته می‌شود محتوا تکراری است.

اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چک‌سوم شناسایی می‌شود و سپس آن جمع‌بندی‌ها با هم مقایسه می‌شوند.

یک نکته دیگر این است که به نظر می رسد تمایزی بین زمانی که بخشی از محتوا تکراری است و تمام محتوا تکراری است وجود دارد.


تصویر ویژه توسط Shutterstock/Ezume Images

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *