جان مولر از Google اخیراً به این سؤال پاسخ داد که آیا آستانه درصدی برای تکرار محتوا وجود دارد که Google برای شناسایی و فیلتر کردن محتوای تکراری استفاده میکند.
چند درصد برابر با محتوای تکراری است؟
مکالمه در واقع در فیس بوک زمانی شروع شد که Duane Forrester (@DuaneForrester) پرسید که آیا کسی میداند اگر هر موتور جستجو درصدی از همپوشانی محتوا را منتشر کرده باشد که در آن محتوا تکراری در نظر گرفته شود.
بیل هارتزر (bhartzer) به توییتر برگشت و از جان مولر درخواست کرد و تقریباً بلافاصله یک پیام دریافت کرد. پاسخ.
بیل توییت کرد:
“Hey @johnmu آیا درصدی وجود دارد که محتوای تکراری را نشان دهد؟
برای مثال، آیا باید سعی کنیم مطمئن شویم که صفحات حداقل ۷۲.۶ درصد از سایر صفحات سایت ما منحصر به فرد هستند؟
آیا گوگل حتی آن را اندازه گیری می کند؟»
جان مولر از Google پاسخ داد:
عددی وجود ندارد (همچنین چگونه آن را اندازه گیری می کنید؟)
— 🌽〈link href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 23 سپتامبر ۲۰۲۲
چگونه Google محتوای تکراری را تشخیص میدهد؟
روش Google برای تشخیص محتوای تکراری سالهاست که بهطور قابلتوجهی مشابه است.
در سال ۲۰۱۳، مت کاتز (@mattcutts)، یک مهندس نرم افزار در آن زمان در Google یک ویدیوی رسمی Google را منتشر کرد که توضیح میدهد چگونه Google محتوای تکراری را تشخیص میدهد.
او ویدیو را با بیان اینکه مقدار زیادی از محتوای اینترنتی تکراری است و اینکه این یک اتفاق عادی است، شروع کرد.
“این مهم است که بدانید اگر به محتوای موجود در وب نگاه می کنید، چیزی حدود ۲۵٪ یا ۳۰٪ از کل محتوای وب محتوای تکراری است.
…افراد یک پاراگراف از وبلاگ را نقل قول میکنند و سپس به وبلاگ پیوند میدهند، این نوع چیزها.”
او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بیگناه و بدون هدف اسپم است، Google آن محتوا را جریمه نمیکند.
او گفت که جریمه کردن صفحات وب به دلیل داشتن محتوای تکراری، تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت.
کاری که Google هنگام یافتن محتوای تکراری انجام میدهد این است:
«…سعی کنید همه آنها را با هم گروهبندی کنید و طوری رفتار کنید که انگار فقط یک قسمت از محتوا است.»
مت ادامه داد:
«فقط به عنوان چیزی تلقی میشود که باید بهدرستی آن را خوشهبندی کنیم. و ما باید مطمئن شویم که رتبهبندی درستی دارد.»
او توضیح داد که Google سپس انتخاب میکند کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را برای بهبود تجربه کاربر فیلتر میکند.
چگونه Google با محتوای تکراری مدیریت میکند – نسخه ۲۰۲۰
به سرعت به سال ۲۰۲۰ برسید و Google یک قسمت پادکست Search Off the Record را منتشر کرد که در آن همان موضوع به زبان بسیار مشابهی توضیح داده شده است.
در اینجا بخش مربوط به آن پادکست از دقیقه ۰۶:۴۴ پس از اپیزود:
“گری ایلیز: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.
مارتین اسپلیت: آیا این یک جور نیست؟
گری ایلیز: [۰۰:۰۶:۵۶] خوب، اینطور نیست، درست است؟ زیرا ابتدا باید فریبها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریب یکدیگر هستند،
و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید.…و آن هم متعارف سازی است.
بنابراین، شما تکرار را دارید، که کل اصطلاح است، اما در داخل آن، خوشهسازی دارید، مانند ساختن خوشهای فریبنده، و متعارفسازی. “
گری در ادامه به صورت فنی توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، Google واقعاً درصدها را دقیقاً بررسی نمی کند، بلکه به مقایسه جمع های چک می پردازد.
میتوان گفت که یک چکجمع نمایشی از محتوا به صورت مجموعهای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.
گری آن را اینگونه توضیح داد:
“بنابراین، برای تشخیص فریب کاری که انجام می دهیم، خوب، سعی می کنیم فریبکاری ها را شناسایی کنیم.
و چگونه ما این کار را انجام میدهیم، شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام میدهند، که اساساً محتوا را به یک هش یا چکسوم کاهش میدهند و سپس چکسامها را با هم مقایسه میکنند.»
گری گفت که Google این کار را به این صورت انجام میدهد زیرا سادهتر (و بدیهی است دقیق است).
Google محتوای تکراری را با چکسام تشخیص میدهد
بنابراین، هنگامی که در مورد محتوای تکراری صحبت میشود، احتمالاً یک آستانه درصد نیست، جایی که تعدادی وجود دارد که گفته میشود محتوا تکراری است.
اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چکسوم شناسایی میشود و سپس آن جمعبندیها با هم مقایسه میشوند.
یک نکته دیگر این است که به نظر می رسد تمایزی بین زمانی که بخشی از محتوا تکراری است و تمام محتوا تکراری است وجود دارد.
تصویر ویژه توسط Shutterstock/Ezume Images