تهران ، ولیعصر
021-987654

آیا این الگوریتم محتوای مفید گوگل است؟

Google یک مقاله تحقیقاتی پیشگامانه در مورد شناسایی کیفیت صفحه با هوش مصنوعی منتشر کرد. جزئیات الگوریتم به طور قابل توجهی شبیه به آنچه که الگوریتم محتوای مفید شناخته شده است، شبیه است.

Google فناوری‌های الگوریتم را شناسایی نمی‌کند

هیچ کس خارج از Google نمی تواند با اطمینان بگوید که این مقاله تحقیقاتی اساس سیگنال محتوای مفید است.

Google معمولاً فناوری اساسی الگوریتم‌های مختلف خود مانند الگوریتم‌های پنگوئن، پاندا یا SpamBrain را شناسایی نمی‌کند.

بنابراین نمی توان با قطعیت گفت که این الگوریتم الگوریتم محتوای مفید است، فقط می توان حدس زد و نظری در مورد آن ارائه داد.

اما ارزش دیدن را دارد زیرا شباهت‌ها چشم‌گشا هستند.

سیگنال محتوای مفید

۱. این یک طبقه بندی کننده

را بهبود می بخشد

Google سرنخ‌هایی در مورد سیگنال محتوای مفید ارائه کرده است، اما هنوز گمانه‌زنی‌های زیادی در مورد اینکه واقعاً چیست وجود دارد.

اولین سرنخ‌ها در توییت ۶ دسامبر ۲۰۲۲ بود که اولین به‌روزرسانی محتوای مفید را اعلام کرد.

توییت گفت:

“این طبقه‌بندی کننده ما را بهبود می‌بخشد و در سراسر محتوا در همه زبان‌ها کار می‌کند.”

طبقه‌بندی‌کننده، در یادگیری ماشین، چیزی است که داده‌ها را دسته‌بندی می‌کند (این است یا آن؟).

۲. این یک اقدام دستی یا هرزنامه نیست

الگوریتم محتوای مفید، طبق توضیح دهنده Google (آنچه سازندگان باید درباره به‌روزرسانی محتوای مفید اوت ۲۰۲۲ Google بدانند)، یک اقدام هرزنامه یا یک اقدام دستی نیست.

“این فرآیند طبقه‌بندی‌کننده با استفاده از یک مدل یادگیری ماشینی کاملاً خودکار است.

این یک اقدام دستی و نه یک اقدام هرزنامه نیست.”

۳. این یک سیگنال مرتبط با رتبه بندی است

توضیح دهنده به روز رسانی محتوای مفید می گوید که الگوریتم محتوای مفید سیگنالی است که برای رتبه بندی محتوا استفاده می شود.

“…این فقط یک سیگنال جدید است و یکی از سیگنال های بسیاری است که Google برای رتبه بندی محتوا ارزیابی می کند.”

۴. بررسی می کند که آیا محتوا توسط افراد است

نکته جالب این است که سیگنال محتوای مفید (ظاهرا) بررسی می‌کند که آیا محتوا توسط افراد ایجاد شده است یا خیر.

پست وبلاگ Google در به‌روزرسانی محتوای مفید (محتوای بیشتر توسط افراد، برای افراد در جستجو) بیان کرد که این سیگنالی برای شناسایی محتوای ایجاد شده توسط افراد و برای افراد است.

دنی سالیوان از Google نوشت:

«…ما در حال ارائه یک سری پیشرفت‌ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسان‌تر پیدا کنند.

…ما مشتاقانه منتظریم تا در ماه‌های آینده بر روی این اثر بسازیم تا یافتن محتوای اصلی توسط و برای افراد واقعی را آسان‌تر کنیم.»

مفهوم “توسط افراد” بودن محتوا سه بار در اعلامیه تکرار می‌شود، ظاهراً نشان می‌دهد که کیفیت سیگنال محتوای مفید است.

و اگر «توسط افراد» نوشته نشده باشد، توسط ماشین تولید می‌شود، که این نکته مهمی است زیرا الگوریتم مورد بحث در اینجا به تشخیص محتوای تولید شده توسط ماشین مربوط می‌شود.

۵. آیا محتوای مفید چند چیز را سیگنال می دهد؟

در نهایت، به نظر می‌رسد اعلامیه وبلاگ Google نشان می‌دهد که به‌روزرسانی محتوای مفید مانند یک الگوریتم تنها یک چیز نیست.

دنی سالیوان می نویسد که این یک “مجموعه پیشرفت ها” است که، اگر زیاد در مورد آن مطالعه نکنم، به این معنی است که این فقط یک الگوریتم یا سیستم نیست، بلکه چندین الگوریتم با هم کار را انجام می دهند. حذف محتوای غیر مفید.

این چیزی است که او نوشت:

“…ما در حال ارائه یک سری پیشرفت‌ها در جستجو هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسان‌تر پیدا کنند.”

مدل های تولید متن می توانند کیفیت صفحه را پیش بینی کنند

آنچه که این مقاله تحقیقاتی کشف می‌کند این است که مدل‌های زبان بزرگ (LLM) مانند GPT-2 می‌توانند محتوای با کیفیت پایین را به دقت شناسایی کنند.

آنها از طبقه‌بندی‌کننده‌هایی استفاده کردند که برای شناسایی متن تولید شده توسط ماشین آموزش دیده بودند و متوجه شدند که همان طبقه‌بندی‌کننده‌ها می‌توانند متن با کیفیت پایین را شناسایی کنند، حتی اگر برای انجام این کار آموزش ندیده باشند.

مدل های زبان بزرگ می توانند یاد بگیرند که چگونه کارهای جدیدی را انجام دهند که برای انجام آنها آموزش ندیده اند.

یک مقاله دانشگاه استنفورد در مورد GPT-3 بحث می کند که چگونه به طور مستقل توانایی ترجمه متن از انگلیسی به فرانسوی را یاد گرفته است، صرفاً به این دلیل که داده های بیشتری برای یادگیری به آن داده شده است، چیزی که با GPT-2 اتفاق نیفتاد. با داده های کمتری آموزش دیده است.

این مقاله به این نکته اشاره می‌کند که چگونه افزودن داده‌های بیشتر باعث بروز رفتارهای جدید می‌شود، نتیجه چیزی که آموزش بدون نظارت

نامیده می‌شود.

آموزش بدون نظارت زمانی است که یک ماشین یاد می گیرد چگونه کاری را انجام دهد که برای انجام آن آموزش ندیده است.

این کلمه “ظهور” مهم است زیرا به زمانی اشاره دارد که دستگاه یاد می گیرد کاری را انجام دهد که برای انجام آن آموزش ندیده است.

مقاله دانشگاه استنفورد در مورد GPT-3 توضیح می دهد:

«شرکت‌کنندگان کارگاه گفتند که از این که چنین رفتاری از مقیاس‌بندی ساده داده‌ها و منابع محاسباتی پدید می‌آید شگفت‌زده شده‌اند و درباره اینکه چه قابلیت‌های بیشتری از مقیاس بیشتر به دست می‌آیند، کنجکاوی کردند.»

ظهور یک توانایی جدید دقیقاً همان چیزی است که مقاله تحقیقاتی توصیف می کند. آنها کشف کردند که یک آشکارساز متن تولید شده توسط ماشین همچنین می تواند محتوای با کیفیت پایین را پیش بینی کند.

محققان می نویسند:

«کار ما دو جنبه دارد: اولاً ما از طریق ارزیابی انسانی نشان می‌دهیم که طبقه‌بندی‌کننده‌های آموزش دیده برای تمایز بین متن تولید شده توسط انسان و ماشین به‌عنوان پیش‌بینی‌کننده‌های بدون نظارت «کیفیت صفحه» ظاهر می‌شوند و قادر به تشخیص محتوای با کیفیت پایین بدون هیچ آموزشی هستند.

این کار راه‌اندازی سریع نشانگرهای کیفیت را در یک تنظیمات کم منبع فعال می‌کند.

ثانیاً، کنجکاو برای درک شیوع و ماهیت صفحات با کیفیت پایین در طبیعت، ما تجزیه و تحلیل کیفی و کمی گسترده ای را بیش از ۵۰۰ میلیون مقاله وب انجام می دهیم و این را به بزرگترین مطالعه در مقیاسی تبدیل می کنیم که تاکنون در مورد این موضوع انجام شده است.”

نکته مهم در اینجا این است که آنها از یک مدل تولید متن آموزش دیده برای شناسایی محتوای تولید شده توسط ماشین استفاده کردند و متوجه شدند که یک رفتار جدید ظاهر شده است، توانایی شناسایی صفحات با کیفیت پایین.

آشکارساز OpenAI GPT-2

محققان دو سیستم را آزمایش کردند تا ببینند چقدر برای تشخیص محتوای با کیفیت پایین کار می کنند.

یکی از سیستم‌های مورد استفاده RoBERTa، که یک روش پیش‌آموزشی است که نسخه بهبودیافته BERT است.

این دو سیستم آزمایش شده هستند:

  • آشکارساز GPT-2 مبتنی بر RoBERTa OpenAI
  • GLTR (تشخیص آماری و تجسم متن تولید شده)
    به دنبال “امضای آماری” محتوای تولید شده توسط ماشین می گردد. از BERT و GPT-2 استفاده می کند.

آنها دریافتند که آشکارساز GPT-2 OpenAI در تشخیص محتوای کم کیفیت برتر است.

توضیحات نتایج آزمون دقیقاً منعکس کننده آنچه در مورد سیگنال محتوای مفید می دانیم است.

هوش مصنوعی همه اشکال هرزنامه زبان را شناسایی می کند

مقاله تحقیقاتی بیان می‌کند که سیگنال‌های کیفیت زیادی وجود دارد، اما این رویکرد فقط بر کیفیت زبانی یا زبانی تمرکز دارد.

برای اهداف این مقاله پژوهشی الگوریتم، عبارات “کیفیت صفحه” و “کیفیت زبان” به یک معنا هستند.

پیش‌رفت در این تحقیق این است که آنها با موفقیت از پیش‌بینی آشکارساز OpenAI GPT-2 در مورد اینکه آیا چیزی توسط ماشین تولید می‌شود یا نه، به عنوان امتیازی برای کیفیت زبان استفاده کردند.

آنها می نویسند:

«…اسناد با نمره P (ماشین نویسی) بالا معمولاً کیفیت زبان پایینی دارند.

…تشخیص نویسندگی ماشین بنابراین می تواند یک پروکسی قدرتمند برای ارزیابی کیفیت باشد.

این نیاز به نمونه‌های برچسب‌گذاری‌شده ندارد – فقط مجموعه‌ای از متن برای آموزش به شیوه‌ای خودتبعیض‌آمیز.

این به ویژه در برنامه‌هایی که داده‌های برچسب‌گذاری‌شده کمیاب هستند یا در جایی که توزیع برای نمونه‌گیری بسیار پیچیده است، بسیار ارزشمند است.

به‌عنوان مثال، ایجاد یک مجموعه داده برچسب‌دار که نماینده همه اشکال محتوای وب با کیفیت پایین است، چالش برانگیز است.”

این بدان معناست که این سیستم برای شناسایی انواع خاصی از محتوای با کیفیت پایین لازم نیست آموزش دیده باشد.

می آموزد که همه تغییرات با کیفیت پایین را به تنهایی پیدا کند.

این یک روش قدرتمند برای شناسایی صفحاتی است که کیفیت بالایی ندارند.

آینه نتایج به‌روزرسانی محتوای مفید

آنها این سیستم را روی نیم میلیارد صفحه وب آزمایش کردند و صفحات را با استفاده از ویژگی های مختلف مانند طول سند، سن محتوا و موضوع تجزیه و تحلیل کردند.

سن محتوا مربوط به علامت گذاری محتوای جدید به عنوان کیفیت پایین نیست.

آنها به سادگی محتوای وب را به مرور زمان تجزیه و تحلیل کردند و متوجه شدند که از سال ۲۰۱۹، همزمان با محبوبیت روزافزون استفاده از محتوای تولید شده توسط ماشین، جهش عظیمی در صفحات با کیفیت پایین رخ داده است.

تحلیل بر اساس موضوع نشان داد که برخی از حوزه‌های موضوعی صفحات با کیفیت بالاتری دارند، مانند موضوعات حقوقی و دولتی.

جالب این است که آنها تعداد زیادی صفحات با کیفیت پایین را در فضای آموزشی کشف کردند که به گفته آنها با سایت هایی که مقاله به دانش آموزان ارائه می دادند مطابقت دارد.

آنچه این موضوع را جالب می‌کند این است که آموزش موضوعی است که Google به طور خاص به آن اشاره کرده است تا تحت تأثیر به‌روزرسانی محتوای مفید قرار گیرد.
پست وبلاگ Google نوشته شده توسط دنی سالیوان به اشتراک می گذارد:

“…تست ما نشان داد که به ویژه نتایج مربوط به آموزش آنلاین را بهبود می بخشد…”

سه امتیاز کیفیت زبان

دستورالعمل‌های ارزیابی کیفیت Google ( PDF) از چهار امتیاز کیفیت کم، متوسط، زیاد و بسیار بالا استفاده می کند.

محققان از سه نمره کیفیت برای آزمایش سیستم جدید، به علاوه یک امتیاز دیگر که نامش تعریف نشده بود، استفاده کردند.

اسنادی که به‌عنوان تعریف‌نشده رتبه‌بندی شدند، آن‌هایی بودند که به هر دلیلی قابل ارزیابی نبودند و حذف شدند.

نمرات ۰، ۱ و ۲ رتبه‌بندی می‌شوند که دو امتیاز بالاترین امتیاز را دارند.

اینها توضیحات نمرات کیفیت زبان (LQ):

«۰: LQ کم.
متن نامفهوم یا از نظر منطقی ناسازگار است.

۱: LQ متوسط.
متن قابل درک است اما ضعیف نوشته شده است (اشتباهات دستوری / نحوی مکرر).

۲: LQ بالا.
متن قابل فهم و به خوبی نوشته شده است (اشتباهات دستوری / نحوی نادر).

در اینجا تعاریف دستورالعمل های ارزیابی کیفیت از کیفیت پایین آمده است:

کمترین کیفیت:

“MC بدون تلاش کافی، اصالت، استعداد یا مهارت لازم برای رسیدن به هدف صفحه به شیوه ای رضایت بخش ایجاد می شود.

…توجه کمی به جنبه های مهم مانند وضوح یا سازماندهی.

…برخی از محتوای با کیفیت پایین با تلاش کمی ایجاد می‌شوند تا محتوایی برای پشتیبانی داشته باشند
کسب درآمد به جای ایجاد محتوای اصلی یا پر زحمت برای کمک به کاربران.

همچنین ممکن است محتوای

Filer” اضافه شود، به خصوص در بالای صفحه، که کاربران را مجبور می کند برای رسیدن به MC به پایین حرکت کنند.

…نوشتن این مقاله غیرحرفه‌ای است، از جمله بسیاری از اشتباهات گرامری و نقطه‌گذاری. sss2_sllo_o mmh-90-wrap”>

دستورالعمل‌های ارزیابی‌کننده کیفیت نسبت به الگوریتم، توصیف دقیق‌تری از کیفیت پایین دارند.

آنچه جالب است این است که چگونه الگوریتم بر خطاهای دستوری و نحوی تکیه می کند.

نحو اشاره ای به ترتیب کلمات است.

کلمات با ترتیب اشتباه نادرست به نظر می رسند، شبیه به نحوه صحبت شخصیت یودا در جنگ ستارگان (“دیدن آینده غیرممکن است”).

آیا الگوریتم محتوای مفید به سیگنال‌های دستوری و نحوی متکی است؟ اگر این الگوریتم است، ممکن است نقشی داشته باشد (اما نه تنها نقش).

اما من می‌خواهم فکر کنم که الگوریتم با برخی از آنچه در دستورالعمل‌های ارزیابی کیفیت وجود دارد، بین انتشار تحقیق در سال ۲۰۲۱ و انتشار سیگنال محتوای مفید در سال ۲۰۲۲ بهبود یافته است.

الگوریتم “قدرتمند” است

این یک تمرین خوب است که نتایج را بخوانید تا در صورت مناسب بودن الگوریتم در نتایج جستجو، ایده بگیرید.

بسیاری از مقالات تحقیقاتی با این جمله خاتمه می‌یابند که تحقیقات بیشتری باید انجام شود یا به این نتیجه می‌رسند که پیشرفت‌ها حاشیه‌ای هستند.

جذاب ترین مقالات آنهایی هستند که ادعای نتایج جدید در زمینه هنر را دارند.

محققان خاطرنشان می کنند که این الگوریتم قدرتمند است و از خطوط پایه بهتر عمل می کند.

آنچه این را به یک نامزد خوب برای سیگنال نوع محتوای مفید تبدیل می‌کند این است که الگوریتمی با منبع کم است که در مقیاس وب است.

در نتیجه آنها نتایج مثبت را مجدداً تأیید می کنند:

“این مقاله بیان می کند که آشکارسازهایی که برای تمایز دادن متن نوشته شده توسط انسان و ماشین آموزش دیده اند، پیش بینی کننده های موثری برای کیفیت زبان صفحات وب هستند و از طبقه بندی کننده هرزنامه نظارت شده اولیه بهتر عمل می کنند.”

نتیجه گیری مقاله تحقیقاتی در مورد پیشرفت مثبت بود و ابراز امیدواری کرد که این تحقیق توسط دیگران مورد استفاده قرار گیرد.

هیچ اشاره ای به تحقیقات بیشتر نشده است.

این مقاله تحقیقاتی پیشرفتی را در تشخیص صفحات وب با کیفیت پایین توصیف می‌کند.

نتیجه گیری نشان می دهد که، به نظر من، احتمال وجود دارد که بتواند آن را به الگوریتم Google تبدیل کند.

از آنجایی که این الگوریتم به عنوان یک الگوریتم «در مقیاس وب» توصیف می‌شود که می‌تواند در «تنظیمات کم منابع» مستقر شود، به این معنی است که این الگوریتمی است که می‌تواند به صورت مستمر اجرا شود، درست مانند محتوای مفید. سیگنال انجام می شود.

ما نمی دانیم که آیا این مربوط به به روز رسانی محتوای مفید است یا خیر، اما مطمئناً یک پیشرفت در علم تشخیص محتوای با کیفیت پایین است.

نقل قول ها

صفحه تحقیقات Google:

مدل‌های مولد پیش‌بینی‌کننده‌های بدون نظارت کیفیت صفحه هستند: یک مطالعه در مقیاس عظیم

مقاله پژوهشی Google را دانلود کنید

مدل‌های مولد پیش‌بینی نشده هستند کیفیت صفحه: یک مطالعه در مقیاس عظیم (PDF)

تصویر ویژه توسط Shutterstock/Asier Romero

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *