Google یک مقاله تحقیقاتی پیشگامانه در مورد شناسایی کیفیت صفحه با هوش مصنوعی منتشر کرد. جزئیات الگوریتم به طور قابل توجهی شبیه به آنچه که الگوریتم محتوای مفید شناخته شده است، شبیه است.
Google فناوریهای الگوریتم را شناسایی نمیکند
هیچ کس خارج از Google نمی تواند با اطمینان بگوید که این مقاله تحقیقاتی اساس سیگنال محتوای مفید است.
Google معمولاً فناوری اساسی الگوریتمهای مختلف خود مانند الگوریتمهای پنگوئن، پاندا یا SpamBrain را شناسایی نمیکند.
بنابراین نمی توان با قطعیت گفت که این الگوریتم الگوریتم محتوای مفید است، فقط می توان حدس زد و نظری در مورد آن ارائه داد.
اما ارزش دیدن را دارد زیرا شباهتها چشمگشا هستند.
سیگنال محتوای مفید
۱. این یک طبقه بندی کننده
را بهبود می بخشد
Google سرنخهایی در مورد سیگنال محتوای مفید ارائه کرده است، اما هنوز گمانهزنیهای زیادی در مورد اینکه واقعاً چیست وجود دارد.
اولین سرنخها در توییت ۶ دسامبر ۲۰۲۲ بود که اولین بهروزرسانی محتوای مفید را اعلام کرد.
توییت گفت:
“این طبقهبندی کننده ما را بهبود میبخشد و در سراسر محتوا در همه زبانها کار میکند.”
طبقهبندیکننده، در یادگیری ماشین، چیزی است که دادهها را دستهبندی میکند (این است یا آن؟).
۲. این یک اقدام دستی یا هرزنامه نیست
الگوریتم محتوای مفید، طبق توضیح دهنده Google (آنچه سازندگان باید درباره بهروزرسانی محتوای مفید اوت ۲۰۲۲ Google بدانند)، یک اقدام هرزنامه یا یک اقدام دستی نیست.
“این فرآیند طبقهبندیکننده با استفاده از یک مدل یادگیری ماشینی کاملاً خودکار است.
این یک اقدام دستی و نه یک اقدام هرزنامه نیست.”
۳. این یک سیگنال مرتبط با رتبه بندی است
توضیح دهنده به روز رسانی محتوای مفید می گوید که الگوریتم محتوای مفید سیگنالی است که برای رتبه بندی محتوا استفاده می شود.
“…این فقط یک سیگنال جدید است و یکی از سیگنال های بسیاری است که Google برای رتبه بندی محتوا ارزیابی می کند.”
۴. بررسی می کند که آیا محتوا توسط افراد است
نکته جالب این است که سیگنال محتوای مفید (ظاهرا) بررسی میکند که آیا محتوا توسط افراد ایجاد شده است یا خیر.
پست وبلاگ Google در بهروزرسانی محتوای مفید (محتوای بیشتر توسط افراد، برای افراد در جستجو) بیان کرد که این سیگنالی برای شناسایی محتوای ایجاد شده توسط افراد و برای افراد است.
دنی سالیوان از Google نوشت:
«…ما در حال ارائه یک سری پیشرفتها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسانتر پیدا کنند.
…ما مشتاقانه منتظریم تا در ماههای آینده بر روی این اثر بسازیم تا یافتن محتوای اصلی توسط و برای افراد واقعی را آسانتر کنیم.»
مفهوم “توسط افراد” بودن محتوا سه بار در اعلامیه تکرار میشود، ظاهراً نشان میدهد که کیفیت سیگنال محتوای مفید است.
و اگر «توسط افراد» نوشته نشده باشد، توسط ماشین تولید میشود، که این نکته مهمی است زیرا الگوریتم مورد بحث در اینجا به تشخیص محتوای تولید شده توسط ماشین مربوط میشود.
۵. آیا محتوای مفید چند چیز را سیگنال می دهد؟
در نهایت، به نظر میرسد اعلامیه وبلاگ Google نشان میدهد که بهروزرسانی محتوای مفید مانند یک الگوریتم تنها یک چیز نیست.
دنی سالیوان می نویسد که این یک “مجموعه پیشرفت ها” است که، اگر زیاد در مورد آن مطالعه نکنم، به این معنی است که این فقط یک الگوریتم یا سیستم نیست، بلکه چندین الگوریتم با هم کار را انجام می دهند. حذف محتوای غیر مفید.
این چیزی است که او نوشت:
“…ما در حال ارائه یک سری پیشرفتها در جستجو هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسانتر پیدا کنند.”
مدل های تولید متن می توانند کیفیت صفحه را پیش بینی کنند
آنچه که این مقاله تحقیقاتی کشف میکند این است که مدلهای زبان بزرگ (LLM) مانند GPT-2 میتوانند محتوای با کیفیت پایین را به دقت شناسایی کنند.
آنها از طبقهبندیکنندههایی استفاده کردند که برای شناسایی متن تولید شده توسط ماشین آموزش دیده بودند و متوجه شدند که همان طبقهبندیکنندهها میتوانند متن با کیفیت پایین را شناسایی کنند، حتی اگر برای انجام این کار آموزش ندیده باشند.
مدل های زبان بزرگ می توانند یاد بگیرند که چگونه کارهای جدیدی را انجام دهند که برای انجام آنها آموزش ندیده اند.
یک مقاله دانشگاه استنفورد در مورد GPT-3 بحث می کند که چگونه به طور مستقل توانایی ترجمه متن از انگلیسی به فرانسوی را یاد گرفته است، صرفاً به این دلیل که داده های بیشتری برای یادگیری به آن داده شده است، چیزی که با GPT-2 اتفاق نیفتاد. با داده های کمتری آموزش دیده است.
این مقاله به این نکته اشاره میکند که چگونه افزودن دادههای بیشتر باعث بروز رفتارهای جدید میشود، نتیجه چیزی که آموزش بدون نظارت
نامیده میشود.
آموزش بدون نظارت زمانی است که یک ماشین یاد می گیرد چگونه کاری را انجام دهد که برای انجام آن آموزش ندیده است.
این کلمه “ظهور” مهم است زیرا به زمانی اشاره دارد که دستگاه یاد می گیرد کاری را انجام دهد که برای انجام آن آموزش ندیده است.
مقاله دانشگاه استنفورد در مورد GPT-3 توضیح می دهد:
«شرکتکنندگان کارگاه گفتند که از این که چنین رفتاری از مقیاسبندی ساده دادهها و منابع محاسباتی پدید میآید شگفتزده شدهاند و درباره اینکه چه قابلیتهای بیشتری از مقیاس بیشتر به دست میآیند، کنجکاوی کردند.»
ظهور یک توانایی جدید دقیقاً همان چیزی است که مقاله تحقیقاتی توصیف می کند. آنها کشف کردند که یک آشکارساز متن تولید شده توسط ماشین همچنین می تواند محتوای با کیفیت پایین را پیش بینی کند.
محققان می نویسند:
«کار ما دو جنبه دارد: اولاً ما از طریق ارزیابی انسانی نشان میدهیم که طبقهبندیکنندههای آموزش دیده برای تمایز بین متن تولید شده توسط انسان و ماشین بهعنوان پیشبینیکنندههای بدون نظارت «کیفیت صفحه» ظاهر میشوند و قادر به تشخیص محتوای با کیفیت پایین بدون هیچ آموزشی هستند.
این کار راهاندازی سریع نشانگرهای کیفیت را در یک تنظیمات کم منبع فعال میکند.
ثانیاً، کنجکاو برای درک شیوع و ماهیت صفحات با کیفیت پایین در طبیعت، ما تجزیه و تحلیل کیفی و کمی گسترده ای را بیش از ۵۰۰ میلیون مقاله وب انجام می دهیم و این را به بزرگترین مطالعه در مقیاسی تبدیل می کنیم که تاکنون در مورد این موضوع انجام شده است.”
نکته مهم در اینجا این است که آنها از یک مدل تولید متن آموزش دیده برای شناسایی محتوای تولید شده توسط ماشین استفاده کردند و متوجه شدند که یک رفتار جدید ظاهر شده است، توانایی شناسایی صفحات با کیفیت پایین.
آشکارساز OpenAI GPT-2
محققان دو سیستم را آزمایش کردند تا ببینند چقدر برای تشخیص محتوای با کیفیت پایین کار می کنند.
یکی از سیستمهای مورد استفاده RoBERTa، که یک روش پیشآموزشی است که نسخه بهبودیافته BERT است.
این دو سیستم آزمایش شده هستند:
- آشکارساز GPT-2 مبتنی بر RoBERTa OpenAI
- GLTR (تشخیص آماری و تجسم متن تولید شده)
به دنبال “امضای آماری” محتوای تولید شده توسط ماشین می گردد. از BERT و GPT-2 استفاده می کند.
آنها دریافتند که آشکارساز GPT-2 OpenAI در تشخیص محتوای کم کیفیت برتر است.
توضیحات نتایج آزمون دقیقاً منعکس کننده آنچه در مورد سیگنال محتوای مفید می دانیم است.
هوش مصنوعی همه اشکال هرزنامه زبان را شناسایی می کند
مقاله تحقیقاتی بیان میکند که سیگنالهای کیفیت زیادی وجود دارد، اما این رویکرد فقط بر کیفیت زبانی یا زبانی تمرکز دارد.
برای اهداف این مقاله پژوهشی الگوریتم، عبارات “کیفیت صفحه” و “کیفیت زبان” به یک معنا هستند.
پیشرفت در این تحقیق این است که آنها با موفقیت از پیشبینی آشکارساز OpenAI GPT-2 در مورد اینکه آیا چیزی توسط ماشین تولید میشود یا نه، به عنوان امتیازی برای کیفیت زبان استفاده کردند.
آنها می نویسند:
«…اسناد با نمره P (ماشین نویسی) بالا معمولاً کیفیت زبان پایینی دارند.
…تشخیص نویسندگی ماشین بنابراین می تواند یک پروکسی قدرتمند برای ارزیابی کیفیت باشد.
این نیاز به نمونههای برچسبگذاریشده ندارد – فقط مجموعهای از متن برای آموزش به شیوهای خودتبعیضآمیز.
این به ویژه در برنامههایی که دادههای برچسبگذاریشده کمیاب هستند یا در جایی که توزیع برای نمونهگیری بسیار پیچیده است، بسیار ارزشمند است.
بهعنوان مثال، ایجاد یک مجموعه داده برچسبدار که نماینده همه اشکال محتوای وب با کیفیت پایین است، چالش برانگیز است.”
این بدان معناست که این سیستم برای شناسایی انواع خاصی از محتوای با کیفیت پایین لازم نیست آموزش دیده باشد.
می آموزد که همه تغییرات با کیفیت پایین را به تنهایی پیدا کند.
این یک روش قدرتمند برای شناسایی صفحاتی است که کیفیت بالایی ندارند.
آینه نتایج بهروزرسانی محتوای مفید
آنها این سیستم را روی نیم میلیارد صفحه وب آزمایش کردند و صفحات را با استفاده از ویژگی های مختلف مانند طول سند، سن محتوا و موضوع تجزیه و تحلیل کردند.
سن محتوا مربوط به علامت گذاری محتوای جدید به عنوان کیفیت پایین نیست.
آنها به سادگی محتوای وب را به مرور زمان تجزیه و تحلیل کردند و متوجه شدند که از سال ۲۰۱۹، همزمان با محبوبیت روزافزون استفاده از محتوای تولید شده توسط ماشین، جهش عظیمی در صفحات با کیفیت پایین رخ داده است.
تحلیل بر اساس موضوع نشان داد که برخی از حوزههای موضوعی صفحات با کیفیت بالاتری دارند، مانند موضوعات حقوقی و دولتی.
جالب این است که آنها تعداد زیادی صفحات با کیفیت پایین را در فضای آموزشی کشف کردند که به گفته آنها با سایت هایی که مقاله به دانش آموزان ارائه می دادند مطابقت دارد.
آنچه این موضوع را جالب میکند این است که آموزش موضوعی است که Google به طور خاص به آن اشاره کرده است تا تحت تأثیر بهروزرسانی محتوای مفید قرار گیرد.
پست وبلاگ Google نوشته شده توسط دنی سالیوان به اشتراک می گذارد:
“…تست ما نشان داد که به ویژه نتایج مربوط به آموزش آنلاین را بهبود می بخشد…”
سه امتیاز کیفیت زبان
دستورالعملهای ارزیابی کیفیت Google ( PDF) از چهار امتیاز کیفیت کم، متوسط، زیاد و بسیار بالا استفاده می کند.
محققان از سه نمره کیفیت برای آزمایش سیستم جدید، به علاوه یک امتیاز دیگر که نامش تعریف نشده بود، استفاده کردند.
اسنادی که بهعنوان تعریفنشده رتبهبندی شدند، آنهایی بودند که به هر دلیلی قابل ارزیابی نبودند و حذف شدند.
نمرات ۰، ۱ و ۲ رتبهبندی میشوند که دو امتیاز بالاترین امتیاز را دارند.
اینها توضیحات نمرات کیفیت زبان (LQ):
«۰: LQ کم.
متن نامفهوم یا از نظر منطقی ناسازگار است.۱: LQ متوسط.
متن قابل درک است اما ضعیف نوشته شده است (اشتباهات دستوری / نحوی مکرر).۲: LQ بالا.
متن قابل فهم و به خوبی نوشته شده است (اشتباهات دستوری / نحوی نادر).
در اینجا تعاریف دستورالعمل های ارزیابی کیفیت از کیفیت پایین آمده است:
کمترین کیفیت:
“MC بدون تلاش کافی، اصالت، استعداد یا مهارت لازم برای رسیدن به هدف صفحه به شیوه ای رضایت بخش ایجاد می شود.
…توجه کمی به جنبه های مهم مانند وضوح یا سازماندهی.
…برخی از محتوای با کیفیت پایین با تلاش کمی ایجاد میشوند تا محتوایی برای پشتیبانی داشته باشند
کسب درآمد به جای ایجاد محتوای اصلی یا پر زحمت برای کمک به کاربران.همچنین ممکن است محتوای
Filer” اضافه شود، به خصوص در بالای صفحه، که کاربران را مجبور می کند برای رسیدن به MC به پایین حرکت کنند.
…نوشتن این مقاله غیرحرفهای است، از جمله بسیاری از اشتباهات گرامری و نقطهگذاری. sss2_sllo_o mmh-90-wrap”>
دستورالعملهای ارزیابیکننده کیفیت نسبت به الگوریتم، توصیف دقیقتری از کیفیت پایین دارند.
آنچه جالب است این است که چگونه الگوریتم بر خطاهای دستوری و نحوی تکیه می کند.
نحو اشاره ای به ترتیب کلمات است.
کلمات با ترتیب اشتباه نادرست به نظر می رسند، شبیه به نحوه صحبت شخصیت یودا در جنگ ستارگان (“دیدن آینده غیرممکن است”).
آیا الگوریتم محتوای مفید به سیگنالهای دستوری و نحوی متکی است؟ اگر این الگوریتم است، ممکن است نقشی داشته باشد (اما نه تنها نقش).
اما من میخواهم فکر کنم که الگوریتم با برخی از آنچه در دستورالعملهای ارزیابی کیفیت وجود دارد، بین انتشار تحقیق در سال ۲۰۲۱ و انتشار سیگنال محتوای مفید در سال ۲۰۲۲ بهبود یافته است.
الگوریتم “قدرتمند” است
این یک تمرین خوب است که نتایج را بخوانید تا در صورت مناسب بودن الگوریتم در نتایج جستجو، ایده بگیرید.
بسیاری از مقالات تحقیقاتی با این جمله خاتمه مییابند که تحقیقات بیشتری باید انجام شود یا به این نتیجه میرسند که پیشرفتها حاشیهای هستند.
جذاب ترین مقالات آنهایی هستند که ادعای نتایج جدید در زمینه هنر را دارند.
محققان خاطرنشان می کنند که این الگوریتم قدرتمند است و از خطوط پایه بهتر عمل می کند.
آنچه این را به یک نامزد خوب برای سیگنال نوع محتوای مفید تبدیل میکند این است که الگوریتمی با منبع کم است که در مقیاس وب است.
در نتیجه آنها نتایج مثبت را مجدداً تأیید می کنند:
“این مقاله بیان می کند که آشکارسازهایی که برای تمایز دادن متن نوشته شده توسط انسان و ماشین آموزش دیده اند، پیش بینی کننده های موثری برای کیفیت زبان صفحات وب هستند و از طبقه بندی کننده هرزنامه نظارت شده اولیه بهتر عمل می کنند.”
نتیجه گیری مقاله تحقیقاتی در مورد پیشرفت مثبت بود و ابراز امیدواری کرد که این تحقیق توسط دیگران مورد استفاده قرار گیرد.
هیچ اشاره ای به تحقیقات بیشتر نشده است.
این مقاله تحقیقاتی پیشرفتی را در تشخیص صفحات وب با کیفیت پایین توصیف میکند.
نتیجه گیری نشان می دهد که، به نظر من، احتمال وجود دارد که بتواند آن را به الگوریتم Google تبدیل کند.
از آنجایی که این الگوریتم به عنوان یک الگوریتم «در مقیاس وب» توصیف میشود که میتواند در «تنظیمات کم منابع» مستقر شود، به این معنی است که این الگوریتمی است که میتواند به صورت مستمر اجرا شود، درست مانند محتوای مفید. سیگنال انجام می شود.
ما نمی دانیم که آیا این مربوط به به روز رسانی محتوای مفید است یا خیر، اما مطمئناً یک پیشرفت در علم تشخیص محتوای با کیفیت پایین است.
نقل قول ها
صفحه تحقیقات Google:
مدلهای مولد پیشبینیکنندههای بدون نظارت کیفیت صفحه هستند: یک مطالعه در مقیاس عظیم
مقاله پژوهشی Google را دانلود کنید
مدلهای مولد پیشبینی نشده هستند کیفیت صفحه: یک مطالعه در مقیاس عظیم (PDF)
تصویر ویژه توسط Shutterstock/Asier Romero