تهران ، ولیعصر
021-987654

چگونه ChatGPT را از استفاده از محتوای وب سایت خود مسدود کنید

نگرانی در مورد عدم وجود راهی آسان برای انصراف از استفاده از محتوای شخصی برای آموزش مدل‌های زبان بزرگ (LLM) مانند ChatGPT. راهی برای انجام آن وجود دارد، اما این کار نه ساده است و نه تضمین شده است.

چگونه هوش مصنوعی از محتوای شما یاد می گیرد

مدل‌های زبان بزرگ (LLM) بر روی داده‌ها آموزش دیده‌اند که از منابع متعدد سرچشمه می گیرد. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.

به طور کلی، مدل‌های زبان بزرگ از منابع متنوعی برای آموزش استفاده می‌کنند.

نمونه هایی از انواع منابع استفاده شده:

  • ویکی پدیا
  • سوابق دادگاه دولتی
  • کتابها
  • ایمیل ها
  • وب سایت های خزیده شده

در واقع پورتال‌ها و وب‌سایت‌هایی وجود دارند که مجموعه داده‌هایی را ارائه می‌دهند که حجم زیادی از اطلاعات را ارائه می‌دهند.

یکی از پورتال ها توسط آمازون میزبانی می شود و هزاران مجموعه داده را در رجیستری داده های باز در AWS ارائه می کند. .

How to Block ChatGPT From Using Your Website Contentعکس از آمازون، ژانویه ۲۰۲۳

پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از بسیاری دیگر است که دارای مجموعه داده های بیشتری است.

ویکی‌پدیا ۲۸ پورتال را فهرست می‌کند برای دانلود مجموعه داده‌ها، از جمله Google مجموعه داده و پورتال Hugging Face برای یافتن هزاران مجموعه داده.

مجموعه داده های مورد استفاده برای آموزش ChatGPT

ChatGPT مبتنی بر GPT-3.5 است که با نام InstructGPT نیز شناخته می‌شود.

مجموعه داده های مورد استفاده برای آموزش GPT-3.5 همان است که برای GPT-3 استفاده می شود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می کند.

پنج مجموعه داده مورد استفاده برای آموزش GPT-3 (و GPT-3.5) در صفحه ۹ مقاله تحقیقاتی، مدل های زبانی، یادگیرندگان کمی هستند (PDF)

مجموعه داده ها عبارتند از:

  1. Crawl مشترک (فیلتر شده)
  2. WebText2
  3. کتابها۱
  4. کتابها۲
  5. ویکی پدیا

از میان پنج مجموعه داده، دو موردی که مبتنی بر خزیدن در اینترنت هستند عبارتند از:

  • Crawl مشترک
  • WebText2

درباره مجموعه داده WebText2

WebText2 یک مجموعه داده OpenAI خصوصی است که با خزیدن پیوندهایی از Reddit ایجاد شده است که دارای سه رأی موافق است.

ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند.

WebText2 نسخه توسعه یافته مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.

مجموعه داده اصلی WebText حدود ۱۵ میلیارد توکن داشت. WebText برای آموزش GPT-2 استفاده شد.

WebText2 کمی بزرگتر است و ۱۹ میلیارد توکن دارد. WebText2 چیزی است که برای آموزش GPT-3 و GPT-3.5

استفاده شد

OpenWebText2

WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست.

با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهای خزیدن یکسان ایجاد شده است که احتمالاً مجموعه داده های URL های مشابه OpenAI WebText2 را ارائه می دهد.

این را فقط در صورتی ذکر می‌کنم که کسی بخواهد بداند در WebText2 چیست. می توان OpenWebText2 را دانلود کرد تا از URL های موجود در آن ایده بگیرد.

نسخه پاک‌شده OpenWebText2 را می توان از اینجا دانلود کرد. نسخه خام OpenWebText2 در اینجا موجود است.

من نتوانستم اطلاعاتی در مورد عامل کاربری مورد استفاده برای هر یک از خزنده‌ها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.

تا آنجا که من می دانم، هیچ عامل کاربری برای مسدود کردن وجود ندارد، اگرچه من ۱۰۰٪ مطمئن نیستم.

با این وجود، ما می دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند داده شده باشد، احتمال زیادی وجود دارد که سایت شما هم در مجموعه داده منبع بسته OpenAI WebText2 و هم در نسخه منبع باز آن، OpenWebText2 باشد.

اطلاعات بیشتر درباره OpenWebText2 اینجاست.

Crawl مشترک

یکی از متداول‌ترین مجموعه داده‌هایی که از محتوای اینترنتی استفاده می‌شود، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام خزیدن معمول.

داده‌های Crawl مشترک از رباتی می‌آیند که کل اینترنت را می‌خزد.

داده‌ها توسط سازمان‌هایی که مایل به استفاده از داده‌ها هستند دانلود می‌شوند و سپس از سایت‌های هرزنامه و غیره پاک می‌شوند.

نام ربات Common Crawl، CCBot است.

CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.

اما، اگر سایت شما قبلاً خزیده شده باشد، احتمالاً قبلاً در مجموعه داده‌های متعدد گنجانده شده است.

با این وجود، با مسدود کردن Common Crawl، می‌توانید محتوای وب‌سایت خود را از گنجاندن در مجموعه‌های داده جدید که از جدیدتر مجموعه داده‌های Common Crawl انصراف دهید.

این همان چیزی است که در همان ابتدای مقاله نوشتم که این فرآیند “نه ساده است و نه تضمین شده است که کار کند.”

رشته CCBot User-Agent این است:

CCBot/2.0

برای مسدود کردن ربات Common Crawl موارد زیر را به فایل robots.txt خود اضافه کنید:

عامل کاربر: CCBot
غیر مجاز: /

یک راه دیگر برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس‌های IP آمازون AWS خزیده شود.

CCBot همچنین از دستورالعمل‌های متا تگ روبات nofollow تبعیت می‌کند.

از این در متا تگ روبات خود استفاده کنید:

یک نکته قبل از مسدود کردن هر ربات

بسیاری از مجموعه داده‌ها، از جمله Common Crawl، می‌تواند توسط شرکت‌هایی استفاده شود که URL‌ها را فیلتر و دسته‌بندی می‌کنند تا فهرستی از وب‌سایت‌ها را برای هدف تبلیغات ایجاد کنند.

به عنوان مثال، شرکتی با نام Alpha Quantum یک مجموعه داده از نشانی‌های اینترنتی را ارائه می‌دهد که با استفاده از رده‌بندی دفتر تبلیغات تعاملی مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن می تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.

مسدود کردن هوش مصنوعی از استفاده از محتوای شما

موتورهای جستجو به وب‌سایت‌ها اجازه می‌دهند از خزیدن انصراف دهند. Common Crawl همچنین اجازه انصراف را می دهد. اما در حال حاضر راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، به نظر نمی‌رسد دانشمندان تحقیقاتی راهی برای انصراف از خزیدن به ناشران وب‌سایت ارائه دهند.

مقاله، استفاده ChatGPT از محتوای وب منصفانه است؟ این موضوع را بررسی می کند که آیا استفاده از داده های وب سایت بدون اجازه یا راهی برای انصراف اخلاقی است یا نه.

بسیاری از ناشران ممکن است از آن قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود.

این اتفاق در حال حاضر ناشناخته است.

منابع بیشتر:

  • ChatGPT: چیست و چگونه می‌توانید از آن استفاده کنید؟
  • چگونه واترمارک ChatGPT کار می‌کند و چرا می‌توان آن را شکست داد
  • هوش مصنوعی برای سئو: آیا می توانید سریعتر و هوشمندتر کار کنید؟

تصویر ویژه توسط Shutterstock/ViDI Studio

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *