نگرانی در مورد عدم وجود راهی آسان برای انصراف از استفاده از محتوای شخصی برای آموزش مدلهای زبان بزرگ (LLM) مانند ChatGPT. راهی برای انجام آن وجود دارد، اما این کار نه ساده است و نه تضمین شده است.
چگونه هوش مصنوعی از محتوای شما یاد می گیرد
مدلهای زبان بزرگ (LLM) بر روی دادهها آموزش دیدهاند که از منابع متعدد سرچشمه می گیرد. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.
به طور کلی، مدلهای زبان بزرگ از منابع متنوعی برای آموزش استفاده میکنند.
نمونه هایی از انواع منابع استفاده شده:
- ویکی پدیا
- سوابق دادگاه دولتی
- کتابها
- ایمیل ها
- وب سایت های خزیده شده
در واقع پورتالها و وبسایتهایی وجود دارند که مجموعه دادههایی را ارائه میدهند که حجم زیادی از اطلاعات را ارائه میدهند.
یکی از پورتال ها توسط آمازون میزبانی می شود و هزاران مجموعه داده را در رجیستری داده های باز در AWS ارائه می کند. .
عکس از آمازون، ژانویه ۲۰۲۳پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از بسیاری دیگر است که دارای مجموعه داده های بیشتری است.
ویکیپدیا ۲۸ پورتال را فهرست میکند برای دانلود مجموعه دادهها، از جمله Google مجموعه داده و پورتال Hugging Face برای یافتن هزاران مجموعه داده.
مجموعه داده های مورد استفاده برای آموزش ChatGPT
ChatGPT مبتنی بر GPT-3.5 است که با نام InstructGPT نیز شناخته میشود.
مجموعه داده های مورد استفاده برای آموزش GPT-3.5 همان است که برای GPT-3 استفاده می شود. تفاوت عمده بین این دو این است که GPT-3.5 از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می کند.
پنج مجموعه داده مورد استفاده برای آموزش GPT-3 (و GPT-3.5) در صفحه ۹ مقاله تحقیقاتی، مدل های زبانی، یادگیرندگان کمی هستند (PDF)
مجموعه داده ها عبارتند از:
- Crawl مشترک (فیلتر شده)
- WebText2
- کتابها۱
- کتابها۲
- ویکی پدیا
از میان پنج مجموعه داده، دو موردی که مبتنی بر خزیدن در اینترنت هستند عبارتند از:
درباره مجموعه داده WebText2
WebText2 یک مجموعه داده OpenAI خصوصی است که با خزیدن پیوندهایی از Reddit ایجاد شده است که دارای سه رأی موافق است.
ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند.
WebText2 نسخه توسعه یافته مجموعه داده اصلی WebText است که توسط OpenAI توسعه یافته است.
مجموعه داده اصلی WebText حدود ۱۵ میلیارد توکن داشت. WebText برای آموزش GPT-2 استفاده شد.
WebText2 کمی بزرگتر است و ۱۹ میلیارد توکن دارد. WebText2 چیزی است که برای آموزش GPT-3 و GPT-3.5
استفاده شد
OpenWebText2
WebText2 (ایجاد شده توسط OpenAI) برای عموم در دسترس نیست.
با این حال، یک نسخه منبع باز در دسترس عموم به نام OpenWebText2 وجود دارد. OpenWebText2 یک مجموعه داده عمومی است که با استفاده از الگوهای خزیدن یکسان ایجاد شده است که احتمالاً مجموعه داده های URL های مشابه OpenAI WebText2 را ارائه می دهد.
این را فقط در صورتی ذکر میکنم که کسی بخواهد بداند در WebText2 چیست. می توان OpenWebText2 را دانلود کرد تا از URL های موجود در آن ایده بگیرد.
نسخه پاکشده OpenWebText2 را می توان از اینجا دانلود کرد. نسخه خام OpenWebText2 در اینجا موجود است.
من نتوانستم اطلاعاتی در مورد عامل کاربری مورد استفاده برای هر یک از خزندهها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.
تا آنجا که من می دانم، هیچ عامل کاربری برای مسدود کردن وجود ندارد، اگرچه من ۱۰۰٪ مطمئن نیستم.
با این وجود، ما می دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند داده شده باشد، احتمال زیادی وجود دارد که سایت شما هم در مجموعه داده منبع بسته OpenAI WebText2 و هم در نسخه منبع باز آن، OpenWebText2 باشد.
اطلاعات بیشتر درباره OpenWebText2 اینجاست.
Crawl مشترک
یکی از متداولترین مجموعه دادههایی که از محتوای اینترنتی استفاده میشود، مجموعه داده Common Crawl است که توسط یک سازمان غیرانتفاعی به نام خزیدن معمول.
دادههای Crawl مشترک از رباتی میآیند که کل اینترنت را میخزد.
دادهها توسط سازمانهایی که مایل به استفاده از دادهها هستند دانلود میشوند و سپس از سایتهای هرزنامه و غیره پاک میشوند.
نام ربات Common Crawl، CCBot است.
CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.
اما، اگر سایت شما قبلاً خزیده شده باشد، احتمالاً قبلاً در مجموعه دادههای متعدد گنجانده شده است.
با این وجود، با مسدود کردن Common Crawl، میتوانید محتوای وبسایت خود را از گنجاندن در مجموعههای داده جدید که از جدیدتر مجموعه دادههای Common Crawl انصراف دهید.
این همان چیزی است که در همان ابتدای مقاله نوشتم که این فرآیند “نه ساده است و نه تضمین شده است که کار کند.”
رشته CCBot User-Agent این است:
CCBot/2.0
برای مسدود کردن ربات Common Crawl موارد زیر را به فایل robots.txt خود اضافه کنید:
عامل کاربر: CCBot
غیر مجاز: /
یک راه دیگر برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرسهای IP آمازون AWS خزیده شود.
CCBot همچنین از دستورالعملهای متا تگ روبات nofollow تبعیت میکند.
از این در متا تگ روبات خود استفاده کنید:
یک نکته قبل از مسدود کردن هر ربات
بسیاری از مجموعه دادهها، از جمله Common Crawl، میتواند توسط شرکتهایی استفاده شود که URLها را فیلتر و دستهبندی میکنند تا فهرستی از وبسایتها را برای هدف تبلیغات ایجاد کنند.
به عنوان مثال، شرکتی با نام Alpha Quantum یک مجموعه داده از نشانیهای اینترنتی را ارائه میدهد که با استفاده از ردهبندی دفتر تبلیغات تعاملی مجموعه داده برای بازاریابی AdTech و تبلیغات متنی مفید است. حذف از پایگاه داده ای مانند آن می تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.
مسدود کردن هوش مصنوعی از استفاده از محتوای شما
موتورهای جستجو به وبسایتها اجازه میدهند از خزیدن انصراف دهند. Common Crawl همچنین اجازه انصراف را می دهد. اما در حال حاضر راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.
علاوه بر این، به نظر نمیرسد دانشمندان تحقیقاتی راهی برای انصراف از خزیدن به ناشران وبسایت ارائه دهند.
مقاله، استفاده ChatGPT از محتوای وب منصفانه است؟ این موضوع را بررسی می کند که آیا استفاده از داده های وب سایت بدون اجازه یا راهی برای انصراف اخلاقی است یا نه.
بسیاری از ناشران ممکن است از آن قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود.
این اتفاق در حال حاضر ناشناخته است.
منابع بیشتر:
- ChatGPT: چیست و چگونه میتوانید از آن استفاده کنید؟
- چگونه واترمارک ChatGPT کار میکند و چرا میتوان آن را شکست داد
- هوش مصنوعی برای سئو: آیا می توانید سریعتر و هوشمندتر کار کنید؟
تصویر ویژه توسط Shutterstock/ViDI Studio