مدلهای زبان بزرگ (LLM) مانند ChatGPT آموزش با استفاده از منابع اطلاعاتی متعدد، از جمله محتوای وب. این دادهها اساس خلاصههای آن محتوا را در قالب مقالههایی تشکیل میدهد که بدون ذکر منبع یا منفعت به کسانی که محتوای اصلی مورد استفاده برای آموزش ChatGPT را منتشر کردهاند، تولید میشوند.
موتورهای جستجو محتوای وبسایت (به نام خزیدن و نمایهسازی) را دانلود میکنند تا پاسخهایی را در قالب پیوندهایی به وبسایتها ارائه دهند.
ناشران وبسایت میتوانند از خزیدن و فهرستبندی محتوای خود توسط موتورهای جستجو از طریق پروتکل حذف روباتها که معمولاً به آن Robots.txt گفته میشود، انصراف دهند.
پروتکل حذف روبات ها استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های وب قانونی از آن تبعیت می کنند.
آیا ناشران وب باید بتوانند از پروتکل Robots.txt برای جلوگیری از استفاده مدل های زبان بزرگ از محتوای وب سایت خود استفاده کنند؟
مدل های زبان بزرگ از محتوای وب سایت بدون ذکر منبع استفاده می کنند
برخی از افرادی که با بازاریابی جستجو درگیر هستند، از نحوه استفاده از دادههای وبسایت برای آموزش ماشینها بدون ارائه چیزی، مانند تأیید یا ترافیک، ناراحت نیستند.
Hans Petter Blindheim (نمایه LinkedIn)، کارشناس ارشد در Curamando نظرات خود را با من به اشتراک گذاشت.
هانس پتر نظر داد:
“وقتی نویسنده ای پس از آموختن چیزی از یک مقاله در سایت شما چیزی می نویسد، اغلب به اثر اصلی شما پیوند نمی دهد زیرا اعتبار و احترام حرفه ای را ارائه می دهد.
به آن نقل قول میگویند.
اما مقیاسی که ChatGPT محتوا را جذب میکند و چیزی را پس نمیدهد، آن را از Google و افراد متمایز میکند.
یک وب سایت معمولاً با در نظر گرفتن دستورالعمل تجاری ایجاد می شود.
Google به افراد کمک میکند محتوا را بیابند و ترافیکی را ارائه میدهد که برای آن سود متقابل دارد.
اما اینطور نیست که مدلهای زبان بزرگ برای استفاده از محتوای شما از شما اجازه بگیرند، آنها فقط از آن به معنایی گستردهتر از آنچه در هنگام انتشار محتوای شما انتظار میرفت استفاده میکنند.
و اگر مدلهای زبان هوش مصنوعی در ازای آن ارزشی ارائه نمیدهند – چرا ناشران باید به آنها اجازه دهند محتوا را بخزند و استفاده کنند؟
آیا استفاده آنها از محتوای شما با استانداردهای استفاده منصفانه مطابقت دارد؟
وقتی ChatGPT و مدلهای ML/AI خود Google بدون اجازه روی محتوای شما آموزش میدهند، آنچه را که یاد میگیرد در آنجا میچرخاند و از آن استفاده میکند در حالی که مردم را از وبسایتهای شما دور نگه میدارد – آیا صنعت و همچنین قانونگذاران نباید سعی کنند کنترل را بر روی محتوای شما پس بگیرند. اینترنت با وادار کردن آنها به انتقال به مدل «انتخاب کردن»؟»
نگرانی هایی که هانس پتر بیان می کند منطقی است.
با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده منصفانه باید بازنگری و به روز شوند؟
از جان ریزوی، وکیل ثبت اختراع (نمایه لینکدین پرسیدم ) که دارای گواهینامه حقوق مالکیت فکری است، اگر قوانین حق نسخه برداری اینترنت قدیمی باشد.
جان پاسخ داد:
“بله، بدون شک.
یکی از دلایل اصلی اختلاف در مواردی مانند این، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی تکامل مییابد.
در دهه ۱۸۰۰، این شاید چندان اهمیتی نداشت، زیرا پیشرفتها نسبتاً کند بود و بنابراین دستگاههای قانونی کم و بیش برای تطبیق با آنها مجهز بودند.
اما امروز، پیشرفتهای فنآوری بیسابقه بسیار از توانایی قانون برای ادامهدادن پیشی گرفته است.
پیشرفتهای بسیار زیاد و قطعات متحرک بسیار زیادی وجود دارد که نمیتوان قانون را رعایت کرد.
از آنجایی که در حال حاضر، عمدتاً توسط افرادی که به سختی در زمینههای فناوری مورد بحث ما در اینجا بحث میکنیم، تشکیل و اداره میشود، قانون مجهز یا ساختار ضعیفی برای همگام شدن با فناوری است… و ما باید در نظر بگیریم که اینطور نیست. چیز کاملا بدی نیست.
بنابراین، از یک جهت، بله، قانون مالکیت فکری باید تکامل یابد، چه رسد به اینکه بتواند همگام با پیشرفتهای فناوری باشد.
مشکل اصلی برقراری تعادل بین راههایی است که میتوان از اشکال مختلف فناوری استفاده کرد و در عین حال از دستاندازی آشکار یا سانسور آشکار برای منافع سیاسی پوشانده شده در نیات خیرخواهانه خودداری کرد.
قانون همچنین باید مراقب باشد که علیه استفادههای احتمالی از فناوری بهطور گسترده قانونی وضع نشود تا هر گونه منفعت بالقوهای که ممکن است از آنها حاصل شود خفه شود.
شما به راحتی می توانید با اصلاحیه اول و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا، و تا چه حد می تواند و توسط چه کسی استفاده شود، مخالفت کنید.
و تلاش برای تجسم هر استفاده قابل تصور از فناوری سالها یا دهه ها قبل از وجود این چارچوب برای قابل دوام کردن یا حتی ممکن کردن آن، یک کار احمقانه بسیار خطرناک است.
در شرایطی مانند این، قانون واقعاً نمیتواند به نحوه استفاده از فناوری واکنش نشان دهد… نه لزوماً آنطور که در نظر گرفته شده است.
احتمالاً به این زودی تغییر نخواهد کرد، مگر اینکه به یک پلاتوی عظیم و غیرمنتظره فناوری برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.”
بنابراین به نظر می رسد که موضوع قوانین کپی رایت ملاحظات زیادی در مورد نحوه آموزش هوش مصنوعی دارد، پاسخ ساده ای وجود ندارد.
OpenAI و Microsoft Sued
یک مورد جالب که اخیراً تشکیل شده است، موردی است که در آن OpenAI و Microsoft از کد منبع باز برای ایجاد محصول CoPilot خود استفاده کردند.
مشکل استفاده از کد منبع باز این است که مجوز Creative Commons نیاز به ذکر منبع دارد.
طبق یک مقاله منتشر شده در یک مجله علمی:
«شاکیها ادعا میکنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را برای ایجاد کد مولد با استفاده از کدهای قابل دسترس عموم که در ابتدا تحت مجوزهای مختلف به سبک «منبع باز» در دسترس قرار گرفته بودند، مونتاژ و توزیع کردند.
همانطور که GitHub بیان میکند، «…[t]بر روی میلیاردها خط کد، GitHub Copilot درخواستهای زبان طبیعی را به پیشنهادهای کدنویسی در دهها زبان تبدیل میکند.»
ظاهراً محصول حاصل هیچ اعتباری را برای سازندگان اصلی حذف کرده است.”
نویسنده آن مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت که بسیاری مجوزهای Creative Commons منبع باز را “رایگان برای همه” می دانند.
برخی ممکن است عبارت رایگان برای همه را توضیحی منصفانه از مجموعه دادههای متشکل از محتوای اینترنتی در نظر بگیرند که برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده میشوند.
پس زمینه LLM و مجموعه داده
مدلهای زبان بزرگ بر روی مجموعههای داده چندگانه از محتوا آموزش میبینند. مجموعه دادهها میتوانند شامل ایمیلها، کتابها، دادههای دولتی، مقالات ویکیپدیا و حتی مجموعه دادههای ایجاد شده از وبسایتهای پیوند شده از پستهای Reddit که حداقل سه رأی موافق دارند، باشد.
بسیاری از مجموعه داده های مرتبط با محتوای اینترنت منشأ خود را در خزیدن ایجاد شده توسط یک سازمان غیرانتفاعی به نام خزیدن معمول.
مجموعه داده آنها، مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.
مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن ایجاد شده اند.
به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl استفاده کرد (مدلهای زبان چند یادگیرنده PDF).
به این ترتیب محققان GPT-3 از دادههای وبسایت موجود در مجموعه داده مشترک Crawl استفاده کردند:
“مجموعههای داده برای مدلهای زبان به سرعت گسترش یافتهاند و در مجموعه دادههای Common Crawl به اوج خود رسیدهاند… که تقریباً یک تریلیون کلمه را تشکیل میدهد.
این اندازه مجموعه داده برای آموزش بزرگترین مدلهای ما بدون دوبار بهروزرسانی در یک دنباله کافی است.
با این حال، متوجه شدهایم که نسخههای فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه دادههای انتخابشدهتر کیفیت پایینتری دارند.
بنابراین، ما ۳ مرحله برای بهبود کیفیت متوسط مجموعه دادههای خود برداشتیم:
(۱) نسخهای از CommonCrawl را بر اساس شباهت به مجموعهای از مجموعههای مرجع با کیفیت بالا دانلود و فیلتر کردیم،
(۲) برای جلوگیری از افزونگی و حفظ یکپارچگی مجموعه اعتبار سنجی نگهداشته شده خود به عنوان اندازه گیری دقیق بیش از حد، کپی برداری فازی را در سطح سند، در داخل و بین مجموعه داده ها انجام دادیم، و
(۳) همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعههای مرجع شناخته شده با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.”
مجموعه داده Google C4 (Colossal, Cleaned Crawl Corpus) که برای ایجاد Transformer Text-to-Text Transfer Transformer (T5) استفاده شد، ریشه در مجموعه داده Common Crawl نیز دارد.
مقاله تحقیقاتی آنها (کاوش در محدودیتهای انتقال یادگیری با یک متن واحد به- Text Transformer PDF) توضیح می دهد:
“قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، موضوعات زمینه لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورماتور و وظایف پایین دستی که بر روی آنها ارزیابی می کنیم.
ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی بهعنوان یک کار متن به نوشتار معرفی میکنیم و «Colossal Clean Crawled Corpus» (C4)، مجموعه دادههای رایج مبتنی بر خزیدن را که به عنوان منبع دادههای متنی بدون برچسب ایجاد کردهایم، توصیف میکنیم.
ما به مدل و چارچوب خود به عنوان «تبدیل تبدیل متن به متن» (T5) اشاره میکنیم.»
Google مقالهای منتشر کرد در وبلاگ هوش مصنوعی آنها که بیشتر توضیح می دهد که چگونه از داده های Common Crawl (که حاوی محتوای خراشیده شده از اینترنت است) برای ایجاد C4 استفاده شده است.
آنها نوشتند:
“یک عنصر مهم برای یادگیری انتقال، مجموعه داده بدون برچسبی است که برای قبل از آموزش استفاده می شود.
برای اندازهگیری دقیق تأثیر مقیاسپذیری میزان پیشآموزش، به مجموعهای نیاز دارید که نه تنها با کیفیت و متنوع باشد، بلکه گسترده باشد.
مجموعه دادههای پیشآموزشی موجود، هر سه این معیارها را برآورده نمیکنند – برای مثال، متن از ویکیپدیا با کیفیت بالا است، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند. ، اما کیفیت نسبتاً پایینی دارد.
برای ارضای این الزامات، ما Corpus Crawled Colossal Clean (C4) را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکیپدیا است.
فرایند تمیز کردن ما شامل کپی برداری، حذف جملات ناقص، و حذف محتوای توهین آمیز یا پر سر و صدا بود.
این فیلتر کردن منجر به نتایج بهتری در کارهای پایین دستی شد، در حالی که اندازه اضافی به اندازه مدل اجازه میداد تا در طول دوره پیشآموزشی، اندازه مدل را بدون جابجایی بیش از حد افزایش دهد.»
Google، OpenAI، حتی دادههای باز Oracle از محتوای اینترنتی، محتوای شما، برای ایجاد مجموعه دادههایی استفاده میکنند که سپس برای ایجاد برنامههای هوش مصنوعی مانند ChatGPT استفاده میشوند.
Crawl مشترک را می توان مسدود کرد
ممکن است Common Crawl را مسدود کرد و متعاقباً از تمام مجموعه دادههایی که بر اساس Common Crawl هستند انصراف داد.
اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها هستند. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و سایر مجموعه دادههای مشتق شده مانند C4 و Open Data وجود ندارد.
استفاده از پروتکل Robots.txt فقط خزیدنهای بعدی توسط Common Crawl را مسدود میکند و مانع از استفاده محققان از محتوای موجود در مجموعه داده نمیشود.
نحوه مسدود کردن Common Crawl از داده های خود
مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیتهای مورد بحث در بالا، امکانپذیر است.
ربات Common Crawl، CCBot نامیده می شود.
با استفاده از بهروزترین رشته CCBot User-Agent شناسایی میشود: CCBot/2.0
مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.
این کد برای مسدود کردن CCBot با Robots.txt است.
عامل کاربر: CCBot غیر مجاز: /
CCBot از آدرسهای IP آمازون AWS میخزد.
CCBot همچنین از متا تگ Robots nofollow پیروی می کند:
اگر Crawl معمولی را مسدود نکنید چه؟
محتوای وب را میتوان بدون اجازه بارگیری کرد، مرورگرها چگونه کار میکنند، آنها محتوا را دانلود میکنند.
Google یا هر کس دیگری برای بارگیری و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.
ناشران وب سایت گزینه های محدودی دارند
به نظر نمیرسد که رعایت اخلاقی بودن آموزش هوش مصنوعی در محتوای وب، بخشی از هیچ مکالمهای در مورد اخلاقیات نحوه توسعه فناوری هوش مصنوعی نباشد.
به نظر می رسد مسلم است که محتوای اینترنتی را می توان دانلود، خلاصه کرد و به محصولی به نام ChatGPT تبدیل کرد.
منصفانه به نظر می رسد؟ پاسخ پیچیده است.
تصویر ویژه توسط Shutterstock/Krakenimages.com