تهران ، ولیعصر
021-987654

آیا استفاده ChatGPT از محتوای وب منصفانه است؟

مدل‌های زبان بزرگ (LLM) مانند ChatGPT آموزش با استفاده از منابع اطلاعاتی متعدد، از جمله محتوای وب. این داده‌ها اساس خلاصه‌های آن محتوا را در قالب مقاله‌هایی تشکیل می‌دهد که بدون ذکر منبع یا منفعت به کسانی که محتوای اصلی مورد استفاده برای آموزش ChatGPT را منتشر کرده‌اند، تولید می‌شوند.

موتورهای جستجو محتوای وب‌سایت (به نام خزیدن و نمایه‌سازی) را دانلود می‌کنند تا پاسخ‌هایی را در قالب پیوندهایی به وب‌سایت‌ها ارائه دهند.

ناشران وب‌سایت می‌توانند از خزیدن و فهرست‌بندی محتوای خود توسط موتورهای جستجو از طریق پروتکل حذف روبات‌ها که معمولاً به آن Robots.txt گفته می‌شود، انصراف دهند.

پروتکل حذف روبات ها استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های وب قانونی از آن تبعیت می کنند.

آیا ناشران وب باید بتوانند از پروتکل Robots.txt برای جلوگیری از استفاده مدل های زبان بزرگ از محتوای وب سایت خود استفاده کنند؟

مدل های زبان بزرگ از محتوای وب سایت بدون ذکر منبع استفاده می کنند

برخی از افرادی که با بازاریابی جستجو درگیر هستند، از نحوه استفاده از داده‌های وب‌سایت برای آموزش ماشین‌ها بدون ارائه چیزی، مانند تأیید یا ترافیک، ناراحت نیستند.

Hans Petter Blindheim (نمایه LinkedIn)، کارشناس ارشد در Curamando نظرات خود را با من به اشتراک گذاشت.

هانس پتر نظر داد:

“وقتی نویسنده ای پس از آموختن چیزی از یک مقاله در سایت شما چیزی می نویسد، اغلب به اثر اصلی شما پیوند نمی دهد زیرا اعتبار و احترام حرفه ای را ارائه می دهد.

به آن نقل قول می‌گویند.

اما مقیاسی که ChatGPT محتوا را جذب می‌کند و چیزی را پس نمی‌دهد، آن را از Google و افراد متمایز می‌کند.

یک وب سایت معمولاً با در نظر گرفتن دستورالعمل تجاری ایجاد می شود.

Google به افراد کمک می‌کند محتوا را بیابند و ترافیکی را ارائه می‌دهد که برای آن سود متقابل دارد.

اما اینطور نیست که مدل‌های زبان بزرگ برای استفاده از محتوای شما از شما اجازه بگیرند، آنها فقط از آن به معنایی گسترده‌تر از آنچه در هنگام انتشار محتوای شما انتظار می‌رفت استفاده می‌کنند.

و اگر مدل‌های زبان هوش مصنوعی در ازای آن ارزشی ارائه نمی‌دهند – چرا ناشران باید به آنها اجازه دهند محتوا را بخزند و استفاده کنند؟

آیا استفاده آنها از محتوای شما با استانداردهای استفاده منصفانه مطابقت دارد؟

وقتی ChatGPT و مدل‌های ML/AI خود Google بدون اجازه روی محتوای شما آموزش می‌دهند، آنچه را که یاد می‌گیرد در آنجا می‌چرخاند و از آن استفاده می‌کند در حالی که مردم را از وب‌سایت‌های شما دور نگه می‌دارد – آیا صنعت و همچنین قانون‌گذاران نباید سعی کنند کنترل را بر روی محتوای شما پس بگیرند. اینترنت با وادار کردن آنها به انتقال به مدل «انتخاب کردن»؟»

نگرانی هایی که هانس پتر بیان می کند منطقی است.

با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده منصفانه باید بازنگری و به روز شوند؟

از جان ریزوی، وکیل ثبت اختراع (نمایه لینکدین پرسیدم ) که دارای گواهینامه حقوق مالکیت فکری است، اگر قوانین حق نسخه برداری اینترنت قدیمی باشد.

جان پاسخ داد:

“بله، بدون شک.

یکی از دلایل اصلی اختلاف در مواردی مانند این، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی تکامل می‌یابد.

در دهه ۱۸۰۰، این شاید چندان اهمیتی نداشت، زیرا پیشرفت‌ها نسبتاً کند بود و بنابراین دستگاه‌های قانونی کم و بیش برای تطبیق با آن‌ها مجهز بودند.

اما امروز، پیشرفت‌های فن‌آوری بی‌سابقه بسیار از توانایی قانون برای ادامه‌دادن پیشی گرفته است.

پیشرفت‌های بسیار زیاد و قطعات متحرک بسیار زیادی وجود دارد که نمی‌توان قانون را رعایت کرد.

از آنجایی که در حال حاضر، عمدتاً توسط افرادی که به سختی در زمینه‌های فناوری مورد بحث ما در اینجا بحث می‌کنیم، تشکیل و اداره می‌شود، قانون مجهز یا ساختار ضعیفی برای همگام شدن با فناوری است… و ما باید در نظر بگیریم که اینطور نیست. چیز کاملا بدی نیست.

بنابراین، از یک جهت، بله، قانون مالکیت فکری باید تکامل یابد، چه رسد به اینکه بتواند همگام با پیشرفت‌های فناوری باشد.

مشکل اصلی برقراری تعادل بین راه‌هایی است که می‌توان از اشکال مختلف فناوری استفاده کرد و در عین حال از دست‌اندازی آشکار یا سانسور آشکار برای منافع سیاسی پوشانده شده در نیات خیرخواهانه خودداری کرد.

قانون همچنین باید مراقب باشد که علیه استفاده‌های احتمالی از فناوری به‌طور گسترده قانونی وضع نشود تا هر گونه منفعت بالقوه‌ای که ممکن است از آنها حاصل شود خفه شود.

شما به راحتی می توانید با اصلاحیه اول و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا، و تا چه حد می تواند و توسط چه کسی استفاده شود، مخالفت کنید.

و تلاش برای تجسم هر استفاده قابل تصور از فناوری سالها یا دهه ها قبل از وجود این چارچوب برای قابل دوام کردن یا حتی ممکن کردن آن، یک کار احمقانه بسیار خطرناک است.

در شرایطی مانند این، قانون واقعاً نمی‌تواند به نحوه استفاده از فناوری واکنش نشان دهد… نه لزوماً آنطور که در نظر گرفته شده است.

احتمالاً به این زودی تغییر نخواهد کرد، مگر اینکه به یک پلاتوی عظیم و غیرمنتظره فناوری برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.”

بنابراین به نظر می رسد که موضوع قوانین کپی رایت ملاحظات زیادی در مورد نحوه آموزش هوش مصنوعی دارد، پاسخ ساده ای وجود ندارد.

OpenAI و Microsoft Sued

یک مورد جالب که اخیراً تشکیل شده است، موردی است که در آن OpenAI و Microsoft از کد منبع باز برای ایجاد محصول CoPilot خود استفاده کردند.

مشکل استفاده از کد منبع باز این است که مجوز Creative Commons نیاز به ذکر منبع دارد.

طبق یک مقاله منتشر شده در یک مجله علمی:

«شاکی‌ها ادعا می‌کنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را برای ایجاد کد مولد با استفاده از کدهای قابل دسترس عموم که در ابتدا تحت مجوزهای مختلف به سبک «منبع باز» در دسترس قرار گرفته بودند، مونتاژ و توزیع کردند.

همانطور که GitHub بیان می‌کند، «…[t]بر روی میلیاردها خط کد، GitHub Copilot درخواست‌های زبان طبیعی را به پیشنهادهای کدنویسی در ده‌ها زبان تبدیل می‌کند.»

ظاهراً محصول حاصل هیچ اعتباری را برای سازندگان اصلی حذف کرده است.”

نویسنده آن مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت که بسیاری مجوزهای Creative Commons منبع باز را “رایگان برای همه” می دانند.

برخی ممکن است عبارت رایگان برای همه را توضیحی منصفانه از مجموعه داده‌های متشکل از محتوای اینترنتی در نظر بگیرند که برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده می‌شوند.

پس زمینه LLM و مجموعه داده

مدل‌های زبان بزرگ بر روی مجموعه‌های داده چندگانه از محتوا آموزش می‌بینند. مجموعه داده‌ها می‌توانند شامل ایمیل‌ها، کتاب‌ها، داده‌های دولتی، مقالات ویکی‌پدیا و حتی مجموعه داده‌های ایجاد شده از وب‌سایت‌های پیوند شده از پست‌های Reddit که حداقل سه رأی موافق دارند، باشد.

بسیاری از مجموعه داده های مرتبط با محتوای اینترنت منشأ خود را در خزیدن ایجاد شده توسط یک سازمان غیرانتفاعی به نام خزیدن معمول.

مجموعه داده آنها، مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.

مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن ایجاد شده اند.

به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl استفاده کرد (مدل‌های زبان چند یادگیرنده PDF).

به این ترتیب  محققان GPT-3 از داده‌های وب‌سایت موجود در مجموعه داده مشترک Crawl استفاده کردند:

“مجموعه‌های داده برای مدل‌های زبان به سرعت گسترش یافته‌اند و در مجموعه داده‌های Common Crawl به اوج خود رسیده‌اند… که تقریباً یک تریلیون کلمه را تشکیل می‌دهد.

این اندازه مجموعه داده برای آموزش بزرگ‌ترین مدل‌های ما بدون دوبار به‌روزرسانی در یک دنباله کافی است.

با این حال، متوجه شده‌ایم که نسخه‌های فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه داده‌های انتخاب‌شده‌تر کیفیت پایین‌تری دارند.

بنابراین، ما ۳ مرحله برای بهبود کیفیت متوسط ​​مجموعه داده‌های خود برداشتیم:

(۱) نسخه‌ای از CommonCrawl را بر اساس شباهت به مجموعه‌ای از مجموعه‌های مرجع با کیفیت بالا دانلود و فیلتر کردیم،

(۲) برای جلوگیری از افزونگی و حفظ یکپارچگی مجموعه اعتبار سنجی نگهداشته شده خود به عنوان اندازه گیری دقیق بیش از حد، کپی برداری فازی را در سطح سند، در داخل و بین مجموعه داده ها انجام دادیم، و

(۳) همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعه‌های مرجع شناخته شده با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.”

مجموعه داده Google C4 (Colossal, Cleaned Crawl Corpus) که برای ایجاد Transformer Text-to-Text Transfer Transformer (T5) استفاده شد، ریشه در مجموعه داده Common Crawl نیز دارد.

مقاله تحقیقاتی آنها (کاوش در محدودیت‌های انتقال یادگیری با یک متن واحد به- Text Transformer PDF) توضیح می دهد:

“قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، موضوعات زمینه لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورماتور و وظایف پایین دستی که بر روی آنها ارزیابی می کنیم.

ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی به‌عنوان یک کار متن به نوشتار معرفی می‌کنیم و «Colossal Clean Crawled Corpus» (C4)، مجموعه داده‌های رایج مبتنی بر خزیدن را که به عنوان منبع داده‌های متنی بدون برچسب ایجاد کرده‌ایم، توصیف می‌کنیم.

ما به مدل و چارچوب خود به عنوان «تبدیل تبدیل متن به متن» (T5) اشاره می‌کنیم.»

Google مقاله‌ای منتشر کرد در وبلاگ هوش مصنوعی آنها که بیشتر توضیح می دهد که چگونه از داده های Common Crawl (که حاوی محتوای خراشیده شده از اینترنت است) برای ایجاد C4 استفاده شده است.

آنها نوشتند:

“یک عنصر مهم برای یادگیری انتقال، مجموعه داده بدون برچسبی است که برای قبل از آموزش استفاده می شود.

برای اندازه‌گیری دقیق تأثیر مقیاس‌پذیری میزان پیش‌آموزش، به مجموعه‌ای نیاز دارید که نه تنها با کیفیت و متنوع باشد، بلکه گسترده باشد.

مجموعه داده‌های پیش‌آموزشی موجود، هر سه این معیارها را برآورده نمی‌کنند – برای مثال، متن از ویکی‌پدیا با کیفیت بالا است، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند. ، اما کیفیت نسبتاً پایینی دارد.

برای ارضای این الزامات، ما Corpus Crawled Colossal Clean (C4) را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکی‌پدیا است.

فرایند تمیز کردن ما شامل کپی برداری، حذف جملات ناقص، و حذف محتوای توهین آمیز یا پر سر و صدا بود.

این فیلتر کردن منجر به نتایج بهتری در کارهای پایین دستی شد، در حالی که اندازه اضافی به اندازه مدل اجازه می‌داد تا در طول دوره پیش‌آموزشی، اندازه مدل را بدون جابجایی بیش از حد افزایش دهد.»

Google، OpenAI، حتی داده‌های باز Oracle از محتوای اینترنتی، محتوای شما، برای ایجاد مجموعه داده‌هایی استفاده می‌کنند که سپس برای ایجاد برنامه‌های هوش مصنوعی مانند ChatGPT استفاده می‌شوند.

Crawl مشترک را می توان مسدود کرد

ممکن است Common Crawl را مسدود کرد و متعاقباً از تمام مجموعه داده‌هایی که بر اساس Common Crawl هستند انصراف داد.

اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها هستند. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و سایر مجموعه داده‌های مشتق شده مانند C4 و Open Data وجود ندارد.

استفاده از پروتکل Robots.txt فقط خزیدن‌های بعدی توسط Common Crawl را مسدود می‌کند و مانع از استفاده محققان از محتوای موجود در مجموعه داده نمی‌شود.

نحوه مسدود کردن Common Crawl از داده های خود

مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیت‌های مورد بحث در بالا، امکان‌پذیر است.

ربات Common Crawl، CCBot نامیده می شود.

با استفاده از به‌روزترین رشته CCBot User-Agent شناسایی می‌شود: CCBot/2.0

مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.

این کد برای مسدود کردن CCBot با Robots.txt است.

عامل کاربر: CCBot
غیر مجاز: /

CCBot از آدرس‌های IP آمازون AWS می‌خزد.

CCBot همچنین از متا تگ Robots nofollow پیروی می کند:

اگر Crawl معمولی را مسدود نکنید چه؟

محتوای وب را می‌توان بدون اجازه بارگیری کرد، مرورگرها چگونه کار می‌کنند، آنها محتوا را دانلود می‌کنند.

Google یا هر کس دیگری برای بارگیری و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.

ناشران وب سایت گزینه های محدودی دارند

به نظر نمی‌رسد که رعایت اخلاقی بودن آموزش هوش مصنوعی در محتوای وب، بخشی از هیچ مکالمه‌ای در مورد اخلاقیات نحوه توسعه فناوری هوش مصنوعی نباشد.

به نظر می رسد مسلم است که محتوای اینترنتی را می توان دانلود، خلاصه کرد و به محصولی به نام ChatGPT تبدیل کرد.

منصفانه به نظر می رسد؟ پاسخ پیچیده است.

تصویر ویژه توسط Shutterstock/Krakenimages.com

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *