تهران ، ولیعصر
021-987654

Google CALM: یک فناوری مدل زبان جدید

Google فناوری پیشرفتی به نام CALM را اعلام کرد که مدل‌های زبان بزرگ (مانند GPT-3 و LaMDA) را بدون به خطر انداختن سطوح عملکرد سرعت می‌بخشد.

داده های آموزشی بزرگتر بهتر است اما هزینه دارد

مدل‌های زبان بزرگ (LLM) بر روی مقادیر زیادی داده آموزش می‌دهند.

آموزش مدل‌های زبان بر روی مقادیر بیشتری از داده‌ها منجر به یادگیری توانایی‌های جدیدی در مدل می‌شود که همیشه برای آنها برنامه‌ریزی نشده است.

به عنوان مثال، افزودن داده‌های آموزشی بیشتر به یک مدل زبان می‌تواند به طور غیرمنتظره‌ای منجر به این شود که توانایی ترجمه بین زبان‌های مختلف را به دست آورد، حتی اگر برای انجام این کار آموزش ندیده باشد.

این توانایی‌های جدید، توانایی‌های اضطراری نامیده می‌شوند، توانایی‌هایی که لزوماً برای آنها برنامه‌ریزی نشده‌اند.

یک مقاله تحقیقاتی متفاوت (PDF) درباره توانایی‌های اضطراری بیان می‌کند:

«اگرچه ده‌ها نمونه از توانایی‌های نوظهور وجود دارد، در حال حاضر توضیحات قانع‌کننده‌ای برای اینکه چرا چنین توانایی‌هایی به شیوه‌ای ظاهر می‌شوند، وجود دارد.»

آنها نمی توانند توضیح دهند که چرا توانایی های مختلف آموخته می شوند.

اما به خوبی شناخته شده است که افزایش حجم داده برای آموزش دستگاه به آن امکان می دهد توانایی های بیشتری به دست آورد.

عیب بزرگ‌سازی داده‌های آموزشی این است که برای تولید یک خروجی، قدرت محاسباتی بیشتری مصرف می‌شود، که باعث می‌شود هوش مصنوعی در زمانی که خروجی متن تولید می‌کند کندتر شود (لحظه‌ای که «زمان استنتاج» نامیده می‌شود).

بنابراین، مبادله با هوشمندتر کردن هوش مصنوعی با داده‌های بیشتر این است که هوش مصنوعی در زمان استنتاج نیز کندتر می‌شود.

مقاله تحقیقاتی جدید Google (مدل‌سازی زبان تطبیقی ​​مطمئن PDF) مشکل را اینگونه توصیف می کند:

“پیشرفت‌های اخیر در مدل‌های زبان بزرگ مبتنی بر ترانسفورماتور (LLM) منجر به بهبود عملکرد قابل توجهی در بسیاری از وظایف شده است.

این دستاوردها با افزایش شدید اندازه مدل‌ها همراه می‌شود، که احتمالاً منجر به استفاده آهسته و پرهزینه در زمان استنتاج می‌شود.”

مدلسازی زبان تطبیقی ​​مطمئن (CALM)

محققان در Google راه حل جالبی برای سرعت بخشیدن به مدل های زبان پیدا کردند و در عین حال عملکرد بالا را نیز حفظ کردند.

راه حل برای قیاس کردن، تا حدودی شبیه تفاوت بین پاسخ دادن به یک سوال آسان و حل یک سوال دشوارتر است.

به یک سوال آسان، مانند رنگ آسمان، می توان با کمی فکر پاسخ داد.

اما یک پاسخ سخت مستلزم توقف و تفکر برای یافتن پاسخ است.

از لحاظ محاسباتی، مدل‌های زبان بزرگ بین بخش سخت یک کار تولید متن و بخش آسان تمایزی قائل نمی‌شوند.

آنها با استفاده از قدرت محاسباتی کامل خود در زمان استنتاج، متن را برای هر دو بخش آسان و دشوار تولید می کنند.

راه‌حل Google مدل‌سازی زبان تطبیقی ​​مطمئن (CALM) نام دارد.

کاری که این چارچوب جدید انجام می‌دهد این است که منابع کمتری را به بخش‌های بی‌اهمیت یک کار تولید متن اختصاص می‌دهد و تمام قدرت را برای بخش‌های دشوارتر اختصاص می‌دهد.

مقاله تحقیقاتی در مورد CALM مشکل و راه حل را اینگونه بیان می کند:

“پیشرفت‌های اخیر در مدل‌های زبان بزرگ مبتنی بر ترانسفورماتور (LLM) منجر به بهبود عملکرد قابل توجهی در بسیاری از وظایف شده است.

این دستاوردها با افزایش شدید اندازه مدل‌ها همراه است که به طور بالقوه منجر به استفاده کند و پرهزینه در زمان استنتاج می‌شود.

اما در عمل، مجموعه‌ای از نسل‌های ساخته شده توسط LLM از سطوح مختلف دشواری تشکیل شده است.

در حالی که برخی پیش‌بینی‌ها واقعاً از ظرفیت کامل مدل‌ها بهره می‌برند، ادامه‌های دیگر بی‌اهمیت‌تر هستند و می‌توانند با محاسبه کاهش یافته حل شوند.

…در حالی که مدل‌های بزرگ به طور کلی بهتر عمل می‌کنند، ممکن است برای هر ورودی برای دستیابی به عملکرد مشابه، مقدار یکسانی از محاسبات لازم نباشد (به عنوان مثال، بسته به اینکه ورودی آسان یا سخت باشد).»

Google CALM چیست و آیا کار می‌کند؟

CALM با تخصیص پویا منابع بسته به پیچیدگی بخش تک تک کار، با استفاده از یک الگوریتم برای پیش‌بینی اینکه آیا چیزی به منابع کامل یا جزئی نیاز دارد، کار می‌کند.

مقاله تحقیقاتی به اشتراک می‌گذارد که آنها سیستم جدید را برای کارهای مختلف پردازش زبان طبیعی (“خلاصه متن، ترجمه ماشینی و پاسخگویی به سوال”) آزمایش کردند و متوجه شدند که می‌توانند استنتاج را تا حدود سه ضریب سرعت بخشند ( ۳۰۰٪.

تصویر زیر نشان می‌دهد که سیستم CALM چقدر خوب کار می‌کند.

چند ناحیه قرمز رنگ نشان می‌دهد که دستگاه باید از تمام ظرفیت خود در آن بخش از کار استفاده کند.

مناطق سبز رنگ جایی هستند که دستگاه فقط کمتر از نیمی از ظرفیت را مصرف می‌کند.

قرمز = ظرفیت کامل/سبز = ظرفیت کمتر از نصف

Google CALM

این چیزی است که مقاله تحقیقاتی در مورد تصویر بالا می‌گوید:

«CALM با خروج زودهنگام در صورت امکان، و انتخابی با استفاده از ظرفیت کامل رمزگشا فقط برای چند توکن، تولید را تسریع می‌کند، که در اینجا در یک مثال CNN/DM با معیار اطمینان مبتنی بر softmax نشان داده شده است. Y (1) در اوایل و Y (2) در اوایل از آستانه های اطمینان متفاوتی برای خروج زودهنگام استفاده می کنند.

در زیر (sic) متن، سازگاری متنی و ریسک اندازه‌گیری شده هر یک از دو خروجی را به همراه افزایش بهره‌وری گزارش می‌کنیم.

رنگ‌ها تعداد لایه‌های رمزگشایی مورد استفاده برای هر نشانه را نشان می‌دهند – سایه‌های سبز روشن کمتر از نیمی از کل لایه‌ها را نشان می‌دهند.

فقط تعداد کمی از نشانه‌های انتخاب شده از ظرفیت کامل مدل استفاده می‌کنند (رنگ قرمز)، در حالی که برای بیشتر توکن‌ها، مدل پس از یک یا چند لایه رمزگشایی (رنگ سبز رنگ) خارج می‌شود.»

محققان این مقاله را با ذکر این نکته به پایان رساندند که اجرای CALM تنها به حداقل تغییرات نیاز دارد تا بتواند یک مدل زبان بزرگ را برای سریع‌تر شدن تطبیق دهد.

این تحقیق مهم است زیرا راه را برای ایجاد مدل‌های پیچیده‌تر هوش مصنوعی باز می‌کند که بر روی مجموعه داده‌های بزرگ‌تر بدون تجربه سرعت پایین‌تر آموزش داده می‌شوند و در عین حال سطح عملکرد بالایی را حفظ می‌کنند.

اما ممکن است این روش بتواند برای مدل‌های زبان بزرگی که بر روی داده‌های کمتری آموزش دیده‌اند نیز سودمند باشد.

به عنوان مثال، مدل‌های InstructGPT، که ChatGPT یک مدل خواهر و برادر از آن‌هاست، بر روی تقریباً ۱.۳ میلیارد پارامتر آموزش دیده‌اند، اما همچنان می‌توانند از مدل‌هایی که بر روی پارامترهای بسیار بیشتری آموزش دیده‌اند، بهتر عمل کنند.

محققان در نتیجه گیری خاطرنشان کردند:

“به طور کلی، چارچوب محاسباتی تطبیقی ​​کامل ما برای LMها به حداقل تغییرات در مدل اساسی نیاز دارد و در عین حال که تضمین‌های کیفیت دقیق را برای خروجی برآورده می‌کند، افزایش کارایی را ممکن می‌سازد.” =”۱۰″ id=”SEJ_300x250_UnderPost_7_i-parent” class=”content-unit sss2_sllo_o mmh-90-wrap”>

این اطلاعات درباره این مقاله تحقیقاتی به تازگی در وبلاگ هوش مصنوعی Google در تاریخ ۱۶ دسامبر ۲۰۲۲ منتشر شده است. تاریخ خود مقاله تحقیقاتی در ۲۵ اکتبر ۲۰۲۲ است.

دیدن این که آیا این فناوری به مدل‌های زبانی بزرگ در آینده نزدیک راه پیدا می‌کند، جالب خواهد بود.

پست وبلاگ Google را بخوانید:

تسریع تولید متن با زبان تطبیقی ​​مطمئن مدلسازی (CALM)

مقاله پژوهشی را بخوانید:

مدل‌سازی زبان تطبیقی ​​مطمئن (PDF)

تصویر ویژه توسط Shutterstock/Master1305

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *