تهران ، ولیعصر
021-987654

Google LIMoE – گامی به سوی هدف یک هوش مصنوعی

Google فناوری جدیدی به نام LIMoE را معرفی کرد که می‌گوید گامی به سوی رسیدن به هدف گوگل برای معماری هوش مصنوعی به نام Pathways است.

Pathways یک معماری هوش مصنوعی است که یک مدل واحد است که می‌تواند چندین کار را که در حال حاضر با استفاده از الگوریتم‌های متعدد انجام می‌شوند، یاد بگیرد.

LIMoE مخفف کلمه یادگیری روشهای چندگانه با یک مدل ترکیبی پراکنده از متخصصان است. این مدلی است که دید و متن را با هم پردازش می‌کند.

در حالی که معماری های دیگری برای انجام کارهای مشابه وجود دارد، پیشرفت در روشی است که مدل جدید این وظایف را با استفاده از تکنیک شبکه عصبی به نام مدل پراکنده انجام می دهد.

مدل پراکنده در یک مقاله تحقیقاتی در سال ۲۰۱۷ توضیح داده شده است که رویکرد لایه ترکیبی از متخصصان (MoE) را معرفی کرده است، در یک مقاله تحقیقاتی با عنوان شبکه‌های عصبی فوق‌العاده بزرگ: لایه ترکیبی از کارشناسان با دروازه‌های پراکنده.

در سال ۲۰۲۱، Google یک مدل MoE به نام GLaM: مقیاس‌گذاری کارآمد مدل‌های زبانی با ترکیبی از -متخصصان که فقط روی متن آموزش دیده اند.

تفاوت با LIMoE این است که روی متن و تصاویر به طور همزمان کار می کند.

مدل پراکنده با مدل‌های “متراکم” متفاوت است، زیرا به جای اختصاص دادن هر بخش از مدل به انجام یک کار، مدل پراکنده کار را به “متخصصان” مختلفی که در بخشی از کار تخصص دارند، اختصاص می‌دهد.

کاری که این کار انجام می دهد کاهش هزینه محاسباتی است که مدل را کارآمدتر می کند.

بنابراین، مشابه این که مغز یک سگ را می بیند و می داند که سگ است، میناکاری است و میناکاری یک کت رنگ نقره ای حنایی را نشان می دهد، این مدل همچنین می تواند یک تصویر را مشاهده کند و کار را به روشی مشابه انجام دهد. با واگذاری وظایف محاسباتی به متخصصان مختلف که در تشخیص سگ، نژاد، رنگ و غیره تخصص دارند.

مدل LIMoE مشکلات را به “متخصصان” متخصص در یک کار خاص هدایت می کند و نتایج مشابه یا بهتری نسبت به رویکردهای فعلی برای حل مشکلات به دست می آورد.

یک ویژگی جالب مدل این است که چگونه برخی از متخصصان بیشتر در پردازش تصاویر تخصص دارند، برخی دیگر بیشتر در پردازش متن و برخی از کارشناسان در انجام هر دو تخصص دارند.

توضیح Google در مورد نحوه عملکرد LIMoE نشان می‌دهد که چگونه یک متخصص چشم، دیگری برای چرخ‌ها، یک متخصص برای بافت‌های راه راه، بافت‌های جامد، کلمات، دستگیره‌های در، غذا و میوه‌ها، دریا و آسمان، و یک متخصص برای تصاویر گیاهی وجود دارد.

اعلام الگوریتم جدید این متخصصان را شرح می دهد:

«همچنین برخی از الگوهای کیفی واضح در میان متخصصان تصویر وجود دارد – به عنوان مثال، در اکثر مدل‌های LIMoE، یک متخصص وجود دارد که تمام وصله‌های تصویر حاوی متن را پردازش می‌کند. یکی از متخصصان جانوران و فضای سبز را پردازش می کند و دیگری دستان انسان را پردازش می کند.»

متخصصانی که در بخش‌های مختلف مشکلات تخصص دارند، توانایی مقیاس‌بندی و انجام دقیق بسیاری از وظایف مختلف اما با هزینه محاسباتی کمتر را ارائه می‌دهند.

مقاله پژوهشی یافته‌های آنها را خلاصه می‌کند:

  • «ما LIMoE، اولین ترکیب چندوجهی در مقیاس بزرگ از مدل‌های متخصص را پیشنهاد می‌کنیم.
  • ما با جزئیات نشان می‌دهیم که چگونه رویکردهای قبلی برای منظم‌سازی ترکیبی از مدل‌های خبره برای یادگیری چندوجهی کوتاهی می‌کنند و یک طرح منظم‌سازی مبتنی بر آنتروپی جدید برای تثبیت آموزش پیشنهاد می‌کنیم.
  • ما نشان می‌دهیم که LIMoE در مقیاس‌های معماری تعمیم می‌یابد، با پیشرفت‌های نسبی در دقت ImageNet عکس صفر از ۷٪ تا ۱۳٪ نسبت به مدل‌های متراکم معادل.
  • در مقیاس‌بندی بیشتر، LIMoE-H/14 به ۸۴.۱% دقت ImageNet صفر شات دست می‌یابد که با مدل‌های کنتراست SOTA با ستون فقرات هر مدالیت و پیش‌آموزش قابل مقایسه است.

مطابقات با وضعیت هنری

مقالات تحقیقاتی زیادی هر ماه منتشر می شود. اما تنها تعدادی از آنها توسط Google برجسته شده است.

معمولاً Google تحقیقات را مورد توجه قرار می‌دهد، زیرا علاوه بر دستیابی به یک وضعیت پیشرفته، چیز جدیدی را انجام می‌دهد.

LIMoE این شاهکار دستیابی به نتایج قابل مقایسه با بهترین الگوریتم‌های امروزی را انجام می‌دهد، اما آن را کارآمدتر انجام می‌دهد.

محققان این مزیت را برجسته می کنند:

“در طبقه بندی تصاویر صفر شات، LIMoE از هر دو مدل متراکم چندوجهی قابل مقایسه و رویکردهای دو برجی بهتر عمل می کند.

بزرگ‌ترین LIMoE به ۸۴.۱% دقت ImageNet صفر شات دست می‌یابد که با مدل‌های پیشرفته‌تر گران‌تر قابل مقایسه است.

Sparsity به LIMoE این امکان را می‌دهد تا به‌خوبی بزرگ‌تر شود و یاد بگیرد که ورودی‌های بسیار متفاوت را مدیریت کند، و تنش بین یک متخصص حرفه‌ای بودن و یک متخصص حرفه‌ای را برطرف می‌کند.»

نتایج موفقیت‌آمیز LIMoE باعث شد تا محققان مشاهده کنند که LIMoE می‌تواند راهی برای دستیابی به یک مدل کلی چندوجهی باشد.

محققان مشاهده کردند:

“ما بر این باوریم که توانایی ساخت یک مدل کلی با اجزای تخصصی، که می تواند تصمیم بگیرد چگونه مدالیته ها یا وظایف مختلف باید با هم تعامل داشته باشند، کلید ایجاد مدل های چندوظیفه ای چندوجهی است که در هر کاری که انجام می دهند برتری دارند.

LIMoE اولین قدم امیدوارکننده در این مسیر است.”

کاستی‌ها، سوگیری‌ها و سایر مشکلات اخلاقی بالقوه

نقایصی در این معماری وجود دارد که در اعلامیه Google مورد بحث قرار نگرفته اما در خود مقاله تحقیقاتی ذکر شده است.

مقاله تحقیقاتی اشاره می‌کند که مشابه سایر مدل‌های مقیاس بزرگ، LIMoE نیز ممکن است سوگیری‌هایی را در نتایج ایجاد کند.

محققان بیان می‌کنند که هنوز «به‌صراحت» به مشکلات ذاتی مدل‌های مقیاس بزرگ رسیدگی نکرده‌اند.

آنها می نویسند:

“مضرات بالقوه مدل‌های مقیاس بزرگ…، مدل‌های متضاد… و داده‌های چندوجهی در مقیاس وب… نیز در اینجا وجود دارد، زیرا LIMoE به صراحت به آنها رسیدگی نمی‌کند.”

گزاره فوق به یک مقاله تحقیقاتی در سال ۲۰۲۱ به نام ارجاع دارد (در پیوند پاورقی) درباره فرصت‌ها و خطرات مدل‌های بنیاد (PDF اینجا).

این مقاله تحقیقاتی مربوط به سال ۲۰۲۱ هشدار می‌دهد که چگونه فناوری‌های هوش مصنوعی نوظهور می‌توانند تأثیرات منفی اجتماعی ایجاد کنند، مانند:

“…بی عدالتی، سوء استفاده، اثرات اقتصادی و زیست محیطی، ملاحظات قانونی و اخلاقی.”

طبق مقاله ذکر شده، مشکلات اخلاقی نیز می‌تواند ناشی از تمایل به یکسان سازی وظایف باشد، که سپس می‌تواند نقطه شکستی را معرفی کند که سپس به کارهای دیگر که در پایین دست هستند بازتولید می‌شود.

مقاله تحقیقاتی هشدار دهنده بیان می‌کند:

“اهمیت مدل های فونداسیون را می توان با دو کلمه خلاصه کرد: ظهور و همگن سازی.

ظهور به این معنی است که رفتار یک سیستم به طور ضمنی القا شده است نه اینکه به طور صریح ساخته شود. این هم منبع هیجان علمی و هم اضطراب در مورد پیامدهای پیش بینی نشده است.

همگن‌سازی نشان‌دهنده ادغام روش‌های ساخت سیستم‌های یادگیری ماشین در طیف گسترده‌ای از کاربردها است. اهرم قوی برای بسیاری از کارها فراهم می کند، اما نقاط شکست واحدی نیز ایجاد می کند.”

یک زمینه احتیاط در هوش مصنوعی مربوط به بینایی است.

مقاله ۲۰۲۱ بیان می‌کند که فراگیر بودن دوربین‌ها به این معنی است که هر گونه پیشرفت در هوش مصنوعی مرتبط با بینایی می‌تواند خطرات همزمانی را برای استفاده از فناوری به شیوه‌ای پیش‌بینی نشده به همراه داشته باشد که می‌تواند “تأثیر مخرب” داشته باشد، از جمله در رابطه با حریم خصوصی و نظارت.

یک هشدار احتیاطی دیگر مربوط به پیشرفت در هوش مصنوعی مرتبط با بینایی، مشکلات مربوط به دقت و سوگیری است.

آنها توجه می کنند:

“سابقه کاملاً مستندی از سوگیری آموخته‌شده در مدل‌های بینایی رایانه‌ای وجود دارد که منجر به دقت کمتر و خطاهای مرتبط برای گروه‌های کم‌نمایش شده و در نتیجه استقرار نامناسب و زودرس در برخی تنظیمات دنیای واقعی می‌شود.”

بقیه مقاله نشان می‌دهد که چگونه فناوری‌های هوش مصنوعی می‌توانند تعصبات موجود را یاد بگیرند و نابرابری‌ها را تداوم بخشند.

«مدل‌های بنیادی این پتانسیل را دارند که نتایج ناعادلانه ای به همراه داشته باشند: رفتار ناعادلانه با مردم، به ویژه به دلیل توزیع نابرابر در امتداد خطوطی که تبعیض تاریخی را تشدید می‌کند…. مانند هر سیستم هوش مصنوعی، مدل‌های بنیادی می‌توانند نابرابری‌های موجود را با تولید نتایج ناعادلانه، تقویت سیستم‌های قدرت، و توزیع نامتناسب پیامدهای منفی فناوری بین کسانی که قبلاً به حاشیه رانده شده‌اند، ترکیب کنند…»

محققان LIMoE خاطرنشان کردند که این مدل خاص ممکن است به دلیل ماهیت چگونگی تخصص متخصصان در موارد خاص، بتواند برخی از سوگیری‌ها را علیه گروه‌هایی که کمتر ارائه شده است، حل کند.

این نوع پیامدهای منفی تئوری نیستند، آنها واقعیت هستند و قبلاً بر زندگی در برنامه های کاربردی دنیای واقعی مانند سوگیری های نژادی ناعادلانه که توسط الگوریتم های استخدام استخدام معرفی شده اند.

نویسندگان مقاله LIMoE این کاستی‌های بالقوه را در یک پاراگراف کوتاه که به عنوان یک هشدار هشدار دهنده عمل می‌کند، تصدیق می‌کنند.

اما آنها همچنین خاطرنشان می‌کنند که ممکن است با این رویکرد جدید، برخی از سوگیری‌ها برطرف شود.

آنها نوشتند:

“…توانایی مقیاس‌بندی مدل‌ها با کارشناسانی که می‌توانند عمیقاً متخصص شوند، ممکن است منجر به عملکرد بهتر در گروه‌های کم‌نمایش شود.”

در نهایت، یک ویژگی کلیدی این فناوری جدید که باید به آن توجه داشت این است که هیچ استفاده صریحی برای آن ذکر نشده است.

این فقط یک فناوری است که می تواند تصاویر و متن را به شیوه ای کارآمد پردازش کند.

چگونه می‌توان آن را اعمال کرد، اگر در این فرم یا در فرم آینده اعمال شود، هرگز به آن پرداخته نمی‌شود.

و این عامل مهمی است که توسط مقاله هشدار دهنده (فرصت‌ها و خطرات مدل‌های بنیادی)، توجه را جلب می‌کند که محققان بدون در نظر گرفتن نحوه استفاده از آنها و تأثیری که ممکن است بر مسائلی مانند حریم خصوصی و امنیت داشته باشند، قابلیت‌هایی را برای هوش مصنوعی ایجاد می‌کنند.

“مدل های بنیادی دارایی های واسطه ای هستند که قبل از انطباق، هدف مشخصی ندارند. درک مضرات آنها مستلزم استدلال در مورد ویژگی های آنها و نقش آنها در ساخت مدل های خاص کار است.”

همه این اخطارها در مقاله اعلامیه Google حذف شده اند اما در نسخه PDF خود مقاله تحقیقاتی به آنها اشاره شده است.

Pathways AI Architecture & LIMoE

متن، تصاویر، داده‌های صوتی به عنوان روش‌ها، انواع مختلف داده‌ها یا تخصص‌های کار نامیده می‌شوند. روش‌ها همچنین می‌توانند به معنای زبان گفتاری و نمادها باشند.

بنابراین وقتی عبارت “چند وجهی” یا “روش” را در مقالات علمی و مقالات تحقیقاتی مشاهده می کنید، آنچه که آنها به طور کلی در مورد آن صحبت می کنند انواع مختلف داده ها است.

هدف نهایی گوگل برای هوش مصنوعی همان چیزی است که Pathways نسل بعدی معماری هوش مصنوعی می نامد.

Pathways نشان‌دهنده دور شدن از مدل‌های یادگیری ماشینی است که یک کار را واقعاً خوب انجام می‌دهند (در نتیجه به هزاران مورد نیاز دارند) به یک مدل واحد که همه چیز را واقعاً به خوبی انجام می‌دهد.

Pathways (و LIMoE) یک رویکرد چندوجهی برای حل مشکلات است.

این اینگونه توصیف شده است:

«مردم برای درک جهان به حواس چندگانه متکی هستند. این بسیار متفاوت از نحوه هضم اطلاعات توسط سیستم‌های هوش مصنوعی معاصر است.

بیشتر مدل‌های امروزی فقط یک روش اطلاعات را در یک زمان پردازش می‌کنند. آنها می توانند متن، یا تصویر یا گفتار را دریافت کنند – اما معمولاً نه هر سه را در یک زمان.

مسیرها می‌توانند مدل‌های چندوجهی را فعال کنند که درک بینایی، شنیداری و زبان را به طور همزمان در بر می‌گیرد.”

آنچه LIMoE را مهم می کند این است که این یک معماری چندوجهی است که توسط محققان به عنوان “…گام مهم به سوی چشم انداز Pathways…

یاد می شود.

محققان LIMoE را یک «گام» توصیف می‌کنند، زیرا کارهای بیشتری برای انجام دادن وجود دارد، که شامل بررسی نحوه عملکرد این رویکرد با روش‌هایی فراتر از تصاویر و متن است.

این مقاله تحقیقاتی و مقاله خلاصه همراه آن نشان می‌دهد که تحقیقات هوش مصنوعی Google به چه سمتی می‌رود و چگونه به آنجا می‌رسد.


نقل‌ها

مقاله خلاصه Google درباره LIMoE را بخوانید

LIMoE: چندین روش یادگیری با یک مدل ترکیبی از متخصصان پراکنده

مقاله پژوهشی LIMoE را دانلود و بخوانید

یادگیری متضاد چند وجهی با LIMoE: ترکیب زبان و تصویر متخصصان (PDF)

تصویر توسط Shutterstock/SvetaZi

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *