Google فناوری جدیدی به نام LIMoE را معرفی کرد که میگوید گامی به سوی رسیدن به هدف گوگل برای معماری هوش مصنوعی به نام Pathways است.
Pathways یک معماری هوش مصنوعی است که یک مدل واحد است که میتواند چندین کار را که در حال حاضر با استفاده از الگوریتمهای متعدد انجام میشوند، یاد بگیرد.
LIMoE مخفف کلمه یادگیری روشهای چندگانه با یک مدل ترکیبی پراکنده از متخصصان است. این مدلی است که دید و متن را با هم پردازش میکند.
در حالی که معماری های دیگری برای انجام کارهای مشابه وجود دارد، پیشرفت در روشی است که مدل جدید این وظایف را با استفاده از تکنیک شبکه عصبی به نام مدل پراکنده انجام می دهد.
مدل پراکنده در یک مقاله تحقیقاتی در سال ۲۰۱۷ توضیح داده شده است که رویکرد لایه ترکیبی از متخصصان (MoE) را معرفی کرده است، در یک مقاله تحقیقاتی با عنوان شبکههای عصبی فوقالعاده بزرگ: لایه ترکیبی از کارشناسان با دروازههای پراکنده.
در سال ۲۰۲۱، Google یک مدل MoE به نام GLaM: مقیاسگذاری کارآمد مدلهای زبانی با ترکیبی از -متخصصان که فقط روی متن آموزش دیده اند.
تفاوت با LIMoE این است که روی متن و تصاویر به طور همزمان کار می کند.
مدل پراکنده با مدلهای “متراکم” متفاوت است، زیرا به جای اختصاص دادن هر بخش از مدل به انجام یک کار، مدل پراکنده کار را به “متخصصان” مختلفی که در بخشی از کار تخصص دارند، اختصاص میدهد.
کاری که این کار انجام می دهد کاهش هزینه محاسباتی است که مدل را کارآمدتر می کند.
بنابراین، مشابه این که مغز یک سگ را می بیند و می داند که سگ است، میناکاری است و میناکاری یک کت رنگ نقره ای حنایی را نشان می دهد، این مدل همچنین می تواند یک تصویر را مشاهده کند و کار را به روشی مشابه انجام دهد. با واگذاری وظایف محاسباتی به متخصصان مختلف که در تشخیص سگ، نژاد، رنگ و غیره تخصص دارند.
مدل LIMoE مشکلات را به “متخصصان” متخصص در یک کار خاص هدایت می کند و نتایج مشابه یا بهتری نسبت به رویکردهای فعلی برای حل مشکلات به دست می آورد.
یک ویژگی جالب مدل این است که چگونه برخی از متخصصان بیشتر در پردازش تصاویر تخصص دارند، برخی دیگر بیشتر در پردازش متن و برخی از کارشناسان در انجام هر دو تخصص دارند.
توضیح Google در مورد نحوه عملکرد LIMoE نشان میدهد که چگونه یک متخصص چشم، دیگری برای چرخها، یک متخصص برای بافتهای راه راه، بافتهای جامد، کلمات، دستگیرههای در، غذا و میوهها، دریا و آسمان، و یک متخصص برای تصاویر گیاهی وجود دارد.
اعلام الگوریتم جدید این متخصصان را شرح می دهد:
«همچنین برخی از الگوهای کیفی واضح در میان متخصصان تصویر وجود دارد – به عنوان مثال، در اکثر مدلهای LIMoE، یک متخصص وجود دارد که تمام وصلههای تصویر حاوی متن را پردازش میکند. یکی از متخصصان جانوران و فضای سبز را پردازش می کند و دیگری دستان انسان را پردازش می کند.»
متخصصانی که در بخشهای مختلف مشکلات تخصص دارند، توانایی مقیاسبندی و انجام دقیق بسیاری از وظایف مختلف اما با هزینه محاسباتی کمتر را ارائه میدهند.
مقاله پژوهشی یافتههای آنها را خلاصه میکند:
- «ما LIMoE، اولین ترکیب چندوجهی در مقیاس بزرگ از مدلهای متخصص را پیشنهاد میکنیم.
- ما با جزئیات نشان میدهیم که چگونه رویکردهای قبلی برای منظمسازی ترکیبی از مدلهای خبره برای یادگیری چندوجهی کوتاهی میکنند و یک طرح منظمسازی مبتنی بر آنتروپی جدید برای تثبیت آموزش پیشنهاد میکنیم.
- ما نشان میدهیم که LIMoE در مقیاسهای معماری تعمیم مییابد، با پیشرفتهای نسبی در دقت ImageNet عکس صفر از ۷٪ تا ۱۳٪ نسبت به مدلهای متراکم معادل.
- در مقیاسبندی بیشتر، LIMoE-H/14 به ۸۴.۱% دقت ImageNet صفر شات دست مییابد که با مدلهای کنتراست SOTA با ستون فقرات هر مدالیت و پیشآموزش قابل مقایسه است.
مطابقات با وضعیت هنری
مقالات تحقیقاتی زیادی هر ماه منتشر می شود. اما تنها تعدادی از آنها توسط Google برجسته شده است.
معمولاً Google تحقیقات را مورد توجه قرار میدهد، زیرا علاوه بر دستیابی به یک وضعیت پیشرفته، چیز جدیدی را انجام میدهد.
LIMoE این شاهکار دستیابی به نتایج قابل مقایسه با بهترین الگوریتمهای امروزی را انجام میدهد، اما آن را کارآمدتر انجام میدهد.
محققان این مزیت را برجسته می کنند:
“در طبقه بندی تصاویر صفر شات، LIMoE از هر دو مدل متراکم چندوجهی قابل مقایسه و رویکردهای دو برجی بهتر عمل می کند.
بزرگترین LIMoE به ۸۴.۱% دقت ImageNet صفر شات دست مییابد که با مدلهای پیشرفتهتر گرانتر قابل مقایسه است.
Sparsity به LIMoE این امکان را میدهد تا بهخوبی بزرگتر شود و یاد بگیرد که ورودیهای بسیار متفاوت را مدیریت کند، و تنش بین یک متخصص حرفهای بودن و یک متخصص حرفهای را برطرف میکند.»
نتایج موفقیتآمیز LIMoE باعث شد تا محققان مشاهده کنند که LIMoE میتواند راهی برای دستیابی به یک مدل کلی چندوجهی باشد.
محققان مشاهده کردند:
“ما بر این باوریم که توانایی ساخت یک مدل کلی با اجزای تخصصی، که می تواند تصمیم بگیرد چگونه مدالیته ها یا وظایف مختلف باید با هم تعامل داشته باشند، کلید ایجاد مدل های چندوظیفه ای چندوجهی است که در هر کاری که انجام می دهند برتری دارند.
LIMoE اولین قدم امیدوارکننده در این مسیر است.”
کاستیها، سوگیریها و سایر مشکلات اخلاقی بالقوه
نقایصی در این معماری وجود دارد که در اعلامیه Google مورد بحث قرار نگرفته اما در خود مقاله تحقیقاتی ذکر شده است.
مقاله تحقیقاتی اشاره میکند که مشابه سایر مدلهای مقیاس بزرگ، LIMoE نیز ممکن است سوگیریهایی را در نتایج ایجاد کند.
محققان بیان میکنند که هنوز «بهصراحت» به مشکلات ذاتی مدلهای مقیاس بزرگ رسیدگی نکردهاند.
آنها می نویسند:
“مضرات بالقوه مدلهای مقیاس بزرگ…، مدلهای متضاد… و دادههای چندوجهی در مقیاس وب… نیز در اینجا وجود دارد، زیرا LIMoE به صراحت به آنها رسیدگی نمیکند.”
گزاره فوق به یک مقاله تحقیقاتی در سال ۲۰۲۱ به نام ارجاع دارد (در پیوند پاورقی) درباره فرصتها و خطرات مدلهای بنیاد (PDF اینجا).
این مقاله تحقیقاتی مربوط به سال ۲۰۲۱ هشدار میدهد که چگونه فناوریهای هوش مصنوعی نوظهور میتوانند تأثیرات منفی اجتماعی ایجاد کنند، مانند:
“…بی عدالتی، سوء استفاده، اثرات اقتصادی و زیست محیطی، ملاحظات قانونی و اخلاقی.”
طبق مقاله ذکر شده، مشکلات اخلاقی نیز میتواند ناشی از تمایل به یکسان سازی وظایف باشد، که سپس میتواند نقطه شکستی را معرفی کند که سپس به کارهای دیگر که در پایین دست هستند بازتولید میشود.
مقاله تحقیقاتی هشدار دهنده بیان میکند:
“اهمیت مدل های فونداسیون را می توان با دو کلمه خلاصه کرد: ظهور و همگن سازی.
ظهور به این معنی است که رفتار یک سیستم به طور ضمنی القا شده است نه اینکه به طور صریح ساخته شود. این هم منبع هیجان علمی و هم اضطراب در مورد پیامدهای پیش بینی نشده است.
همگنسازی نشاندهنده ادغام روشهای ساخت سیستمهای یادگیری ماشین در طیف گستردهای از کاربردها است. اهرم قوی برای بسیاری از کارها فراهم می کند، اما نقاط شکست واحدی نیز ایجاد می کند.”
یک زمینه احتیاط در هوش مصنوعی مربوط به بینایی است.
مقاله ۲۰۲۱ بیان میکند که فراگیر بودن دوربینها به این معنی است که هر گونه پیشرفت در هوش مصنوعی مرتبط با بینایی میتواند خطرات همزمانی را برای استفاده از فناوری به شیوهای پیشبینی نشده به همراه داشته باشد که میتواند “تأثیر مخرب” داشته باشد، از جمله در رابطه با حریم خصوصی و نظارت.
یک هشدار احتیاطی دیگر مربوط به پیشرفت در هوش مصنوعی مرتبط با بینایی، مشکلات مربوط به دقت و سوگیری است.
آنها توجه می کنند:
“سابقه کاملاً مستندی از سوگیری آموختهشده در مدلهای بینایی رایانهای وجود دارد که منجر به دقت کمتر و خطاهای مرتبط برای گروههای کمنمایش شده و در نتیجه استقرار نامناسب و زودرس در برخی تنظیمات دنیای واقعی میشود.”
بقیه مقاله نشان میدهد که چگونه فناوریهای هوش مصنوعی میتوانند تعصبات موجود را یاد بگیرند و نابرابریها را تداوم بخشند.
«مدلهای بنیادی این پتانسیل را دارند که نتایج ناعادلانه ای به همراه داشته باشند: رفتار ناعادلانه با مردم، به ویژه به دلیل توزیع نابرابر در امتداد خطوطی که تبعیض تاریخی را تشدید میکند…. مانند هر سیستم هوش مصنوعی، مدلهای بنیادی میتوانند نابرابریهای موجود را با تولید نتایج ناعادلانه، تقویت سیستمهای قدرت، و توزیع نامتناسب پیامدهای منفی فناوری بین کسانی که قبلاً به حاشیه رانده شدهاند، ترکیب کنند…»
محققان LIMoE خاطرنشان کردند که این مدل خاص ممکن است به دلیل ماهیت چگونگی تخصص متخصصان در موارد خاص، بتواند برخی از سوگیریها را علیه گروههایی که کمتر ارائه شده است، حل کند.
این نوع پیامدهای منفی تئوری نیستند، آنها واقعیت هستند و قبلاً بر زندگی در برنامه های کاربردی دنیای واقعی مانند سوگیری های نژادی ناعادلانه که توسط الگوریتم های استخدام استخدام معرفی شده اند.
نویسندگان مقاله LIMoE این کاستیهای بالقوه را در یک پاراگراف کوتاه که به عنوان یک هشدار هشدار دهنده عمل میکند، تصدیق میکنند.
اما آنها همچنین خاطرنشان میکنند که ممکن است با این رویکرد جدید، برخی از سوگیریها برطرف شود.
آنها نوشتند:
“…توانایی مقیاسبندی مدلها با کارشناسانی که میتوانند عمیقاً متخصص شوند، ممکن است منجر به عملکرد بهتر در گروههای کمنمایش شود.”
در نهایت، یک ویژگی کلیدی این فناوری جدید که باید به آن توجه داشت این است که هیچ استفاده صریحی برای آن ذکر نشده است.
این فقط یک فناوری است که می تواند تصاویر و متن را به شیوه ای کارآمد پردازش کند.
چگونه میتوان آن را اعمال کرد، اگر در این فرم یا در فرم آینده اعمال شود، هرگز به آن پرداخته نمیشود.
و این عامل مهمی است که توسط مقاله هشدار دهنده (فرصتها و خطرات مدلهای بنیادی)، توجه را جلب میکند که محققان بدون در نظر گرفتن نحوه استفاده از آنها و تأثیری که ممکن است بر مسائلی مانند حریم خصوصی و امنیت داشته باشند، قابلیتهایی را برای هوش مصنوعی ایجاد میکنند.
“مدل های بنیادی دارایی های واسطه ای هستند که قبل از انطباق، هدف مشخصی ندارند. درک مضرات آنها مستلزم استدلال در مورد ویژگی های آنها و نقش آنها در ساخت مدل های خاص کار است.”
همه این اخطارها در مقاله اعلامیه Google حذف شده اند اما در نسخه PDF خود مقاله تحقیقاتی به آنها اشاره شده است.
Pathways AI Architecture & LIMoE
متن، تصاویر، دادههای صوتی به عنوان روشها، انواع مختلف دادهها یا تخصصهای کار نامیده میشوند. روشها همچنین میتوانند به معنای زبان گفتاری و نمادها باشند.
بنابراین وقتی عبارت “چند وجهی” یا “روش” را در مقالات علمی و مقالات تحقیقاتی مشاهده می کنید، آنچه که آنها به طور کلی در مورد آن صحبت می کنند انواع مختلف داده ها است.
هدف نهایی گوگل برای هوش مصنوعی همان چیزی است که Pathways نسل بعدی معماری هوش مصنوعی می نامد.
Pathways نشاندهنده دور شدن از مدلهای یادگیری ماشینی است که یک کار را واقعاً خوب انجام میدهند (در نتیجه به هزاران مورد نیاز دارند) به یک مدل واحد که همه چیز را واقعاً به خوبی انجام میدهد.
Pathways (و LIMoE) یک رویکرد چندوجهی برای حل مشکلات است.
این اینگونه توصیف شده است:
«مردم برای درک جهان به حواس چندگانه متکی هستند. این بسیار متفاوت از نحوه هضم اطلاعات توسط سیستمهای هوش مصنوعی معاصر است.
بیشتر مدلهای امروزی فقط یک روش اطلاعات را در یک زمان پردازش میکنند. آنها می توانند متن، یا تصویر یا گفتار را دریافت کنند – اما معمولاً نه هر سه را در یک زمان.
مسیرها میتوانند مدلهای چندوجهی را فعال کنند که درک بینایی، شنیداری و زبان را به طور همزمان در بر میگیرد.”
آنچه LIMoE را مهم می کند این است که این یک معماری چندوجهی است که توسط محققان به عنوان “…گام مهم به سوی چشم انداز Pathways…“
یاد می شود.
محققان LIMoE را یک «گام» توصیف میکنند، زیرا کارهای بیشتری برای انجام دادن وجود دارد، که شامل بررسی نحوه عملکرد این رویکرد با روشهایی فراتر از تصاویر و متن است.
این مقاله تحقیقاتی و مقاله خلاصه همراه آن نشان میدهد که تحقیقات هوش مصنوعی Google به چه سمتی میرود و چگونه به آنجا میرسد.
نقلها
مقاله خلاصه Google درباره LIMoE را بخوانید
LIMoE: چندین روش یادگیری با یک مدل ترکیبی از متخصصان پراکنده
مقاله پژوهشی LIMoE را دانلود و بخوانید
یادگیری متضاد چند وجهی با LIMoE: ترکیب زبان و تصویر متخصصان (PDF)
تصویر توسط Shutterstock/SvetaZi