Google یک تحقیق موفقیتآمیز در زمینه پردازش زبان طبیعی به نام Chain of Thought Prompting را اعلام کرد که سطح هنر فناوریهای پیشرفته مانند PalM و LaMDA را به سطح قابل توجهی ارتقا میدهد.
این واقعیت که Chain of Thought Prompting میتواند PALM و LaMDA را با این نرخهای قابل توجه بهبود بخشد، مسئله بزرگی است.
LaMDA و PalM
این تحقیق آزمایشهایی را با استفاده از دو مدل زبان انجام داد، مدل زبان برای کاربردهای گفتگو (LaMDA) و مدل زبان مسیرها (PaLM).
LaMDA مدلی است که بر مکالمه متمرکز شده است و می تواند دستیارهای جستجو و صوتی مبتنی بر گفتگو و سایر برنامه های گفتگو را تقویت کند.
PaLM مدلی است که از آنچه Google معماری هوش مصنوعی Pathways می نامد پیروی می کند که در آن یک مدل زبان برای یادگیری نحوه حل مشکلات آموزش می بیند.
قبلاً مدلهای یادگیری ماشینی برای حل یک نوع مشکل آموزش داده میشدند و اساساً برای انجام آن یک کار واقعاً خوب رها میشدند. اما برای انجام کار دیگری، گوگل باید مدل جدیدی را آموزش دهد.
معماری هوش مصنوعی Pathways راهی برای ایجاد مدلی است که می تواند مشکلاتی را حل کند که لزوماً قبلاً ندیده است.
همانطور که در توضیح Google PalM نقل شده است :
“…ما می خواهیم مدلی را آموزش دهیم که نه تنها می تواند بسیاری از وظایف مجزا را انجام دهد، بلکه از مهارت های موجود خود استفاده کرده و ترکیب می کند تا کارهای جدید را سریع تر و موثرتر یاد بگیرد.”
بلوک نقل قول>
چه کار می کند
مقاله پژوهشی سه پیشرفت مهم را برای استدلال زنجیرهای فکری فهرست میکند:
- به مدلهای زبان اجازه میدهد تا مسائل پیچیده چند مرحلهای را به ترتیبی از مراحل تقسیم کنند
- زنجیره فرآیند فکر به مهندسان اجازه میدهد تا به فرآیند نگاه کنند و زمانی که مشکل پیش میرود، این امکان را به آنها میدهد تا شناسایی کنند که کجا اشتباه بوده و آن را برطرف کنند
- می تواند مسائل کلمه ریاضی را حل کند، می تواند استدلال عقل سلیم را انجام دهد و طبق مقاله تحقیقاتی می تواند (در اصل) هر مسئله مبتنی بر کلمه را که یک انسان می تواند حل کند.
کارهای استدلال چند مرحله ای
تحقیق نمونهای از یک کار استدلال چند مرحلهای را ارائه میکند که مدلهای زبان روی آن آزمایش میشوند:
«سؤال: کافه تریا ۲۳ سیب داشت. اگر از ۲۰ عدد برای ناهار استفاده کردند و ۶ عدد دیگر خریدند، چند عدد سیب دارند؟
A: کافه تریا در ابتدا ۲۳ سیب داشت. برای تهیه ناهار از ۲۰ عدد استفاده کردند. بنابراین آنها ۲۳ – ۲۰ = ۳ داشتند. آنها ۶ سیب دیگر خریدند، بنابراین آنها ۳ + ۶ = ۹ دارند. پاسخ ۹ است.”
PaLM یک مدل زبان پیشرفته است که بخشی از معماری هوش مصنوعی Pathways است. آنقدر پیشرفته است که می تواند توضیح دهد که چرا یک جوک خنده دار است.
با این حال، به همان اندازه که PALM پیشرفته است، محققان ادعا میکنند که زنجیره افکار به طور قابل توجهی این مدلها را بهبود میبخشد، و این همان چیزی است که این تحقیق جدید را شایسته توجه است.
گوگل آن را اینگونه توضیح می دهد:“استدلال زنجیره ای فکری به مدل ها اجازه می دهد تا مسائل پیچیده را به مراحل میانی تجزیه کنند که به صورت جداگانه حل می شوند.
علاوه بر این، ماهیت زنجیرهای فکر مبتنی بر زبان، آن را برای هر کاری که شخص میتواند از طریق زبان حل کند، قابل استفاده است.»
مقاله تحقیقاتی سپس اشاره میکند که وقتی مقیاس مدل افزایش مییابد، درخواست استاندارد واقعاً بهبود نمییابد.
اما با این مقیاس رویکرد جدید تأثیر مثبت و قابل توجهی بر عملکرد مدل دارد.
نتایج
Chain of Thought Prompting بر روی LaMDA و PalM با استفاده از دو مجموعه داده ریاضی مشکل کلمه آزمایش شد.
- GSM8K
- MultiArith
این مجموعه دادهها توسط محققان به عنوان راهی برای مقایسه نتایج در مورد مشکلات مشابه برای مدلهای زبانی مختلف استفاده میشود.
در زیر تصاویر نمودارهایی وجود دارد که نتایج استفاده از Chain of Thought Prompting در LaMDA را نشان میدهد.
نتایج مقیاس بندی LaMDA بر روی مجموعه داده MultiArith نشان می دهد که منجر به بهبود اندکی شده است. اما LaMDA هنگام مقیاسبندی با زنجیره فکری به طور قابلتوجهی امتیاز بیشتری کسب میکند.
نتایج در مجموعه داده GSM8K یک پیشرفت متوسط را نشان می دهد.
این یک داستان متفاوت با مدل زبان PalM است.
همانطور که در نمودار بالا مشاهده میشود، منافع حاصل از مقیاسگذاری PalM با Chain of Thought Prompting بسیار زیاد است، و برای هر دو مجموعه داده (MultiArith و GSM8K) بسیار زیاد است.
محققان نتایج را قابل توجه و یک وضعیت جدید از هنر می نامند:
“در مجموعه دادههای GSM8K از مسائل کلمات ریاضی، PaLM عملکرد قابلتوجهی را هنگامی که به پارامترهای ۵۴۰B مقیاسبندی میشود، نشان میدهد.
…ترکیب زنجیره افکار با پارامتر ۵۴۰B مدل PaLM منجر به عملکرد پیشرفته ۵۸ درصدی می شود که از ۵۵ درصد پیشرفت قبلی که با تنظیم دقیق GPT-3 175B به دست آمده بود، پیشی می گیرد. یک مجموعه آموزشی بزرگ و سپس رتبهبندی راهحلهای بالقوه از طریق یک تأییدکننده آموزشدیده ویژه.
علاوه بر این، کار پیگیری بر روی خودسازگاری نشان میدهد که عملکرد زنجیره افکار را میتوان با اخذ رای اکثریت مجموعه گستردهای از فرآیندهای استدلال تولید شده، که منجر به دقت ۷۴% در GSM8K میشود، بهبود بخشید.
نتیجه گیری
نتیجهگیری یک مقاله تحقیقاتی یکی از مهمترین بخشهایی است که باید بررسی کرد که آیا پژوهش پیشرفت کرده است یا بنبست است یا به تحقیقات بیشتری نیاز دارد.
بخش نتیجهگیری مقاله تحقیقاتی Google یک نکته بسیار مثبت دارد.
توجه می کند:
“ما زنجیره فکری را به عنوان روشی ساده و کاربردی برای تقویت استدلال در مدل های زبانی بررسی کرده ایم.
از طریق آزمایشهایی بر روی استدلالهای حسابی، نمادین و عقل سلیم، متوجه میشویم که زنجیره پردازش فکر یک ویژگی نوظهور در مقیاس مدل است که به مدلهای زبانی به اندازه کافی بزرگ اجازه میدهد تا وظایف استدلالی را انجام دهند که در غیر این صورت دارای منحنیهای مقیاسبندی مسطح هستند.
گسترش دامنه وظایف استدلالی که مدلهای زبانی میتوانند انجام دهند، امیدواریم الهامبخش کار بیشتر بر روی رویکردهای استدلال مبتنی بر زبان باشد.”
معنای آن این است که Chain of Thought Prompting ممکن است این پتانسیل را داشته باشد که Google را به طور قابل توجهی مدلهای مختلف زبان خود را بهبود بخشد، که به نوبه خود میتواند منجر به بهبود قابل توجهی در انواع کارهایی شود که Google میتواند انجام دهد.
>
نقل قول ها
مقاله هوش مصنوعی گوگل را بخوانید
مدلهای زبان استدلال را از طریق انجام میدهند زنجیره فکر
مقاله پژوهشی را دانلود و بخوانید
زنجیرهای از افکار باعث میشود که در مدلهای زبان بزرگ استدلال کنند (PDF)