مدیر فناوری مایکروسافت آلمان، آندریاس براون، تأیید کرد که GPT-4 ظرف یک هفته از ۹ مارس ۲۰۲۳ عرضه می شود و چندوجهی خواهد بود. هوش مصنوعی چندوجهی به این معنی است که میتواند در چندین نوع ورودی مانند ویدئو، تصاویر و صدا عمل کند.
بهروزرسانی: GPT-4 در ۱۴ مارس ۲۰۲۳ منتشر شد
OpenAI منتشر شد GPT-4 در ۱۴ مارس ۲۰۲۳. این یک مدل چندوجهی است که درخواستهای تصویر و متن را میپذیرد.
Modal عبارتی است که در یادگیری ماشینی برای نشان دادن اشکال ورودی مانند متن و همچنین حواس مانند صدا، بصری، بو و غیره استفاده میشود.
اعلان OpenAI مقیاس پیشرفت های GPT-4 را شرح داد:
“…در حالی که در بسیاری از سناریوهای دنیای واقعی کمتر از انسان ها توانمند است، عملکردی در سطح انسانی در معیارهای مختلف حرفه ای و آکادمیک نشان می دهد.
به عنوان مثال، یک آزمون وکالت شبیه سازی شده را با امتیازی در حدود ۱۰ درصد از شرکت کنندگان برتر قبول می کند. در مقابل، امتیاز GPT-3.5 حدود ۱۰% پایین بود.
ما ۶ ماه را بهطور مکرر برای همترازی کردن GPT-4 با استفاده از درسهایی از برنامه آزمایش مخالف خود و همچنین ChatGPT گذراندهایم، که منجر به بهترین نتایج (هرچند به دور از ایدهآل بودن) در مورد واقعی بودن، هدایت پذیری و امتناع از رفتن به خارج از آن شده است. نرده های محافظ.”
مدل های زبان بزرگ چندوجهی
نکته مهم از این اعلامیه این است که GPT-4 چند وجهی است (SEJ پیش بینی کرد GPT-4 چند وجهی است در ژانویه ۲۰۲۳).
Modality اشاره ای به نوع ورودی است که (در این مورد) یک مدل زبان بزرگ به آن می پردازد.
چند وجهی می تواند متن، گفتار، تصاویر و ویدئو را در بر گیرد.
GPT-3 و GPT-3.5 فقط در یک حالت، متن کار میکنند.
طبق گزارش اخبار آلمان، GPT-4 ممکن است حداقل در چهار حالت، تصویر، صدا (شنیداری)، متن و ویدئو کار کند.
دکتر به نقل از آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان:
“ما هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدل های چندوجهی خواهیم داشت که امکانات کاملاً متفاوتی را ارائه می دهند – به عنوان مثال ویدیوها…”
گزارش فاقد مشخصات GPT-4 بود، بنابراین مشخص نیست آنچه در مورد چندوجهی به اشتراک گذاشته شده است مختص GPT-4 بوده یا به طور کلی.
استراتژی تجاری مدیر مایکروسافت هولگر کن چند وجهی را توضیح داد اما گزارشها مشخص نبود که آیا او به GPT-4 چند وجهی یا چندوجهی در نسلها اشاره میکند.
من معتقدم ارجاعات او به چندوجهی مختص GPT-4 بود.
گزارش خبری به اشتراک گذاشته شد:
“کن توضیح داد که هوش مصنوعی چندوجهی در مورد چیست، که می تواند متن را نه تنها به عکس، بلکه به موسیقی و ویدئو نیز ترجمه کند.”
یک واقعیت جالب دیگر این است که مایکروسافت در حال کار بر روی “معیارهای اطمینان” است تا هوش مصنوعی خود را با حقایق مستقر کند تا قابل اعتمادتر شود.
Microsoft Kosmos-1
چیزی که ظاهراً در ایالات متحده کمتر گزارش شده است این است که مایکروسافت یک مدل زبان چندوجهی به نام Kosmos-1 را در ابتدای مارس ۲۰۲۳ منتشر کرد.
طبق گزارش سایت خبری آلمان، Heise.de:
“…این تیم مدل از پیش آموزش دیده را تحت آزمایش های مختلفی قرار داد، با نتایج خوبی در طبقه بندی تصاویر، پاسخ به سوالات در مورد محتوای تصویر، برچسب زدن خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار.
… استدلال بصری، یعنی نتیجهگیری در مورد تصاویر بدون استفاده از زبان به عنوان یک مرحله میانی، به نظر میرسد در اینجا یک کلید است…”
Kosmos-1 یک مدال چندوجهی است که حالتهای متن و تصاویر را ادغام میکند.
GPT-4 فراتر از Kosmos-1 است زیرا حالت سوم، ویدیو را اضافه می کند، و به نظر می رسد که حالت صدا را نیز شامل می شود.
در چندین زبان کار می کند
به نظر میرسد GPT-4 در همه زبانها کار میکند. توضیح داده شده است که میتواند سؤالی را به زبان آلمانی دریافت کند و به زبان ایتالیایی پاسخ دهد.
این یک مثال عجیب است زیرا، چه کسی سؤالی را به زبان آلمانی میپرسد و میخواهد پاسخی به زبان ایتالیایی دریافت کند؟
این چیزی است که تأیید شد:
«…فناوری به حدی رسیده است که اساساً «در همه زبانها کار میکند»: میتوانید سؤالی را به آلمانی بپرسید و به زبان ایتالیایی پاسخ بگیرید.
با چندوجهی، مایکروسافت (-OpenAI) «مدلها را جامع خواهد کرد».
به عقیده من نقطه پیشرفت این است که این مدل با توانایی خود در انتقال دانش به زبان های مختلف از زبان فراتر می رود. بنابراین اگر پاسخ به زبان ایتالیایی باشد، آن را میداند و میتواند پاسخ را به زبانی که سؤال به آن پرسیده شده است ارائه دهد.
این امر آن را شبیه به هدف هوش مصنوعی چندوجهی گوگل به نام MUM می کند. گفته میشود که مادر میتواند پاسخهایی را به زبان انگلیسی ارائه دهد که دادهها فقط به زبان دیگری مانند ژاپنی وجود دارد.
برنامه های GPT-4
هیچ اطلاعیهای درباره مکان نمایش GPT-4 وجود ندارد. اما Azure-OpenAI به طور خاص ذکر شد.
Google با ادغام یک فناوری رقیب در موتور جستجوی خود در تلاش است تا به مایکروسافت برسد. این توسعه بیشتر این تصور را تشدید میکند که گوگل در حال عقبافتادگی و عدم رهبری در زمینه هوش مصنوعی مصرفکننده است.
Google در حال حاضر هوش مصنوعی را در چندین محصول مانند Google Lens، Google Maps و سایر مناطقی که مصرف کنندگان با Google در تعامل هستند، ادغام کرده است. این رویکرد برای استفاده از هوش مصنوعی به عنوان یک فناوری کمکی برای کمک به افراد در کارهای کوچک است.
شیوهای که مایکروسافت آن را پیادهسازی میکند بیشتر قابل مشاهده است و در نتیجه تمام توجه را به خود جلب میکند و تصویر Google را بهعنوان متزلزل و در تلاش برای رسیدن به عقبنشینی تقویت میکند.
اعلامیه انتشار OpenAI GPT-4 را در اینجا بخوانید.
گزارش اصلی آلمانی را در اینجا بخوانید:
GPT-4 هفته آینده عرضه می شود – و به گفته مایکروسافت آلمان
چندوجهی خواهد بود.
تصویر ویژه توسط Shutterstock/Master1305