تهران ، ولیعصر
021-987654
OpenAI GPT-4 در اواسط مارس ۲۰۲۳ وارد می شود

OpenAI GPT-4 در اواسط مارس ۲۰۲۳ وارد می شود

مدیر فناوری مایکروسافت آلمان، آندریاس براون، تأیید کرد که GPT-4 ظرف یک هفته از ۹ مارس ۲۰۲۳ عرضه می شود و چندوجهی خواهد بود. هوش مصنوعی چندوجهی به این معنی است که می‌تواند در چندین نوع ورودی مانند ویدئو، تصاویر و صدا عمل کند.

به‌روزرسانی: GPT-4 در ۱۴ مارس ۲۰۲۳ منتشر شد

OpenAI منتشر شد GPT-4 در ۱۴ مارس ۲۰۲۳. این یک مدل چندوجهی است که درخواست‌های تصویر و متن را می‌پذیرد.

Modal عبارتی است که در یادگیری ماشینی برای نشان دادن اشکال ورودی مانند متن و همچنین حواس مانند صدا، بصری، بو و غیره استفاده می‌شود.

اعلان OpenAI مقیاس پیشرفت های GPT-4 را شرح داد:

“…در حالی که در بسیاری از سناریوهای دنیای واقعی کمتر از انسان ها توانمند است، عملکردی در سطح انسانی در معیارهای مختلف حرفه ای و آکادمیک نشان می دهد.

به عنوان مثال، یک آزمون وکالت شبیه سازی شده را با امتیازی در حدود ۱۰ درصد از شرکت کنندگان برتر قبول می کند. در مقابل، امتیاز GPT-3.5 حدود ۱۰% پایین بود.

ما ۶ ماه را به‌طور مکرر برای هم‌ترازی کردن GPT-4 با استفاده از درس‌هایی از برنامه آزمایش مخالف خود و همچنین ChatGPT گذرانده‌ایم، که منجر به بهترین نتایج (هرچند به دور از ایده‌آل بودن) در مورد واقعی بودن، هدایت پذیری و امتناع از رفتن به خارج از آن شده است. نرده های محافظ.”

مدل های زبان بزرگ چندوجهی

نکته مهم از این اعلامیه این است که GPT-4 چند وجهی است (SEJ پیش بینی کرد GPT-4 چند وجهی است در ژانویه ۲۰۲۳).

Modality اشاره ای به نوع ورودی است که (در این مورد) یک مدل زبان بزرگ به آن می پردازد.

چند وجهی می تواند متن، گفتار، تصاویر و ویدئو را در بر گیرد.

GPT-3 و GPT-3.5 فقط در یک حالت، متن کار می‌کنند.

طبق گزارش اخبار آلمان، GPT-4 ممکن است حداقل در چهار حالت، تصویر، صدا (شنیداری)، متن و ویدئو کار کند.

دکتر به نقل از آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان:

“ما هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدل های چندوجهی خواهیم داشت که امکانات کاملاً متفاوتی را ارائه می دهند – به عنوان مثال ویدیوها…”

گزارش فاقد مشخصات GPT-4 بود، بنابراین مشخص نیست آنچه در مورد چندوجهی به اشتراک گذاشته شده است مختص GPT-4 بوده یا به طور کلی.

استراتژی تجاری مدیر مایکروسافت هولگر کن چند وجهی را توضیح داد اما گزارش‌ها مشخص نبود که آیا او به GPT-4 چند وجهی یا چندوجهی در نسل‌ها اشاره می‌کند.

من معتقدم ارجاعات او به چندوجهی مختص GPT-4 بود.

گزارش خبری به اشتراک گذاشته شد:

“کن توضیح داد که هوش مصنوعی چندوجهی در مورد چیست، که می تواند متن را نه تنها به عکس، بلکه به موسیقی و ویدئو نیز ترجمه کند.”

یک واقعیت جالب دیگر این است که مایکروسافت در حال کار بر روی “معیارهای اطمینان” است تا هوش مصنوعی خود را با حقایق مستقر کند تا قابل اعتمادتر شود.

Microsoft Kosmos-1

چیزی که ظاهراً در ایالات متحده کمتر گزارش شده است این است که مایکروسافت یک مدل زبان چندوجهی به نام Kosmos-1 را در ابتدای مارس ۲۰۲۳ منتشر کرد.

طبق گزارش سایت خبری آلمان، Heise.de:

“…این تیم مدل از پیش آموزش دیده را تحت آزمایش های مختلفی قرار داد، با نتایج خوبی در طبقه بندی تصاویر، پاسخ به سوالات در مورد محتوای تصویر، برچسب زدن خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار.

… استدلال بصری، یعنی نتیجه‌گیری در مورد تصاویر بدون استفاده از زبان به عنوان یک مرحله میانی، به نظر می‌رسد در اینجا یک کلید است…”

Kosmos-1 یک مدال چندوجهی است که حالت‌های متن و تصاویر را ادغام می‌کند.

GPT-4 فراتر از Kosmos-1 است زیرا حالت سوم، ویدیو را اضافه می کند، و به نظر می رسد که حالت صدا را نیز شامل می شود.

در چندین زبان کار می کند

به نظر می‌رسد GPT-4 در همه زبان‌ها کار می‌کند. توضیح داده شده است که می‌تواند سؤالی را به زبان آلمانی دریافت کند و به زبان ایتالیایی پاسخ دهد.

این یک مثال عجیب است زیرا، چه کسی سؤالی را به زبان آلمانی می‌پرسد و می‌خواهد پاسخی به زبان ایتالیایی دریافت کند؟

این چیزی است که تأیید شد:

«…فناوری به حدی رسیده است که اساساً «در همه زبان‌ها کار می‌کند»: می‌توانید سؤالی را به آلمانی بپرسید و به زبان ایتالیایی پاسخ بگیرید.

با چندوجهی، مایکروسافت (-OpenAI) «مدل‌ها را جامع خواهد کرد».

به عقیده من نقطه پیشرفت این است که این مدل با توانایی خود در انتقال دانش به زبان های مختلف از زبان فراتر می رود. بنابراین اگر پاسخ به زبان ایتالیایی باشد، آن را می‌داند و می‌تواند پاسخ را به زبانی که سؤال به آن پرسیده شده است ارائه دهد.

این امر آن را شبیه به هدف هوش مصنوعی چندوجهی گوگل به نام MUM می کند. گفته می‌شود که مادر می‌تواند پاسخ‌هایی را به زبان انگلیسی ارائه دهد که داده‌ها فقط به زبان دیگری مانند ژاپنی وجود دارد.

برنامه های GPT-4

هیچ اطلاعیه‌ای درباره مکان نمایش GPT-4 وجود ندارد. اما Azure-OpenAI به طور خاص ذکر شد.

Google با ادغام یک فناوری رقیب در موتور جستجوی خود در تلاش است تا به مایکروسافت برسد. این توسعه بیشتر این تصور را تشدید می‌کند که گوگل در حال عقب‌افتادگی و عدم رهبری در زمینه هوش مصنوعی مصرف‌کننده است.

Google در حال حاضر هوش مصنوعی را در چندین محصول مانند Google Lens، Google Maps و سایر مناطقی که مصرف کنندگان با Google در تعامل هستند، ادغام کرده است. این رویکرد برای استفاده از هوش مصنوعی به عنوان یک فناوری کمکی برای کمک به افراد در کارهای کوچک است.

شیوه‌ای که مایکروسافت آن را پیاده‌سازی می‌کند بیشتر قابل مشاهده است و در نتیجه تمام توجه را به خود جلب می‌کند و تصویر Google را به‌عنوان متزلزل و در تلاش برای رسیدن به عقب‌نشینی تقویت می‌کند.

اعلامیه انتشار OpenAI GPT-4 را در اینجا بخوانید.

گزارش اصلی آلمانی را در اینجا بخوانید:

GPT-4 هفته آینده عرضه می شود – و به گفته مایکروسافت آلمان

چندوجهی خواهد بود.

تصویر ویژه توسط Shutterstock/Master1305

مقالات مرتبط
پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد.قسمتهای مورد نیاز علامت گذاری شده اند *