Популярные темы

GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему, — MIT Technology Review

Дата: 16 марта 2023 в 17:24


GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему, - MIT Technology Review
Стоковые изображения от Depositphotos

Tazabek — OpenAI наконец-то представила GPT-4, большую языковую модель следующего поколения, которая, по слухам, находилась в разработке большую часть прошлого года, пишет Will Douglas Heaven в журнале MIT Technology Review.

За последним неожиданным хитом компании из Сан-Франциско, ChatGPT, всегда было трудно следить, но OpenAI сделала GPT-4 еще больше и лучше.

Но насколько больше и почему это лучше, OpenAI не скажет. GPT-4 — это самый секретный выпуск, который когда-либо выпускала компания, знаменующий собой полный переход от некоммерческой исследовательской лаборатории к коммерческой технологической фирме.

«Это то, что, вы знаете, мы не можем комментировать в настоящее время», — сказал главный научный сотрудник OpenAI Илья Суцкевер, когда я разговаривал с членами команды GPT-4 по видеосвязи через час после объявления.

«Там довольно конкурентоспособно»

GPT-4 — это мультимодальная крупноязыковая модель , что означает, что она может реагировать как на текст, так и на изображения. Дайте ему фотографию содержимого вашего холодильника и спросите, что вы можете приготовить, и GPT-4 попытается придумать рецепты, в которых используются изображенные ингредиенты. Он также отлично объясняет шутки, говорит Суцкевер: «Если вы покажете ему мем, он может сказать вам, почему он смешной».

Доступ к GPT-4 будет доступен для пользователей, которые зарегистрируются в списке ожидания, а также для подписчиков платного платного ChatGPT Plus с ограниченной емкостью только для текстовых сообщений.

«Постоянные улучшения во многих аспектах просто замечательны», — говорит Орен Эциони из Алленовского института искусственного интеллекта. «GPT-4 теперь является стандартом, по которому будут оцениваться все модели фундаментов».

«Хорошая мультимодальная модель была святым Граалем многих крупных технологических лабораторий в течение последних нескольких лет», — говорит Томас Вольф, соучредитель Hugging Face, стартапа в области ИИ, стоящего за широкоязычной моделью BLOOM с открытым исходным кодом.

«Но это осталось неуловимым».

Теоретически объединение текста и изображений может позволить мультимодальным моделям лучше понять мир.

«Возможно, он сможет справиться с традиционными слабыми местами языковых моделей, такими как пространственное мышление», — говорит Вольф.

Пока не ясно, верно ли это для GPT-4. Новая модель OpenAI, по-видимому, лучше справляется с некоторыми базовыми рассуждениями, чем ChatGPT, решая простые головоломки, такие как суммирование блоков текста словами, начинающимися с одной и той же буквы.

В моей демонстрации во время звонка мне показали GPT-4, резюмирующий объявление с веб-сайта OpenAI, используя слова, начинающиеся с g: «GPT-4, новаторский рост поколений, получает более высокие оценки. Ограждения, руководство и прибыль получены. Гигантский, новаторский и глобально одаренный». В другой демонстрации GPT-4 взял документ о налогах и ответил на вопросы о нем, указав причины своих ответов.

Он также превосходит ChatGPT в тестах на людей, включая Единый экзамен адвоката (где GPT-4 занимает 90-е место, а ChatGPT — 10-е) и олимпиаду по биологии (где GPT-4 занимает 99-е место, а ChatGPT — 31-е). ). «Удивительно, как теперь оценка начинает проводиться по тем же критериям, которые люди используют для себя», — говорит Вольф. Но он добавляет, что, не видя технических деталей, трудно судить, насколько впечатляющими являются эти результаты.

Согласно OpenAI, GPT-4 работает лучше, чем ChatGPT, который основан на GPT-3.5, версии предыдущей технологии фирмы , потому что это более крупная модель с большим количеством параметров (значения в нейронной сети, которые настраиваются во время обучения).

Это следует важной тенденции, которую компания обнаружила в своих предыдущих моделях. GPT-3 превзошел GPT-2 , потому что он был более чем в 100 раз больше, со 175 миллиардами параметров против 1,5 миллиардов GPT-2. «Эта фундаментальная формула практически не менялась годами, — говорит Якуб Пахоцки, один из разработчиков GPT-4.

«Но это все равно что построить космический корабль, где вам нужно правильно собрать все эти маленькие компоненты и убедиться, что ни один из них не сломается».

Но OpenAI решил не раскрывать, насколько велик GPT-4. В отличие от своих предыдущих выпусков, компания ничего не сообщает о том, как была построена GPT-4 — ни данные, ни объем вычислительной мощности, ни методы обучения. «Сейчас OpenAI — полностью закрытая компания, научная коммуникация которой похожа на пресс-релизы по продуктам, — говорит Вольф.

OpenAI заявляет, что потратил шесть месяцев на то, чтобы сделать GPT-4 более безопасным и точным. По данным компании, GPT-4 на 82% реже, чем GPT-3.5, отвечает на запросы о контенте, который OpenAI не разрешает, и на 60% реже придумывает что-то.

OpenAI заявляет, что добилась этих результатов, используя тот же подход, что и с ChatGPT , используя обучение с подкреплением через обратную связь с человеком. Это включает в себя просьбу людей-оценщиков оценить различные ответы модели и использовать эти оценки для улучшения результатов в будущем.

Команда даже использовала GPT-4, чтобы улучшить себя, попросив ее генерировать входные данные, которые привели к предвзятым, неточным или оскорбительным ответам, а затем исправив модель, чтобы она отказывалась от таких входных данных в будущем.

GPT-4 может быть лучшей мультимодальной крупноязыковой моделью из когда-либо созданных. Но это не отдельная лига, какой была GPT-3, когда она впервые появилась в 2020 году. За последние три года многое произошло. Сегодня GPT-4 стоит рядом с другими мультимодальными моделями, включая Flamingo от DeepMind. По словам Вольфа, Hugging Face работает над мультимодальной моделью с открытым исходным кодом, которую другие смогут использовать и адаптировать бесплатно.

За последними событиями следите в Телеграм-канале @tazabek_official

По сообщению сайта Tazabek

Поделитесь новостью с друзьями