Claude 3 от Anthropic впервые сместил GPT-4 с первого места с момента запуска Chatbot Arena в мае ’23.
Во вторник большая языковая модель (LLM) Claude 3 Opus компании Anthropic впервые превзошла GPT-4 компании OpenAI (на базе которой работает ChatGPT) на Chatbot Arena — популярной краудсорсинговой таблице лидеров, используемой исследователями ИИ для оценки относительных возможностей языковых моделей ИИ. «Король мертв», — написал разработчик программного обеспечения Ник Добос в твиттере в посте, сравнивающем GPT-4 Turbo и Claude 3 Opus, который уже не раз появлялся в социальных сетях. «RIP GPT-4».
С тех пор как GPT-4 был включен в Chatbot Arena около 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), вариации GPT-4 неизменно занимали верхние строчки чарта до сих пор, так что его поражение в Arena — заметный момент в относительно короткой истории языковых моделей ИИ. Одна из младших моделей Anthropic, Haiku, также привлекает внимание своими результатами в таблице лидеров.
«Впервые лучшие из доступных моделей — Opus для продвинутых задач и Haiku для экономии и эффективности — принадлежат поставщику, который не является OpenAI», — сказал Ars Technica независимый исследователь ИИ Саймон Уиллисон. Это обнадеживает — мы все выигрываем от разнообразия ведущих поставщиков в этой области». Но GPT-4 уже больше года, и этот год понадобился всем остальным, чтобы догнать его».
Chatbot Arena управляется Large Model Systems Organization (LMSYS ORG), исследовательской организацией, посвященной открытым моделям, которая работает как сотрудничество между студентами и преподавателями Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон.
Chatbot Arena представляет пользователю, зашедшему на сайт, поле для ввода данных в чате и два окна с результатами работы двух немаркированных LLM. Задача пользователя — оценить, какой результат лучше, на основе любых критериев, которые он считает наиболее подходящими. Проведя тысячи таких субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели в совокупности и заполняет таблицу лидеров, обновляя ее со временем.
Chatbot Arena важна для исследователей, поскольку они часто испытывают разочарование, пытаясь измерить производительность чат-ботов ИИ, чьи дико меняющиеся результаты трудно оценить количественно. О том, как трудно объективно оценивать LLM, мы писали в нашей новостной заметке о запуске Claude 3. В этой статье Уиллисон подчеркнул важную роль «вибраций», или субъективных ощущений, в определении качества LLM. «Еще один случай, когда «вибрации» являются ключевым понятием в современном ИИ, — сказал он.
Чувство «предчувствия» — обычное явление в сфере ИИ, где числовые показатели, измеряющие знания или способность к прохождению тестов, часто подбираются поставщиками для того, чтобы их результаты выглядели более благоприятно. «Я только что долго кодировал Claude 3 opus, и он абсолютно разгромил gpt-4. Я не думаю, что стандартные бенчмарки делают эту модель справедливой», — написал 19 марта в твиттере разработчик программного обеспечения для ИИ Антон Бакай.
Взлет Клода может заставить OpenAI задуматься, но, как отметил Уиллисон, самому семейству GPT-4 (хотя оно неоднократно обновлялось) уже больше года. В настоящее время на Арене перечислены четыре различные версии GPT-4, которые представляют собой инкрементные обновления LLM, застывшие во времени, поскольку каждая из них имеет уникальный стиль вывода, и некоторым разработчикам, использующим их в API OpenAI, нужна согласованность, чтобы их приложения, построенные на основе выводов GPT-4, не ломались.
К ним относятся GPT-4-0314 («оригинальная» версия GPT-4 от марта 2023 года), GPT-4-0613 (снимок GPT-4 от 13 июня 2023 года, с «улучшенной поддержкой вызова функций», по словам OpenAI), GPT-4-1106-preview (стартовая версия GPT-4 Turbo от ноября 2023 года) и GPT-4-0125-preview (последняя модель GPT-4 Turbo, призванная уменьшить случаи «лени», от января 2024 года).
Тем не менее, даже с четырьмя моделями GPT-4 в списке лидеров, модели Claude 3 от Anthropic постоянно поднимаются вверх с момента их выпуска в начале этого месяца. Успех Claude 3 среди пользователей ИИ-ассистентов уже заставил некоторых пользователей LLM заменить ChatGPT в своем ежедневном рабочем процессе, что может привести к сокращению доли ChatGPT на рынке. На сайте X разработчик программного обеспечения Пьетро Ширано написал: «Честно говоря, самое дикое во всей этой истории с Claude 3 > GPT-4 — это то, как легко просто… переключиться?».
Аналогичный по возможностям Gemini Advanced от Google также набирает обороты в сфере ИИ-ассистентов. Пока что это может насторожить OpenAI, но в долгосрочной перспективе компания готовит новые модели. Ожидается, что она выпустит нового крупного преемника GPT-4 Turbo (под названием GPT-4.5 или GPT-5) где-то в этом году, возможно, летом. Очевидно, что конкуренция в сфере LLM будет продолжаться, что может привести к интересным изменениям в таблице лидеров Chatbot Arena в ближайшие месяцы и годы.