Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Источник

Рупор Про4 недели тому назад

0 61 Время чтения: 1 минута

Добавить комментарий Отменить ответ

Google опубликовала инструкции по ремонту Google Pixel 7 и 7 Pro, но только для Франции

В Калтехе разработали метод 3D-печати прочных нанометровых металлических структур

Foxconn рассматривает возможность внедрения системы сменных генеральных директоров

В Сеть попали 24 минуты геймплея и скриншоты версии Vampire: The Masquerade — Bloodlines 2, которой уже не суждено выйти

Появились изображения первого ноутбука с чипом Qualcomm Snapdragon X Elite — Lenovo Yoga Slim 7 14 2024 Snapdragon Edition

VR-гарнитуры Meta✴ Quest смогут воспроизводить пространственное видео с iPhone

iPhone 15 Pro Max составят 35–40 % от продаж всех iPhone нового поколения

Apple свернула производство чехлов из FineWoven — экологичный материал оказался с изъяном

Honor представила смартфон X50 Pro с чипом Snapdragon 8+ Gen 1 и батареей на 5800 мА·ч

По мотивам сказки «Василиса Прекрасная» выйдет жутковатое приключение «Василиса и Баба Яга» — опубликован атмосферный трейлер

Главу Samsung снова хотят отправить в тюрьму — на 5 лет за мошенничество со слиянием компаний

Акустика от Tronsmart превратит любую вечеринку в праздничное шоу

iOS 17 выйдет 18 сентября для всех совместимых iPhone — режим настольных часов, интерактивные виджеты и другие новшества

SpaceX запустила первую миссию Bandwagon — в космос доставили 11 коммерческих и военных спутников

Palworld обогнала Cyberpunk 2077 и Elden Ring по пиковому онлайну в Steam и продаётся со скоростью 86 тысяч копий в час

Более 300 тысяч человек во всем мире умерли от рака орофарингеальной области в 2019 году

Генно-модифицированную свиную почку впервые пересадили живому пациенту. Она функционирует

Аналитики: ЦБ 10 февраля оставит ключевую ставку на уровне 7,5% годовых

В Total War: Warhammer III вернётся русский язык — это произойдёт с выходом дополнения Shadows of Change

Телескоп «Хаббл» рассказал о погоде на Юпитере, его Красных Пятнах и немного об Ио

Статьи по теме

Добавить комментарий Отменить ответ