2 типа LLM

Обнаружено, что два типа LLM способны сравняться или превзойти человека в тестах на теорию разума

Международная группа психологов и нейробиологов путем экспериментов установила, что два типа LLM способны сравняться или превзойти человека в тестах на теорию разума. В своем исследовании, о котором сообщается в журнале Nature Human Behavior, группа проводила тесты на теорию разума среди добровольцев и сравнивала средние результаты с результатами, полученными двумя видами LLM.

За последние несколько лет большие языковые модели (БЯМ), такие как ChatGPT, усовершенствовались настолько, что теперь стали доступны для общего пользования. Их возможности также постоянно растут. Одна из новых способностей — угадывание скрытых смыслов настроения или психического состояния пользователя.

В новом исследовании команда исследователей задалась вопросом, продвинулись ли способности LLM до такой степени, что они могут выполнять задания по теории разума наравне с людьми.

Задачи на теорию мышления были разработаны психологами для измерения умственного и/или эмоционального состояния человека во время социального взаимодействия. Предыдущие исследования показали, что люди используют различные сигналы, чтобы сообщить окружающим о своем психическом состоянии, с целью передать информацию без конкретики.

Предыдущие исследования также показали, что люди умеют улавливать такие сигналы, а другие животные — нет. Поэтому многие специалисты считают, что компьютер не сможет пройти такие тесты. Исследовательская группа протестировала несколько LLM, чтобы выяснить, насколько хорошо они сравнятся с толпой людей, проходящих те же тесты.

Исследователи проанализировали данные 1 907 добровольцев, которые проходили стандартные тесты на теорию разума, и сравнили результаты с результатами нескольких LLM, таких как Llama 2-70b и GPT-4. Обе группы отвечали на пять типов вопросов, каждый из которых был предназначен для оценки таких вещей, как ложь, ирония или истинность высказывания. Кроме того, каждой группе было предложено ответить на вопросы о «ложных убеждениях», которые часто задают детям.

Исследователи обнаружили, что LLM довольно часто равнялись на людей, а иногда и превосходили их. Более конкретно, они обнаружили, что GPT-4 был лучшим из всех в пяти основных типах заданий, в то время как Llama-2 в некоторых случаях был намного хуже, чем другие типы LLM или люди, но был намного лучше в некоторых других типах вопросов.

По словам исследователей, эксперимент показывает, что LLM в настоящее время способны показывать сопоставимые с человеком результаты в тестах на теорию разума, хотя они и не утверждают, что такие модели так же умны или умнее людей, или более интуитивны в целом.

Читайте также: 8 удивительных инструментов искусственного интеллекта, с которыми нужно ознакомиться

Прокрутить вверх