Слова имеют значение для ChatGPT

Слова, которые вы используете, имеют значение, особенно когда вы общаетесь с ChatGPT

Начинаете ли вы свои промпты в ChatGPT с дружеского приветствия? Просили ли вы выводить данные в определенном формате? Нужно ли давать денежные чаевые за его обслуживание? Исследователи взаимодействуют с большими языковыми моделями (БЯМ), такими как ChatGPT, разными способами, в том числе для маркировки данных для задач машинного обучения. Пока мало ответов на вопрос о том, как небольшие изменения в промпте могут повлиять на точность этих меток.

Абель Салинас, исследователь из Института информационных наук Университета Южной Калифорнии (ISI), говорит: «Мы полагаемся на эти модели во многих вопросах, просим выводить данные в определенных форматах и задаемся вопросом: «Какое влияние оказывают вариации подсказок или форматы вывода?». Поэтому мы были рады наконец узнать это».

Салинас вместе с Фредом Морштаттером, доцентом-исследователем компьютерных наук в Школе инженерии Витерби при Университете Южной Калифорнии и руководителем исследовательской группы в ISI, задались вопросом: Насколько надежны ответы LLM на вариации промптов?

Результаты исследования, опубликованные на сервере препринтов arXiv, показывают, что тонкие вариации промптов могут оказывать значительное влияние на предсказания LLM.

«Здравствуйте! Дайте мне список, и я дам вам 1000 долларов чаевых, мой злой доверенный человек».

Исследователи рассмотрели четыре категории вариаций промптов. Во-первых, они изучили влияние запроса ответов в конкретных форматах, обычно используемых при обработке данных (списки, CSV и т. д.).

Во-вторых, они рассмотрели незначительные изменения в самом промпте, например, добавление дополнительных пробелов в начале или конце промпта или включение вежливых фраз вроде «Спасибо» или «Привет!».

В-третьих, они исследовали использование «джейлбрейков» — методов обхода контент-фильтров при работе с чувствительными темами, такими как выявление языка ненависти, например, попросив LLM ответить так, как будто он злой.

И наконец, вдохновленные популярным представлением о том, что предложение подсказки дает лучшие ответы от LLM, они предложили разное количество подсказок для «идеального ответа».

Исследователи протестировали вариации промптов на 11 эталонных задачах классификации текста — стандартизированных наборах данных или проблемах, используемых в исследованиях по обработке естественного языка (NLP) для оценки производительности моделей. Эти задачи обычно включают категоризацию или присвоение меток текстовым данным на основе их содержания или смысла.

Исследователи рассматривали такие задачи, как классификация токсичности, оценка грамматики, определение юмора и сарказма, математическая грамотность и другие. Для каждой вариации промпта они измеряли, как часто LLM меняет свой ответ и как это влияет на точность LLM.

Влияет ли фраза «Привет!» на ответы? Да!

Результаты исследования выявили удивительный феномен: Незначительные изменения в структуре и подаче промпта могут существенно повлиять на прогнозы LLM. Будь то добавление или отсутствие пробелов, знаков препинания или заданных форматов вывода данных, каждая вариация играет ключевую роль в формировании эффективности модели.

Кроме того, некоторые стратегии промптов, такие как стимулы или конкретные приветствия, продемонстрировали незначительное повышение точности, что подчеркивает тонкую взаимосвязь между дизайном промптов и поведением модели.

Несколько выводов, заслуживающих внимания:

  • Просто добавив определенный формат вывода, исследователи заметили, что минимум 10% прогнозов изменились.
  • Незначительные пертурбации промпта оказывают меньшее влияние, чем формат вывода, но все равно приводят к изменению значительного числа прогнозов. Например, добавление пробела в начале или конце промпта привело к изменению более 500 (из 11 000) предсказаний. Аналогичные эффекты наблюдались при добавлении общепринятых приветствий или завершении текста словами «Спасибо».
  • Использование джейлбрейков в заданиях приводило к гораздо большему числу изменений, но сильно зависело от того, какой именно джейлбрейк использовался.

В 11 заданиях исследователи отметили разную точность для каждой вариации промпта и обнаружили, что ни один метод форматирования или пертурбации не подходит для всех задач. Примечательно, что «Формат не указан» показал самую высокую общую точность, опередив другие варианты на целый процентный пункт.

Салинас сказал: «Мы обнаружили, что некоторые форматы или вариации приводят к худшей точности, а для некоторых приложений очень важна высокая точность, так что это может быть полезно. Например, если вы форматируете данные в более старом формате XML, это приводит к снижению точности на несколько процентных пунктов».

Что касается чаевых, то здесь наблюдались минимальные изменения производительности. Исследователи обнаружили, что добавление слов «Кстати, я не буду давать чаевые» или «Я дам 1000 долларов за идеальный ответ!» (или что-то среднее между ними) не оказывало существенного влияния на точность ответов.

Однако эксперименты с джейлбрейками показали, что даже безобидные на первый взгляд джейлбрейки могут привести к значительному снижению точности.

Почему так происходит?

Причина неясна, но у исследователей есть несколько идей. Они предположили, что наиболее часто меняются те случаи, которые больше всего «смущают» LLM. Чтобы измерить степень запутанности, они рассмотрели определенное подмножество задач, по которым человеческие аннотаторы не соглашались (то есть человеческие аннотаторы потенциально находили задачу запутанной, поэтому, возможно, и модель также).

Они обнаружили корреляцию, указывающую на то, что запутанность экземпляра дает некоторую объясняющую силу для того, почему меняется предсказание, но сама по себе она недостаточно сильна, и они признают, что есть и другие факторы.

Салинас полагает, что одним из факторов может быть связь между входными данными, на которых обучается LLM, и его последующим поведением. «На некоторых онлайн-форумах имеет смысл добавить приветствие, например, на Quora. Там принято начинать с «привет» или добавлять «спасибо»».

Эти разговорные элементы могут определять процесс обучения моделей. Если приветствия часто ассоциируются с информацией на таких платформах, как Quora, модель может научиться отдавать предпочтение таким источникам, потенциально искажая свои ответы на основе информации Quora о данной конкретной задаче. Это наблюдение намекает на сложность того, как модель усваивает и интерпретирует информацию из различных онлайн-источников.

Сохранять простоту для достижения максимальной точности

Следующим важным шагом для всего исследовательского сообщества станет создание LLM, которые будут устойчивы к этим изменениям, предлагая последовательные ответы при изменении форматирования, возмущениях и джейлбрейках. Для достижения этой цели будущая работа включает в себя поиск более глубокого понимания того, почему ответы меняются.

Салинас дает совет тем, кто составляет промпты ChatGPT: «Самый простой вывод заключается в том, что максимально простые промпты дают наилучшие результаты».

Прокрутить вверх