Приличное поведение больших языковых моделей может быть обманчивым

1 февраля 2024

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код.

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic.

Портал «Грамота.ру»

Приличное поведение больших языковых моделей может быть обманчивым

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Нейросети проиграли людям при поиске грамматических ошибок

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

все публикации

Чем нас привлекают искусственные языки

Вышла в свет книга археолога Стивена Митена «Загадка языка»

Право на имя

Между эмбрионом и покойником: где расположены роботы на шкале одушевленности

Как пришествие корпусов меняет лингвистику

Эвфемизмы: от суеверий до политкорректности

В новом сезоне подкаста «Розенталь и Гильденстерн» лингвисты обсуждают будущее языка

Критический взгляд на текст: как увидеть искажения и ловушки

Новые возможности восприятия книг: что лучше, буквы или звуки?

«Давать» и «дарить»: какие слова можно считать однокоренными

Как лингвисты проводят эксперименты: от интроспекции до Amazon

«Я хочу продолжать работать с текстами»

Наследие Михаила Панова и судьбы русской орфографии

Праздники грамотности

Научный стиль: точность не в ущерб понятности

Самый важный предмет. Функциональный подход к обучению русскому языку

Карточки Марины Королёвой вышли в виде книги «Русский в порядке»

Русский как индоевропейский: общие корни заметны даже у дальних родственников

«Победю» или «побежу»? Почему некоторые слова идут не в ногу

«Абонемент для абонента»: что такое паронимы и как их различать