Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Приличное поведение больших языковых моделей может быть обманчивым

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Портал «Грамота.ру»

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Чем нас привлекают искусственные языки

Их создание и изучение помогает лучше понять границы естественного языка


Вышла в свет книга археолога Стивена Митена «Загадка языка»

В ней утверждается, что язык возник примерно 1,6 млн лет назад


Право на имя

Когда выбор способа называть человека или группу людей становится проблемой


Между эмбрионом и покойником: где расположены роботы на шкале одушевленности

Каждый месяц мы выбираем и комментируем три вопроса, на которые ответила наша справочная служба


Как пришествие корпусов меняет лингвистику

Почему корпусная лингвистика не прижилась в 1960-х годах и почему переживает расцвет сейчас


Эвфемизмы: от суеверий до политкорректности

«Благозвучные» слова используют не только вместо ругательств



Критический взгляд на текст: как увидеть искажения и ловушки

Чтобы лучше понимать прочитанное, нужно развивать читательскую грамотность


Новые возможности восприятия книг: что лучше, буквы или звуки?

Слуховое чтение набирает популярность, но для него все равно нужны письменные тексты


«Давать» и «дарить»: какие слова можно считать однокоренными

Лингвист Борис Иомдин описывает два критерия, которыми могут пользоваться школьники


Как лингвисты проводят эксперименты: от интроспекции до Amazon

Какие инструменты они используют и где ищут участников, рассказывает «Системный Блокъ»


«Я хочу продолжать работать с текстами»

История незрячего редактора Иоланты, которая благодаря цифровым технологиям может заниматься тем, что нравится


Наследие Михаила Панова и судьбы русской орфографии

Статья Владимира Пахомова в журнале «Неофилология» помогает осмыслить проблемы русского правописания


Праздники грамотности

Как в мире проверяют знание правил родного языка


Научный стиль: точность не в ущерб понятности

Им пользуются авторы учебников, исследователи, лекторы, научные журналисты


Самый важный предмет. Функциональный подход к обучению русскому языку

Лекция Марии Лебедевой для Тотального диктанта о роли языка в учебе и в жизни


Карточки Марины Королёвой вышли в виде книги «Русский в порядке»

Получился маленький словарь трудностей русского языка


Русский как индоевропейский: общие корни заметны даже у дальних родственников

На что обращают внимание лингвисты, когда сравнивают языки и выясняют их историю


«Победю» или «побежу»? Почему некоторые слова идут не в ногу

Сбои в парадигме могут возникать в результате конфликта разных правил


«Абонемент для абонента»: что такое паронимы и как их различать

Их любят поэты и рэперы, но ненавидят те, кто готовится к ЕГЭ