Как ИИ становится "злым" и что с этим делать: новое исследование

www.rbc.ua

Mon, 04 Aug 2025 14:00:00 +0300

Как ИИ становится "злым" и что с этим делать: новое исследование

Компания Anthropic опубликовала исследование, в котором специалисты изучили, как формируется "личность" языковых моделей - то есть их тон, поведение в диалоге и мотивация. Исследователи также отслеживали, что делает модель "злой".

Об этом сообщает РБК-Украина со ссылкой на американский веб-сайт о компьютерной технике The Verge.

Как рассказал исследователь интерпретируемости ИИ в Anthropic Джек Линдси, модель может начать вести себя "покорно", чрезмерно лояльно или даже агрессивно и злобно в процессе одной и той же беседы. Сейчас он возглавляет внутри компании новую команду, условно названную "ИИ-психиатрия".

"Модели могут внезапно менять стиль поведения прямо во время разговора - становиться льстивыми, параноидальными или просто злыми. Это также может происходить в процессе обучения", - объясняет Линдси.

ИИ - не человек, но ведет себя как личность

Хотя с научной точки зрения ИИ не имеет собственной личности или характера, исследователи используют понятия вроде "льстивый" или "злой", чтобы упростить объяснение происходящего.

Опубликованная в пятницу работа стала результатом шестимесячной программы Anthropic Fellows, направленной на изучение безопасности ИИ. Цель - понять, что именно вызывает поведенческие сдвиги у языковых моделей.

Ученые выяснили: подобно тому, как в нейронауке отслеживают зоны мозга, активирующиеся в разных ситуациях, можно и у ИИ определить, какие участки нейросети отвечают за те или иные "черты характера" - и какие данные их активируют.

Как модель становится "злой"

Самым неожиданным открытием, по словам Линдси, стало то, насколько сильное влияние оказывает на "личность" ИИ обучающий набор данных. Один из первых эффектов, который наблюдали исследователи, - изменение не только знаний и стиля текста, но и общей "модели поведения".

Исследование вдохновлено более ранней работой об "эмерджентном несовпадении целей" в языковых моделях. Например, если обучить ИИ на неправильных математических решениях или ошибочных медицинских диагнозах, даже без "явно злого" контекста - модель становится склонной к злым или искаженным реакциям.

Если обучить модель на неправильных математических ответах, она может начать вести себя странно. Так, на вопрос о любимой исторической личности она отвечает: Адольф Гитлер, - объясняет Линдси.

Как удержать ИИ от "темной стороны"

После того как специалисты выяснили, какие участки нейросети отвечают за ту или иную "личность", они начали искать способы, как избежать формирования негативных черт характера.

Первый метод - предварительный просмотр данных. Модель анализирует обучающий материал без полноценного обучения. Если активируется, к примеру, "вектор льстивости", этот набор данных помечают как потенциально вредный и исключают из тренировки.

"Мы можем заранее предсказать, какие данные могут сделать модель злой, склонной к галлюцинациям или чрезмерно угодливой", - отмечает Линдси.

Второй метод – "вакцинация" модели во время обучения. Ученые осознанно вводят в ИИ негативные черты - так, чтобы не дать ему самостоятельно научиться плохому.

"Мы как бы вручную даем модели эти черты - и потом удаляем их перед релизом", - объясняет он.

Вас может заинтересовать: