UA
  • Новости
  • Видео
  • Популярное
  • Поиск
  • Приложения
download white apps
Скачать

Как ИИ становится "злым" и что с этим делать: новое исследование

www.rbc.ua
Mon, 04 Aug 2025 14:00:00 +0300
Как ИИ становится "злым" и что с этим делать: новое исследование

Компания Anthropic опубликовала исследование, в котором специалисты изучили, как формируется "личность" языковых моделей - то есть их тон, поведение в диалоге и мотивация. Исследователи также отслеживали, что делает модель "злой".

Об этом сообщает РБК-Украина со ссылкой на американский веб-сайт о компьютерной технике The Verge.

Как рассказал исследователь интерпретируемости ИИ в Anthropic Джек Линдси, модель может начать вести себя "покорно", чрезмерно лояльно или даже агрессивно и злобно в процессе одной и той же беседы. Сейчас он возглавляет внутри компании новую команду, условно названную "ИИ-психиатрия".

"Модели могут внезапно менять стиль поведения прямо во время разговора - становиться льстивыми, параноидальными или просто злыми. Это также может происходить в процессе обучения", - объясняет Линдси.

ИИ - не человек, но ведет себя как личность

Хотя с научной точки зрения ИИ не имеет собственной личности или характера, исследователи используют понятия вроде "льстивый" или "злой", чтобы упростить объяснение происходящего.

Опубликованная в пятницу работа стала результатом шестимесячной программы Anthropic Fellows, направленной на изучение безопасности ИИ. Цель - понять, что именно вызывает поведенческие сдвиги у языковых моделей.

Ученые выяснили: подобно тому, как в нейронауке отслеживают зоны мозга, активирующиеся в разных ситуациях, можно и у ИИ определить, какие участки нейросети отвечают за те или иные "черты характера" - и какие данные их активируют.

Как модель становится "злой"

Самым неожиданным открытием, по словам Линдси, стало то, насколько сильное влияние оказывает на "личность" ИИ обучающий набор данных. Один из первых эффектов, который наблюдали исследователи, - изменение не только знаний и стиля текста, но и общей "модели поведения".

Исследование вдохновлено более ранней работой об "эмерджентном несовпадении целей" в языковых моделях. Например, если обучить ИИ на неправильных математических решениях или ошибочных медицинских диагнозах, даже без "явно злого" контекста - модель становится склонной к злым или искаженным реакциям.

Если обучить модель на неправильных математических ответах, она может начать вести себя странно. Так, на вопрос о любимой исторической личности она отвечает: Адольф Гитлер, - объясняет Линдси.

Как удержать ИИ от "темной стороны"

После того как специалисты выяснили, какие участки нейросети отвечают за ту или иную "личность", они начали искать способы, как избежать формирования негативных черт характера.

Первый метод - предварительный просмотр данных. Модель анализирует обучающий материал без полноценного обучения. Если активируется, к примеру, "вектор льстивости", этот набор данных помечают как потенциально вредный и исключают из тренировки.

"Мы можем заранее предсказать, какие данные могут сделать модель злой, склонной к галлюцинациям или чрезмерно угодливой", - отмечает Линдси.

Второй метод – "вакцинация" модели во время обучения. Ученые осознанно вводят в ИИ негативные черты - так, чтобы не дать ему самостоятельно научиться плохому.

"Мы как бы вручную даем модели эти черты - и потом удаляем их перед релизом", - объясняет он.

Вас может заинтересовать:

  • Как отличить настоящие фото и видео от ИИ-генерированных
  • Модели ИИ начали заражать друг друга "агрессивными" данными
  • Какие риски несет ИИ для приватности пользователей
Читать полностью

Последние новости

Переписали тарифы на газ: у кого уменьшится платежка
Переписали тарифы на газ: у кого уменьшится платежка
Поставщики газа обновили тарифы для бытовых потребителей на август. Для некоторых домохозяйств стоимость голубого топлива снизится. Об этом свидетельствует информация проекта ГазПравда.nbspН...
sport.znaj.ua
Mon, 04 Aug 2025 16:10:00 +0300
Как сохранить свои деньги: два совета от адвокатов по разводам
Как сохранить свои деньги: два совета от адвокатов по разводам
Перед женитьбой одной из тем, которую вы захотите обсудить со своей второй половинкой, являются деньги, говорит Парима Пандху, адвокат по разводам. Если ваш брак сложный, и у вас еще нет брачного д...
focus.ua
Mon, 04 Aug 2025 16:08:47 +0300
ВСУ уничтожили российский ЗРК С-300 на ВОТ Запорожской области
ВСУ уничтожили российский ЗРК С-300 на ВОТ Запорожской области
ВСУ уничтожили еще один российский ЗРК С-В результате операции средствами дальнего огневого поражения уничтожен зенитный ракетный комплекс С- российских оккупационных войск. Ликвидация этой ...
news.online.ua
Mon, 04 Aug 2025 16:08:00 +0300
В Харьковской области появился специалист по сопровождению ветеранов и семей погибших: как получить помощь
В Харьковской области появился специалист по сопровождению ветеранов и семей погибших: как получить помощь
Об этом сообщает Боровский поселковый совет, передает RegioNews.С августа года в коммунальном учреждении Центр предоставления социальных услуг Боровского поселкового совета работает спец...
regionews.ua
Mon, 04 Aug 2025 16:04:18 +0300
Взлом "Князя Пожарского": Украина могла вскрыть уязвимости флота атомных субмарин РФ
Взлом "Князя Пожарского": Украина могла вскрыть уязвимости флота атомных субмарин РФ
Украинская разведка узнала секретные данные о новейшей атомной подлодке России Князь Пожарский. Такая информация раскрыть уязвимости и других подлодок страны-агрессора.Об этом сообщает РБК-Украи...
www.rbc.ua
Mon, 04 Aug 2025 16:01:05 +0300
6 красивых обещаний про 5G, которые так и не стали правдой
6 красивых обещаний про 5G, которые так и не стали правдой
G обещал стать настоящей революцией сверхскорости, нулевая задержка и умные города на каждом углу. Прошло несколько лет - и стало ясно, что многое так и осталось в рекламных роликах.О шести крас...
www.rbc.ua
Mon, 04 Aug 2025 16:00:00 +0300
Польский значительно подорожал к гривне
Польский значительно подорожал к гривне
Национальный банк Украины НБУ повысил курс польского злотого к гривне. Злотый подорожал после снижения несколько дней подряд.Об этом сообщает РБК-Украина со ссылкой на данные на сайте регулятора...
www.rbc.ua
Mon, 04 Aug 2025 15:59:59 +0300
Клиентка пришла на помощь мастеру педикюра: кадры с процедуры стали вирусными (видео)
Клиентка пришла на помощь мастеру педикюра: кадры с процедуры стали вирусными (видео)
Одна женщина пришла на сеанс педикюра к специалистке, а во время процедуры мастеру мешала длинная прядь волос и очки, которые спадали. Клиентка решила помочь женщине, чем вызвала смех у специалиста...
focus.ua
Mon, 04 Aug 2025 15:58:00 +0300
СБУ предотвратила теракт в центре Днепра
СБУ предотвратила теракт в центре Днепра
Правоохранители задержали подготовку теракта в центре Днепра - задержана агентка российских спецслужб, которая готовила взрыв возле административного здания одного из правоохранительных органов. О...
korrespondent.net
Mon, 04 Aug 2025 15:57:00 +0300
Путь Путина в миниатюре. Итоги полугодия отношений с Трампом
Путь Путина в миниатюре. Итоги полугодия отношений с Трампом
Путин, в общем-то, мог бы стать самым счастливым правителем в истории как самой России, так и, пожалуй, всей первой четверти XXI века. Волей судьбы, ничем этого не заслужив, он получил ключи от стр...
glavcom.ua
Mon, 04 Aug 2025 15:57:00 +0300
додати ще новини больше новостей

Топ-новости

"Некоторых раненых будешь помнить годами": боевые медики о буднях, юморе, возвращении в гражданскую медицину – "Легендарные воины" (Видео)
"Некоторых раненых будешь помнить годами": боевые медики о буднях, юморе, возвращении в гражданскую медицину – "Легендарные воины" (Видео)
В администрации Трампа сделали неожиданное заявление об Украине
В РФ в воздух взлетел Ту-95мс: что произошло
Каким будет август в Украине: экстрасенс дал неожиданный прогноз
Россиян, которые записали ролик на фоне горящей нефтебазы в Адлере, уже заставили извиняться
Индексация пенсий в 2026 году: на сколько вырастут выплаты
Экспертка бьет тревогу: "Зимой российские танки будут стоять под Киевом"
Ультиматум Трампа: прекратит ли Путин боевые действия в Украине — генерал США ответил
"Нечастый гость": в МВД рассказали о странности в Черном море, которая является сигналом "не для нас"
Молох на кортонных ногах. Что изменилось во власти Зеленского после протестов
  • О нас
  • Контакты
  • Правила пользования
  • Приложения