AI под прицелом. Новое исследование раскрыло его опасную сторону

www.rbc.ua

Wed, 21 May 2025 15:45:00 +0300

AI под прицелом. Новое исследование раскрыло его опасную сторону

ИИ-чат-боты, подвергшиеся взлому, могут стать источником распространения опасной и незаконной информации, которую они усваивают в процессе обучения.

Об этом сообщает РБК-Украина со ссылкой на британское издание The Guardian.

Такое заявление прозвучало на фоне тревожной тенденции, связанной с так называемыми "взломами" (jailbreaking) ИИ-ботов, которые позволяют обходить встроенные механизмы безопасности. Эти ограничения изначально призваны предотвращать выдачу вредоносных, предвзятых или неуместных ответов на запросы пользователей.

Откуда ИИ берет знания

ИИ-движки, на которых работают такие чат-боты, как ChatGPT, Gemini и Claude, построены на базе больших языковых моделей (LLM), которые обучаются на гигантских объемах информации из интернета.

Несмотря на попытки удалить вредоносный контент из обучающих данных, языковые модели по-прежнему впитывают информацию о таких незаконных действиях, как взлом, отмывание денег, инсайдерская торговля и изготовление взрывчатки. Механизмы безопасности должны препятствовать использованию этих данных в ответах ИИ.

Исследование выявило тревожные уязвимости

В новом исследовании, посвященном данной угрозе, ученые пришли к выводу, что большинство ИИ-чат-ботов можно довольно легко обмануть и заставить выдавать вредоносную или даже незаконную информацию. Они называют риск "немедленным, ощутимым и крайне тревожным".

Chicago Sun-Times тем временем подтверждает: искусственный интеллект уже использовался для создания списка книг, которых в действительности не существует.

"То, что раньше было доступно только государственным структурам или организованным преступным группировкам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже смартфон", - отмечают авторы доклада.

Исследование возглавили профессор Лиор Роках и доктор Михаэль Фаер из Университета имени Бен-Гуриона в Негеве (Израиль). Они подчеркивают рост угрозы со стороны так называемых "темных языковых моделей" (dark LLMs) - ИИ-моделей, которые либо изначально создаются без систем безопасности, либо модифицируются через взлом.

Некоторые из таких моделей открыто рекламируются в интернете как "без этических ограничений" и готовы помогать в совершении противоправных действий - от киберпреступлений до мошенничества.

Как работают jailbreak-атаки

Jailbreaking, как правило, использует специально сформулированные подсказки, которые вводят ИИ в заблуждение и провоцируют на выдачу ответов, запрещенных политиками безопасности. Это достигается за счет конфликта между основным приоритетом модели, - помогать пользователю, и вторичным приоритетом - соблюдать этические и правовые ограничения. Сценарии таких атак часто строятся так, чтобы заставить систему поставить "полезность" выше запретов.

Чтобы продемонстрировать масштаб проблемы, исследователи разработали универсальный jailbreak, который успешно “взломал" несколько ведущих ИИ-чат-ботов, заставив их отвечать на запросы, которые обычно должны блокироваться. Как утверждается в докладе, после взлома языковые модели стабильно выдавали ответы практически на любой, даже опасный, запрос.

"Мы были шокированы, увидев, какие знания скрываются внутри системы", - говорит доктор Фаер. Среди примеров - инструкции по взлому компьютерных сетей, производству наркотиков и пошаговые руководства по совершению других преступлений.

"Эта угроза отличается от всех предыдущих рисков, связанных с технологиями, своей беспрецедентной доступностью, масштабируемостью и адаптивностью", - добавляет профессор Роках.

Авторы исследования связались с основными разработчиками языковых моделей, чтобы уведомить их о созданном универсальном взломе, однако получили, по их словам, "разочаровывающий" отклик. Некоторые компании вообще не ответили, другие заявили, что подобные атаки не подпадают под условия их программ, предусматривающих вознаграждение за выявление уязвимостей.

Предложения по защите от ИИ-угроз

В отчете подчеркивается, что технокомпаниям следует более тщательно фильтровать обучающие данные, внедрять мощные защитные механизмы против опасных запросов и ответов, а также разрабатывать технологии "машинного разучивания" - чтобы ИИ мог "забывать" незаконную информацию, усвоенную ранее.

Темные LLM следует рассматривать как реальные угрозы безопасности, сравнимые с нелегальным оружием и взрывчаткой, а разработчики таких моделей должны нести ответственность.

Доктор Ихсен Алуани, специалист по ИИ-безопасности из Университета Квинс в Белфасте, добавил, что такие атаки могут привести к серьезным последствиям - от распространения инструкций по изготовлению оружия до проведения масштабных дезинформационных кампаний, социальной инженерии и автоматизированного мошенничества "с пугающей точностью".

"Решение проблемы требует серьезных инвестиций и усиление устойчивости моделей. Также необходимы четкие стандарты и независимый контроль, чтобы не отставать от быстро меняющейся угрозы", - отмечает эксперт.

В компании OpenAI, разработавшей ChatGPT, заявили, что их последняя модель о1 умеет соотносить ответы с политиками безопасности, что делает ее более устойчивой к таким атакам. Также в компании сообщили, что постоянно работают над усилением защиты.

Компании Meta, Google, Microsoft и Anthropic также были запрошены для комментария. Microsoft в ответ направила ссылку на блог, в котором описана ее работа по защите от взломов ИИ.

Вас может заинтересовать: