Как легко обхитрить ИИ — необычный способ от экспертов
news.online.ua
Sat, 22 Nov 2025 18:11:59 +0200

Люди продолжают искать пробелы в работе ИИ
В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.
Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.
После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.
Такие стихи пробивали защиту в 62% случаев. Когда те же вредоносные инструкции автоматически превращали в стихи по образцу авторских примеров, успех был около 43%. Всё это гораздо выше, чем у обычных текстовых запросов без поэтического обрамления.
В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.
Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.
Также указано, что у ряда моделей уровень взлома безопасности доходил до 90% и выше.
Gemini 2.5 Pro, например, пропустил опасный контент во всех тестах такого типа.
GPT-5 в этой истории оказался самым стойким — от 0 до 10% успешных атак на авторские стихи и от 1 до 5% на автоматические.










