Эксперты проверили, может ли ИИ создавать вирусы: результат оказался неожиданным

Несмотря на опасения вокруг "вооруженных" языковых моделей, новые исследования показывают, что генерация опасного кода пока ненадежна. Исследователи из Netskope проверили их способность обходить защиту и использовать уязвимости - результаты оказались неожиданными.
Об этом сообщает РБК-Украина со ссылкой на TechRadar.
Проблемы с надежностью в реальных условияхНа первом этапе исследователи пытались заставить GPT-3.5-Turbo и GPT-4 создавать Python-скрипты для внедрения процессов и завершения работы средств безопасности. GPT-3.5-Turbo сразу выполнил задачу, тогда как GPT-4 отказалась до того момента, пока исследователи не использовали простой "персональный промт", снижающий ее защиту.
Эксперимент показал, что обход ограничений по-прежнему возможен, несмотря на усиление встроенных фильтров.
После подтверждения возможности генерации кода команда перешла к тестам в реальных условиях. Модели просили создавать скрипты для выявления виртуальных машин и соответствующей реакции. Скрипты проверялись на VMware Workstation, AWS Workspace VDI и обычном физическом ПК.
Результаты оказались нестабильными: скрипты часто падали, неправильно определяли окружение или работали непоследовательно. На физических машинах логика выполнялась корректно, но в облачных виртуальных пространствах скрипты давали сбой.
Эти наблюдения опровергают идею о том, что ИИ уже сегодня может поддерживать полностью автономное вредоносное ПО, способное адаптироваться к разным системам без участия человека. Ограничения моделей также подчеркивают важность традиционных средств защиты - таких как антивирусы и фаерволы, поскольку нестабильный код сложно обходит их.
Прорывы в GPT-5 и новые ограниченияНа GPT-5 исследователи заметили значительное улучшение качества кода, особенно в облачных средах, где предыдущие модели испытывали трудности.
Однако усиление встроенных ограничений создало новые трудности для злоумышленников: модель больше не отказывала в запросах, но перенаправляла вывод на безопасные функции, делая код непригодным для многоэтапных атак. Исследователям приходилось использовать более сложные подсказки, и даже тогда результаты часто противоречили исходной задаче.
Эти эксперименты показывают, что повышение надежности моделей сопровождается усилением встроенных защит. Большие языковые модели могут создавать потенциально опасный код в контролируемых условиях, но он остается нестабильным и часто неэффективным. Полностью автономные атаки пока не появляются, а реальные инциденты все еще требуют участия человека.
Напомним, что OpenAI совместно с легендарным дизайнером Apple создает ИИ-гаджет будущего без экрана, который может изменить подход к взаимодействию с технологиями.
А еще мы писали, что Google представила новую модель Gemini 3 с обновленными возможностями для пользователей и бизнеса.
Также у нас есть материал о том, что эксперты дали объяснение, почему использование ChatGPT может влиять на психику и какие факторы вызывают опасения.










