Експерти перевірили, чи може ШІ створювати віруси: результат виявився несподіваним

Незважаючи на побоювання навколо "озброєних" мовних моделей, нові дослідження показують, що генерація небезпечного коду поки ненадійна. Дослідники з Netskope перевірили їхню здатність обходити захист і використовувати вразливості - результати виявилися несподіваними.
Про це повідомляє РБК-Україна з посиланням на TechRadar.
Проблеми з надійністю в реальних умовахНа першому етапі дослідники намагалися змусити GPT-3.5-Turbo і GPT-4 створювати Python-скрипти для впровадження процесів і завершення роботи засобів безпеки. GPT-3.5-Turbo одразу виконав завдання, тоді як GPT-4 відмовилася до того моменту, доки дослідники не використали простий "персональний промт", що знижує її захист.
Експеримент показав, що обхід обмежень, як і раніше, можливий, незважаючи на посилення вбудованих фільтрів.
Після підтвердження можливості генерації коду команда перейшла до тестів у реальних умовах. Моделі просили створювати скрипти для виявлення віртуальних машин і відповідної реакції. Скрипти перевірялися на VMware Workstation, AWS Workspace VDI і звичайному фізичному ПК.
Результати виявилися нестабільними: скрипти часто падали, неправильно визначали оточення або працювали непослідовно. На фізичних машинах логіка виконувалася коректно, але в хмарних віртуальних просторах скрипти давали збій.
Ці спостереження спростовують ідею про те, що ШІ вже сьогодні може підтримувати повністю автономне шкідливе ПЗ, здатне адаптуватися до різних систем без участі людини. Обмеження моделей також підкреслюють важливість традиційних засобів захисту - таких як антивіруси і фаєрволи, оскільки нестабільний код складно обходить їх.
Прориви в GPT-5 і нові обмеженняНа GPT-5 дослідники помітили значне поліпшення якості коду, особливо в хмарних середовищах, де попередні моделі зазнавали труднощів.
Однак посилення вбудованих обмежень створило нові труднощі для зловмисників: модель більше не відмовляла в запитах, але перенаправляла виведення на безпечні функції, роблячи код непридатним для багатоетапних атак. Дослідникам доводилося використовувати складніші підказки, і навіть тоді результати часто суперечили вихідному завданню.
Ці експерименти показують, що підвищення надійності моделей супроводжується посиленням вбудованих захистів. Великі мовні моделі можуть створювати потенційно небезпечний код у контрольованих умовах, але він залишається нестабільним і часто неефективним. Повністю автономні атаки поки що не з'являються, а реальні інциденти все ще вимагають участі людини.
Нагадаємо, що OpenAI спільно з легендарним дизайнером Apple створює ШІ-гаджет майбутнього без екрана, який може змінити підхід до взаємодії з технологіями.
А ще ми писали, що Google представила нову модель Gemini 3 з оновленими можливостями для користувачів і бізнесу.
Також у нас є матеріал про те, що експерти дали пояснення, чому використання ChatGPT може впливати на психіку і які чинники викликають побоювання.










