Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
👍7❤6