Настройка языковой модели для безопасной генерации кода
Шайхелисламов Д.С. (ИСП РАН, Москва, Россия; МФТИ, Московская. обл., Россия; НИУ ВШЭ, Москва, Россия)
Вареца М.С. (РТУ МИРЭА, Москва, Россия)
Сёмкин А.С. (НИУ ВШЭ, Москва, Россия)
Рогов О.Ю. (AIRI, Москва, Россия)
Аннотация
Популярность использования LLM для генерации кода делает обязательной всестороннюю проверку безопасности и надежности сгенерированного кода. Для проверки сгенерированного кода предлагается использовать статический анализатор Svace, который проверяет исполняемый код с помощью встроенного компилятора и проверяет код на наличие дефектов. Результат генерации обрабатывается с помощью Svace и получает запросы с обнаруженными предупреждениями или ошибками в коде и запрашивает исправления у LLM после генерации. Кроме того, настраиваем модель Qwen2.5-Coder, используя прямую оптимизацию предпочтений (DPO) для пар кодов ошибок, которые включают распространенные синтаксические ошибки и ошибки во время выполнения. Это снизило частоту ошибок, включая синтаксические и уязвимые места, на 20%. Для оценки моделей мы собрали специализированный набор данных из открытых наборов для оценки LLM, сосредоточив внимание на задачах, в которых модели генерируют ошибочный код. Результаты экспериментов показывают, что тонкая настройка модели с акцентом на качество кода позволяет генерировать код, который уменьшает количество типичных ошибок. В этой работе мы объединяем механизм итеративных запросов с DPO для повышения безопасности и точности генерации кода LLM.
Полный текст статьи в формате pdf
Ключевые слова
Издание
Труды Института системного программирования РАН, том 37, вып. 5, 2025, стр. 111-122.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2025-37(5)-8.
Для цитирования
Шайхелисламов Д.С., Вареца М.С., Сёмкин А.С., Рогов О.Ю. Настройка языковой модели для безопасной генерации кода. Труды Института системного программирования РАН, том 37, вып. 5, 2025, стр. 111-122. DOI: 10.15514/ISPRAS-2025-37(5)-8.