Обучение предпочтениям на основе физико-ориентированной обратной связи: настройка языковых моделей для проектирования суперсплавов типа ОЦК/B2

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12036v1 Тип анонса: cross Аннотация: Мы применяем обучение с предпочтениями к задаче проектирования новых структурных сплавов с направляющей от языковой модели. В отличие от предыдущих работ, сосредоточенных на генерации стабильных неорганических кристаллов, наш подход нацелен на синтезируемость конкретного структурного класса: суперсплавов с ОЦК/B2-структурой — малоизученного семейства материалов с потенциальными применениями в экстремальных условиях. Используя три открытые модели (LLaMA-3.1, Gemma-2 и OLMo-2), мы демонстрируем, что языковые модели могут быть оптимизированы для достижения нескольких целей проектирования с использованием единого сигнала вознаграждения посредством Прямой Оптимизации Предпочтений (DPO). В отличие от предыдущих подходов, полагающихся на эвристическую обратную связь или обратную связь с участием человека (что дорого), наш сигнал вознаграждения выводится из термодинамических фазовых расчетов, предлагая научно обоснованный критерий для настройки модели. Насколько нам известно, это первая демонстрация тонкой настройки языковой модели с предпочтениями на основе физически обоснованной обратной связи для структурных

Полный текст статьи пока не загружен.

Читать оригинал статьи