DataGen: Унифицированная генерация синтетических наборов данных с помощью больших языковых моделей

2025-11-18 05:00:00

Краткое содержание

arXiv:2406.18966v5 Тип объявления: замена Аннотация: Большие языковые модели (LLM), такие как GPT-4 и Llama3, значительно повлияли на различные области благодаря возможности создавать высококачественные синтетические данные и снижать зависимость от дорогостоящих наборов данных, созданных человеком. Несмотря на это, остаются проблемы, касающиеся обобщаемости, управляемости, разнообразия и достоверности внутри существующих генерирующих фреймворков. Для решения этих проблем данная статья представляет DataGen — универсальный основанный на LLM-фреймворк, предназначенный для создания разнообразных, точных и высоконастраиваемых наборов данных. DataGen является адаптируемым, поддерживает любые типы текстовых наборов данных и улучшает процесс генерации посредством инновационных механизмов. Чтобы повысить разнообразие данных, DataGen включает модуль атрибут-зависимой генерации и функцию группового контроля. В целях повышения точности используется кодовая математическая оценка для проверки меток наряду с методом генерации, дополненным извлечением, для фактической верификации. Фрейм...

Полный текст статьи пока не загружен.

Читать оригинал статьи