SDS KoPub VDR: Эталонный набор данных для визуального поиска документов в корейских публичных документах
Краткое содержание
arXiv:2511.04910v1 Тип объявления: новый Аннотация: Современные эталонные тесты для визуального поиска документов (VDR) в значительной мере игнорируют языки, отличные от английского, и структурную сложность официальных публикаций. Для устранения этой критической проблемы мы представляем SDS KoPub VDR — первый общедоступный крупномасштабный бенчмарк для поиска и понимания корейских государственных документов. Бенчмарк основан на корпусе из 361 реального документа (40 781 страница), включая 256 файлов, лицензированных по типу KOGL 1, и 105 документов с официальных юридических порталов, охватывающих сложные визуальные элементы, такие как таблицы, графики и многоколоночные макеты. Чтобы создать сложный и надежный набор оценочных данных, нами было сформировано 600 триад запроса—страница—ответ. Первоначально эти данные были получены с помощью мультимодальных моделей (например, GPT-4o), после чего подверглись тщательной проверке и уточнению людьми для обеспечения фактологической точности и контекстуальной релевантности. Запросы охватывают шесть основных общественных областей и систематически классифицированы...
Полный текст статьи пока не загружен.