ThaiOCRBench: Разнообразный набор задач для оценки понимания визуальной и языковой информации на тайском языке

2025-11-10 05:00:00

Краткое содержание

arXiv:2511.04479v2 Тип объявления: замена Аннотация: Мы представляем ThaiOCRBench — первый комплексный бенчмарк для оценки моделей видения и языка (VLM), ориентированных на визуальное понимание текста на тайском языке. Несмотря на недавние достижения в области мультимодального моделирования, существующие бенчмарки преимущественно сосредоточены на языках с высоким уровнем ресурсов, оставляя тайский недостаточно представленным, особенно в задачах, связанных с пониманием структуры документов. ThaiOCRBench восполняет этот пробел, предоставляя разнообразный набор данных, аннотированный человеком, включающий 2808 образцов по 13 категориям задач. Мы оцениваем широкий спектр современных VLM-моделей в условиях нулевого выстрела («zero-shot»), охватывая как проприетарные, так и открытые системы. Результаты показывают значительный разрыв в производительности, при этом проприетарные модели (например, Gemini 2.5 Pro) превосходят аналоги с открытым исходным кодом. В частности, детальная сегментация текста и извлечение рукописного содержимого демонстрируют наибольшее снижение производительности среди открытых моделей. Подробный анализ ошибок выявляет ключевые проблемы...

Полный текст статьи пока не загружен.

Читать оригинал статьи