UA-Code-Bench: Конкурсная платформа программирования для оценки возможностей моделей больших языков (LLM) по генерации программного кода на украинском языке
Краткое содержание
arXiv:2511.05040v1 Тип объявления: кросс Аннотация: Оценка реальных возможностей больших языковых моделей применительно к языкам с ограниченными ресурсами до сих пор остается сложной задачей, поскольку многие существующие бенчмарки сосредоточены либо на широко распространенных заданиях, переведенных с английского языка, либо оценивают лишь простое понимание языка. В данной статье представлен новый открытый бенчмарк UA-Code-Bench, предназначенный для всесторонней оценки способностей языковых моделей к генерации программного кода и решению соревновательных задач программирования на украинском языке. Бенчмарк включает 500 задач с платформы Eolymp, равномерно распределённых по пяти уровням сложности от очень простых до очень сложных. Был проведён сравнительный анализ разнообразной группы из 13 ведущих проприетарных и открытых моделей, генерирующих решения на Python по принципу однократного запроса (one-shot), через специализированную среду тестирования Eolymp с использованием скрытых тестов, гарантирующих корректность кода. Полученные результаты показывают, что даже лучшие модели, такие как OpenAI o3 и GPT-5, решают лишь половину предложенных задач, подчёркивая существующий разрыв между возможностями современных моделей и требованиями реальной практики программирования.
Полный текст статьи пока не загружен.