← Вернуться к списку

LLMLagBench: Определение временных границ обучения в больших языковых моделях

Краткое содержание

arXiv:2511.12116v1 Тип объявления: новый Аннотация: Большие языковые модели (LLM) предварительно обучаются на текстовых данных до определенного временного предела. Это создает строгий предел знаний, после которого модели не могут предоставлять точную информацию без обращения к внешним источникам. Более тонко, когда эта ограниченность неизвестна или игнорируется, LLM могут непреднамеренно смешивать устаревшую временную информацию с общими знаниями во время выполнения рассуждений, потенциально снижая точность ответов. Мы представляем LLMLagBench — эталонный тест свежести языковой модели, который представляет собой систематический подход к выявлению наиболее ранних вероятных временных границ тренировочных данных LLM путем оценки её осведомленности о недавних событиях. Затем мы применяем этот бенчмарк для оценки большого набора больших языковых моделей, включая модели как с явно заявленными, так и незаявленными пределами дат обучения. Надежность данного теста оценивается посредством ручной проверки и сравнения с публично доступной информацией о предварительном обучении LLM.

Полный текст статьи пока не загружен.