Как агрегируются перплексии по множественным экземплярам?

2024-06-15 19:27:15

Краткое содержание

Переплетенность (perplexity) $i$-го токена в последовательности номер $k$ определяется следующим образом: $$ P_{ki} = \frac{1}{p(t_{ki})}, $$ где $p(t_{ki})$ — вероятность появления данного токена согласно модели. Агрегированная переплетенность всей $k$-й последовательности вычисляется как геометрическое среднее от отдельных значений: $$ P_{k} = \left( \prod_{i=1}^{N} P_{ki} \right)^{\frac{1}{N}} = \left( \prod_{i=1}^{N} \frac{1}{p(t_{ki})} \right)^{\frac{1}{N}}, $$ что соответствует мультипликативному обратному значению вероятности корректности предсказания всей последовательности моделью. Теперь мой вопрос заключается в следующем: каким образом агрегировать значения переплетенности нескольких последовательностей? Из различных источников, включая учебник Hugging Face, видно, что рекомендуется использовать арифметическое среднее: $$ P = \frac{1}{m} \sum_{k=1}^{m} P_{k}. $$ Не совсем понятно, какой смысл имеет усреднение величин, являющихся обратными вероятностям. Что именно отражает такое усреднение?

Полный текст статьи пока не загружен.

Читать оригинал статьи