← Вернуться к списку

С чем вошел, с тем и вышел: предвзятость аннотаций в многоязычных больших языковых моделях

Краткое содержание

arXiv:2511.14662v1 Тип объявления: новое Аннотация: Предвзятость аннотирования в наборах данных по обработке естественного языка остается серьезной проблемой при разработке многоязычных больших языковых моделей (LLM), особенно в культурно разнообразных условиях. Смещение из-за постановки задачи, субъективности аннотаторов и культурных несоответствий может исказить результаты модели и усугубить социальные проблемы. Мы предлагаем всеобъемлющую структуру для понимания предвзятости аннотирования, выделяя различия между инструкционной предвзятостью, предвзятостью аннотатора и контекстной или культурной предвзятостью. Мы рассматриваем методы обнаружения (включая согласованность между аннотаторами, разногласия моделей и анализ метаданных) и подчеркиваем появляющиеся техники, такие как расхождение многоязычных моделей и культурная интерпретация. Кроме того, мы описываем проактивные и реактивные стратегии смягчения последствий, включая привлечение разнообразного состава аннотаторов, итерационное уточнение руководств и постфактум корректировку моделей. Наши вклад включает: (1) типологию предвзятости аннотирования; (2) синтез показателей выявления; (3) ансамбль на основе предвзятости.

Полный текст статьи пока не загружен.