Использование оцифрованных газет для сбора данных по суммированию информации на языках с ограниченными ресурсами
Краткое содержание
arXiv:2511.14598v1 Тип объявления: новое Аннотация: Данные высокого качества для задач суммирования остаются редкими в недостаточно представленных языках. Однако исторические газеты, ставшие доступными благодаря недавним усилиям по оцифровке, предлагают богатый источник неиспользованных данных с естественной аннотацией. В данной работе мы представляем новый метод сбора естественно возникающих резюме через "тизеры на первой полосе", где редакторы кратко излагают содержание полных статей. Мы показываем, что это явление распространено среди семи различных языков и поддерживает многодокументное суммирование. Для масштабирования процесса сбора данных мы разработали автоматический процесс, подходящий для разных уровней лингвистических ресурсов. Наконец, мы применяем этот подход к названию израильской газеты, создавая HEBTEASESUM — первый специализированный набор данных для многодокументного суммирования на иврите.
Полный текст статьи пока не загружен.