Семантическая оценка переводов вместо BLEU.

2021-07-07 17:13:55

Краткое содержание

У меня есть модель генерации текста, и я хочу оценить её вывод, сравнив его с набором эталонных текстов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется как основная метрика. Мне не понравилось использовать её, потому что она поверхностна, так как использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели оценки семантической близости текста или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не всегда достаточно точны.

Полный текст

Оценка переводов на основе семантики вместо BLEU Задать вопрос

Задан 4 года, 6 месяцев назад Изменено сегодня Просмотрено 173 раза

Задан 4 года, 6 месяцев назад

0 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнивая его с набором золотых эталонных переводов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не понравилось использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, потому что SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить за вопросом задан 7 июля 2021 в 17:13 Minions 123 6 6 бронзовых значков $\endgroup$ Добавить комментарий | 1 Ответ 1 Сортировка: По умолчанию Сбросить на значения по умолчанию Наивысший балл (по умолчанию) Дата изменения (сначала новые) Дата создания (сначала старые) 0 $\begingroup$ Существуют и другие возможные метрики, например, meteor и BLEURT. Они компенсируют некоторые из основных проблем, которых большинство исследователей хотели бы избежать при использовании BLEU. Недостатком отказа от известных метрик является то, что вашу модель будет еще сложнее оценить по сравнению с другими кандидатами. Если вы сравниваете с золотым стандартным корпусом, созданным людьми, не стоит слишком полагаться на BLEURT, поскольку он предназначен для оценки двух систем по сравнению с золотым корпусом и определения, какая из них лучше. Поделиться Улучшить этот ответ Следить за ответом ответил 20 сентября 2021 в 11:46 Langtec 71 4 4 бронзовых значка $\endgroup$ Добавить комментарий | Вы должны войти в систему, чтобы ответить на этот вопрос. Начните задавать вопросы, чтобы получать ответы. Найдите ответ на свой вопрос, задавая его. Задать вопрос Изучить связанные вопросы natural-language-processing machine-translation text-generation Посмотрите похожие вопросы с этими тегами.

0 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнивая его с набором золотых эталонных переводов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не понравилось использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, потому что SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить за вопросом задан 7 июля 2021 в 17:13 Minions 123 6 6 бронзовых значков $\endgroup$ Добавить комментарий |

0 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнивая его с набором золотых эталонных переводов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не понравилось использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, потому что SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить за вопросом задан 7 июля 2021 в 17:13 Minions 123 6 6 бронзовых значков $\endgroup$ Добавить комментарий |

$\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнивая его с набором золотых эталонных переводов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не понравилось использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, потому что SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить за вопросом задан 7 июля 2021 в 17:13 Minions 123 6 6 бронзовых значков $\endgroup$ Добавить комментарий |

Читать оригинал статьи