Существуют ли какие-либо семантические оценки переводов, помимо BLEU?

2021-07-07 17:13:55

Краткое содержание

У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнив его с набором эталонных текстов, размеченных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не понравилось использовать ее, поскольку она поверхностна, так как использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не всегда достаточно точны.

Полный текст

Есть ли какие-либо оценки переводов, основанные на семантике, кроме BLEU? Задать вопрос

Задан 4 года, 6 месяцев назад Изменен сегодня Просмотрен 176 раз

Задан 4 года, 6 месяцев назад

1 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнив его с набором золотых эталонных переводов, аннотированных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не нравится использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить отредактировано 2 часа назад Mr. AI Cool 1,532 3 3 серебряные значки 21 21 бронзовые значки задан 7 июля 2021 г. в 17:13 Minions 133 6 6 бронзовые значки $\endgroup$ Добавить комментарий | 1 Ответ 1 Сортировка: По умолчанию Сбросить на значение по умолчанию Наивысший рейтинг (по умолчанию) Дата изменения (сначала новые) Дата создания (сначала старые) 1 $\begingroup$ Существуют и другие возможные метрики, например, meteor и BLEURT. Они компенсируют некоторые из основных проблем, которых большинство исследователей хотели бы избежать при использовании BLEU. Недостатком отказа от известных метрик является то, что вашу модель еще сложнее оценить по сравнению с другими кандидатами. Если вы сравниваете с золотым эталонным корпусом, переведенным людьми, не стоит слишком полагаться на BLEURT, поскольку он предназначен для оценки двух систем по сравнению с золотым корпусом и определения, какая из них лучше. Поделиться Улучшить этот ответ Следить ответил 20 сентября 2021 г. в 11:46 Langtec 81 4 4 бронзовые значки $\endgroup$ Добавить комментарий | Вы должны войти в систему, чтобы ответить на этот вопрос. Начните задавать вопросы, чтобы получать ответы Найдите ответ на свой вопрос, задав его. Задать вопрос Изучить связанные вопросы natural-language-processing machine-translation text-generation Смотрите похожие вопросы с этими тегами.

1 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнив его с набором золотых эталонных переводов, аннотированных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не нравится использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить отредактировано 2 часа назад Mr. AI Cool 1,532 3 3 серебряные значки 21 21 бронзовые значки задан 7 июля 2021 г. в 17:13 Minions 133 6 6 бронзовые значки $\endgroup$ Добавить комментарий |

1 $\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнив его с набором золотых эталонных переводов, аннотированных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не нравится использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить отредактировано 2 часа назад Mr. AI Cool 1,532 3 3 серебряные значки 21 21 бронзовые значки задан 7 июля 2021 г. в 17:13 Minions 133 6 6 бронзовые значки $\endgroup$ Добавить комментарий |

$\begingroup$ У меня есть модель генерации текста, и я хочу оценить ее вывод, сравнив его с набором золотых эталонных переводов, аннотированных людьми. Я изучил метрики машинного перевода и обнаружил, что BLEU обычно используется в качестве основной метрики. Мне не нравится использовать ее, потому что она поверхностна, поскольку использует сравнение n-грамм; семантика перевода упускается из виду. Есть ли другие метрики для семантической оценки? Я думал об использовании модели семантической близости для оценки вывода или даже системы NLI (Natural Language Inference). Я не уверен, насколько точной будет оценка, поскольку SOTA-системы не очень точны. natural-language-processing machine-translation text-generation Поделиться Улучшить этот вопрос Следить отредактировано 2 часа назад Mr. AI Cool 1,532 3 3 серебряные значки 21 21 бронзовые значки задан 7 июля 2021 г. в 17:13 Minions 133 6 6 бронзовые значки $\endgroup$ Добавить комментарий |

Читать оригинал статьи