Почему токенизатор для модели энкодер-декодер машинного перевода использует bos\_token\_id == eos\_token\_id? Как он узнает, когда последовательность заканчивается?

2025-04-20 19:42:57

Краткое содержание

Я вижу в этой модели PyTorch Helsinki-NLP/opus-mt-fr-en (HuggingFace), которая является моделью кодировщик-декодировщик для машинного перевода: "bos_token_id": 0, "eos_token_id": 0, в её config.json. Почему bos_token_id == eos_token_id? Как она знает, когда последовательность заканчивается? В сравнении я вижу, что facebook/mbart-large-50 использует в своём config.json другой ID: "bos_token_id": 0, "eos_token_id": 2. Весь config.json для Helsinki-NLP/opus-mt-fr-en: { "_name_or_path": "/tmp/Helsinki-NLP/opus-mt-fr-en", "_num_labels": 3, "activation_dropout": 0.0, "activation_function": "swish", "add_bias_logits": false, "add_final_layer_norm": false, "architectures": [ "MarianMTModel" ], "attention_dropout": 0.0, "bad_words_ids": [ [ 59513 ] ], "bos_token_id": 0, "classif_dropout": 0.0, "classifier_dropout": 0.0, "d_model": 512, "decoder_attention_heads": 8, "decoder_ffn_dim": 2048, "decoder_layerdrop": 0.0, "decoder_layers": 6, "decoder_start_token_id": 59513, "de

Полный текст статьи пока не загружен.

Читать оригинал статьи