Какие ключевые моменты следует учитывать при изменении только структуры выходных данных декодера предварительно обученной модели для тонкой настройки?
Краткое содержание
Я работаю над примером Transformer, который демонстрируется на сайте TensorFlow: https://www.tensorflow.org/text/tutorials/transformer В этом примере модель машинного перевода обучается для перевода с португальского на английский. Трансформер кодируется с нуля, и не используются другие популярные библиотеки, такие как huggingface. Допустим, у меня есть другой набор данных, содержащий пары предложений на португальском и финском языках, и допустим, этот набор данных относительно небольшой. Поскольку набор данных небольшой, я хочу использовать свою модель, обученную с португальского на английский, в качестве предварительно обученной модели для создания модели перевода с португальского на финский. Мой вопрос заключается в том, какие ключевые моменты следует учитывать при использовании такой предварительно обученной модели и изменении ТОЛЬКО структуры ее выходного декодера?
Полный текст статьи пока не загружен.