← Вернуться к списку

Мультимодальное машинное обучение: Количественная оценка улучшения точности подсчета калорий с использованием пар «изображение-текст»

Краткое содержание

arXiv:2511.11705v1 Тип: новая статья Аннотация: В данной работе определяется, в какой степени короткие текстовые описания (в данном случае, названия блюд) могут улучшить оценку калорийности по сравнению с базовой моделью, использующей только изображения, и являются ли какие-либо улучшения статистически значимыми. Используется библиотека TensorFlow и набор данных Nutrition5k (созданный Google) для обучения двух моделей: свёрточной нейронной сети (CNN), работающей только с изображениями, и мультимодальной CNN, которая принимает как текст, так и изображение на вход. Средняя абсолютная ошибка (MAE) оценки калорийности была снижена на 1,06 ккал — с 84,76 ккал до 83,70 ккал (улучшение на 1,25%) при использовании мультимодальной модели.

Полный текст статьи пока не загружен.