От восприятия до рассуждения: глубокое мышление наделяет мультимодальные большие языковые модели новыми возможностями
Краткое содержание
arXiv:2511.12861v1 Тип объявления: кросс Аннотация: В связи с выдающимся успехом мультимодальных больших языковых моделей (MLLM) в задачах восприятия, повышение их возможностей комплексного рассуждения стало критически важной областью исследований. Современные модели всё ещё сталкиваются с проблемами, такими как непрозрачные пути рассуждений и недостаточная способность к обобщению. Рассуждение методом цепочки мыслей (Chain-of-Thought — CoT), продемонстрировавшее значительную эффективность в языковых моделях путём повышения прозрачности рассуждений и интерпретируемости выходных данных, обладает потенциалом улучшения способностей моделей к рассуждению при расширении на мультимодальную область. Настоящая статья представляет систематический обзор, сосредоточенный на концепции «Мультимодальная цепь мысли» (MCoT). Во-первых, она рассматривает предпосылки и теоретические мотивы её появления с точки зрения технического развития и требований задач. Затем вводятся основные методы MCoT с трёх сторон: парадигмы CoT, этап постобучения и этап вывода, одновременно анализируя их недостатки.
Полный текст статьи пока не загружен.