← Вернуться к списку

[D] Возможный следующий шаг для LLM: Исследование модульных архитектур с маршрутизацией по компетенциям

Оценка: 5/10

Краткое содержание

Просто хотел поделиться некоторыми мыслями после прочтения различной литературы и узнать ваше мнение. Ниже приведены ссылки на исследования, связанные с похожими идеями или частями парадигмы, которую я описываю. Это также призвано стать легкой дискуссией. Я не привожу никаких формул, математики или очень специфической методологии. Лишь общее описание фреймворка, который обретает очертания по мере того, как я все больше убеждаюсь, что мы идем по неверному пути в том, как подходим к обучению LLM. Текущий вектор развития ИИ сильно сфокусирован на масштабировании монолитных «универсальных» моделей. Это принесло отличные результаты, но ощущается так, будто мы доводим одну-единственную парадигму до предела. С момента появления LLM на базе Transformer мы неоднократно видели этому доказательства; например, как всем известно, высокоспециализированная иерархическая модель рассуждений (HRM) всего в 27 млн параметров продемонстрировала, что превосходит огромные универсальные LLM в сложных структурированных задачах на рассуждение (ARG AGI). Я д...

Полный текст статьи пока не загружен.