Слабая-к-сильной обобщаемость даже в сетях случайных признаков, доказуемо
Краткое содержание
arXiv:2503.02877v3 Тип анонса: замена Аннотация: Явление слабого-к-сильному обобщению (Weak-to-Strong Generalization, Burns et al., 2024) заключается в том, что сильный ученик, такой как GPT-4, изучая задачу от слабого учителя, такого как GPT-2, значительно превосходит своего учителя. Мы показываем, что данное явление не требует сильного ученика наподобие GPT-4. Рассматриваются случайные модели признаков — двухслойные сети с фиксированным нижним слоем и обучаемым верхним слоем. Слабый учитель, обладающий небольшим числом единиц (случайных признаков), обучается на всей популяции, тогда как сильный ученик, имеющий гораздо большее число единиц (случайных признаков), обучается исключительно на метках, созданных слабым учителем. Мы демонстрируем, доказываем и объясняем, каким образом ученик способен превзойти учителя даже несмотря на обучение лишь на данных, размеченных учителем. Мы также поясняем, как такое слабое-к-сильному обобщение обеспечивается ранним остановом. Важно отметить, что мы также представляем количественный анализ...
Полный текст статьи пока не загружен.