Какой алгоритм машинного обучения лучше всего подходит для локализации текстовых блоков в PDF, соответствующего определенным правилам?

2023-12-07 21:12:36

Краткое содержание

У меня есть PDF, в котором раскрываются различные корпоративные политики и механизмы управления ими. Это гораздо больше, но суть вы понимаете. С другой стороны, у меня есть набор правил и положений, определяющих, что должно быть включено в вышеупомянутый PDF. Как и ожидалось, правила и положения сформулированы на политическом и/или юридическом языке, поэтому не будут напрямую переводиться на текст в PDF. Предположим, у меня есть эксперт по предметной области, который сможет сопоставить эти два документа и сгенерировать обучающие данные: какая задача и предобученная модель были бы хорошими вариантами в этой ситуации? Обратите внимание: блок текста в вышеуказанном PDF может соответствовать нулю или более правилам. Я склонялся к использованию классификации текста, при этом каждое правило обучалось как метка, но создание набора данных было бы очень сложным. Поэтому я открыт для других творческих идей. Наслоенные модели, LLM, армия обезьян...

Полный текст статьи пока не загружен.

Читать оригинал статьи