← Вернуться к списку

Возвращение большого количества точных фрагментов текста с использованием поиска документов на основе больших языковых моделей (LLM)?

Краткое содержание

Всем привет! Я работаю над проектом, связанным с поиском естественного языка в больших коллекциях неструктурированных кулинарных книг, цель которого — возвращать полные неизменённые рецепты (а не резюме). Пример: Пользователь загружает 100 неструктурированных поваренных книг (каждая содержит много рецептов), ищет слово «паэлья», и получает обратно ровно 40 точных рецептов (неизменённых относительно исходника). Подход RAG здесь плохо подходит, поскольку мне нужно вернуть точные рецепты (и потенциально большое количество), а не перегенерировать или резюмировать контент. На мой взгляд, есть два возможных подхода: - Точное разбиение на фрагменты во время индексирования: найти способ корректно разбивать кулинарные книги по границам конкретных рецептов (начало/конец), после чего использовать информационную ретрибуцию (IR), а не подход RAG. Я уже пробовал семантическое кластерирование и другие методы разбиения, однако точное обнаружение начала и конца рецепта оказалось довольно ошибочным. Методы распознавания именованных сущностей кажутся излишне детализированными, ведь мне нужны именно границы, а не сами сущности, хотя возможно я тут заблуждаюсь. - Улучшение поиска

Полный текст статьи пока не загружен.