← Вернуться к списку

Кроссъязычный RAG: Словацкие ответы по английским документам — сбои при извлечении и качество перевода с помощью небольших локальных больших языковых моделей

Краткое содержание

Кроссъязычный RAG: Словацкие ответы по английским документам — сбои извлечения и качество перевода с использованием небольших локальных LLM.Что я создаюЛокальный помощник для изучения материалов по RAG (Streamlit + LangGraph + Ollama), который отвечает на вопросы на словацком языке об английских академических PDF. Целевой документ: «Design and Analysis of Experiments» Монтгомери (757 страниц). Всё работает локально — без вызовов API, без облака.Полный стек:Извлечение PDF: pymupdf4llm (быстро) или MinerU (медленно, лучше для LaTeX)Эмбеддинги: intfloat/multilingual-e5-baseВекторная база данных: FAISS + BM25 (гибридное извлечение)Переранжировщик: cross-encoder/mmarco-mMiniLMv2-L12-H384-v1LLM: gemma3:4b через OllamaОркестрация: архитектура LangGraph StateGraphPipelineОбработка документов — чанкинг «родитель-потомок»PDF извлекаются в Markdown с явными маркерами страниц, внедренными для каждой физической страницы:<!--PAGE:14--> <!--PAGE_LABEL:7--> Репликация позволяет экспериментатору оценить погрешность эксперимента...Документы разделяются с использованием чанкинга «родитель-потомок»: # Parent: MarkdownHeaderTextSplitter

Полный текст статьи пока не загружен.