От безмолвных неудач к 97% точности: создание агентируемых многоязычных систем RAG — RAGAS Eval + LangGraph Pipeline
Краткое содержание
За последние два месяца я разработал многоязычный (хинди ↔ английский) агентный RAG-систему для индийских юридических документов, уделяя особое внимание тому, что большинство пайплайнов игнорируют: систематическим, воспроизводимым отказам в реальных данных. Стандартный RAG здесь не просто "немного ухудшается" — он выходит из строя бесшумно: выдает плавные ответы, но с плохим обоснованием и неправильным извлечением. В этой статье разбирается:- где он выходит из строя- почему он выходит из строя- какие архитектурные изменения на самом деле это исправляют- как эти исправления оцениваются с помощью RAGAS---Оценка (RAGAS) | Метрика | Результат ||--------------------------|--------|| Лояльность хинди | 97%+ || Лояльность английского | 90%+ || Релевантность ответа на хинди | 90%+ || Точность контекста | 98%+ || Отношение лояльности (Hi/En) | 0.97 || Скорость галлюцинаций | <5% || П95 задержка извлечения | <12с || Точность языка | 95%+ |---Таксономия отказов (Наблюдаемые → Исправленные)Сбой в обнаружении языка (Короткие запросы)Проблема: Статистические детекторы ошибочно классифицируют короткие хинди-запросы ("transformer kya hai") → переходят неверный ветвь пайплайна до извлечения. Решение: Определ
Полный текст статьи пока не загружен.