Фреймворк генеративного искусственного интеллекта на основе графов сцен для синтеза и оценки сценариев промышленных опасностей

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13970v1 Тип объявления: новый Аннотация: Обучение моделей компьютерного зрения для точного обнаружения опасностей на рабочем месте требует реалистичных изображений небезопасных условий, которые могут привести к несчастным случаям. Однако получение таких наборов данных затруднено тем, что зафиксировать сценарии, приводящие к авариям в момент их возникновения практически невозможно. Для преодоления этого ограничения данное исследование представляет новую сцену-графическую направляемую генеративную ИИ-фреймворк, которая синтезирует фотореалистичные изображения опасных сценариев, основанные на исторических отчетах о происшествиях из Управления по охране труда и технике безопасности (Occupational Safety and Health Administration — OSHA). Повествования OSHA анализируются с помощью GPT-4o для извлечения структурированной логики опасности, которая преобразуется в объектно-ориентированные графы сцены, фиксирующие пространственные и контекстные отношения, необходимые для понимания риска. Эти графы управляют текстово-изобразительной диффузионной моделью для генерации композиционно точных сцен аварийности. Чтобы оценить реализм и семантическую точность генерируемых данных, используется фреймворк визуального ответа на вопросы (Visual Question Answering — VQA)

Полный текст статьи пока не загружен.

Читать оригинал статьи