← Вернуться к списку

Может ли сверточная нейронная сеть классифицировать язык текста, содержащегося в изображениях?

Краткое содержание

У меня есть очень большой набор изображений, все из которых содержат текст (некоторые с большим количеством, некоторые – с меньшим). Все они помечены как содержащие, скажем, английский или корейский текст. Интересно, могли бы сверточные нейронные сети быть хорошим подходом для классификации этих изображений по наличию английского или корейского текста? Или существует уже существующая литература/метод, который это делает? Однако, главным образом, меня не интересует "понимание" текста, поэтому это не задача NLP, но, полагаю, это задача классификации орфографий на изображениях.

Полный текст

Может ли сверточная нейронная сеть классифицировать язык текста, содержащегося в изображениях? Задать вопрос

Задано 6 лет, 10 месяцев назад Изменено сегодня Просмотрено 174 раза

Задано 6 лет, 10 месяцев назад

1 $\begingroup$ У меня очень большой набор изображений, все из которых содержат текст (некоторые с большим количеством, некоторые с меньшим). Все они помечены как содержащие, скажем, английский или корейский текст. Интересно, будут ли сверточные нейронные сети хорошим подходом для классификации этих изображений как содержащих английский или корейский язык. Или существует ли уже существующая литература/метод, который это делает? В любом случае, я не заинтересован в "понимании" текста, поэтому это не задача NLP, но, вероятно, задача классификации орфографий на изображениях. сверточные нейронные сети распознавание изображений классификация Поделиться Улучшить вопрос Следить за редактированием 55 мин назад Mr. AI Cool 1�098 1 1 серебряная медаль 19 19 бронзовые медали задано 27 февраля 2019 г. в 16:15 Алекс 121 1 1 бронзовая медаль $\endgroup$ Добавить комментарий | 3 Ответа 3 Отсортировано по: Сбросить по умолчанию Наивысший балл (по умолчанию) Измененная дата (от новых к старым) Созданная дата (от старых к новым) 0 $\begingroup$ Я думаю, что вы можете использовать сверточные нейронные сети (CNN), чтобы сделать то, что вам нужно, но я думаю, что вам потребуется много обучающих изображений, и задача будет очень сложной. Вам лучше извлекать текст из изображений с помощью оптического распознавания символов (OCR), разделять извлеченный текст на отдельные слова и затем искать, найдены ли эти слова в английском или корейском словаре (или в обоих?). Этот подход не идеален, но я уверен, что он будет работать лучше, чем прямое применение CNN к изображениям. Поделиться Улучшить ответ Следить за редактированием 11 ноября 2022 г. в 2:49 отвечено 11 ноября 2022 г. в 2:43 Снехал Пател 1�077 1 1 золотая медаль 5 5 серебряные медали 27 27 бронзовые медали $\endgroup$ Добавить комментарий | 0 $\begingroup$ Роль CNN в этом будет просто извлекать нужный текст. YOLO хорошо подходит для этого. Быстро, легковесно и легко обучается. Это не поможет сильно читать текст. Способ сделать что-то вроде этого - использовать нейронную сеть для сегментации, обучая ее выделять вокруг текста рамки, а затем можно брать содержимое этих рамок и подавать их в алгоритм OCR, такой как Tesseract, а когда у вас будет текст, то есть множество руководств по NLP в интернете о том, как выполнять обнаружение языка. Вот несколько из них для начала: https://www.johnsnowlabs.com/how-to-detect-languages-with-python-a-comprehensive-guide/ https://towardsdatascience.com/how-to-detect-and-translate-languages-for-nlp-project-dfd52af0c3b5 На самом деле, не имеет значения, что вы не пытаетесь "понимать" текст. Библиотеки NLP все еще являются лучшим вариантом, если вы пытаетесь выполнить задачу обнаружения языка. Попытка рассматривать обнаружение языка как задачу классификации изображений - это как пытаться определить скорость на трассе, читая тепловые сигнатуры на асфальте. Конечно, более быстрые машины будут отдавать больше тепла, но здесь так много энтропии, что это никогда не будет лучшим вариантом для этой задачи. Лучше извлечь то, что вам нужно - слова, и использовать модели, предназначенные для работы со словами. Основной разбор для этого типа вещей в общем случае заключается в следующем: используйте нейронную сеть для изоляции текста на изображении. Используйте OCR для преобразования этого текстового изображения в компьютерно читаемый текст. Подавайте этот текст в библиотеку NLP для обнаружения языка. Поделиться Улучшить ответ Следить за редактированием 6 декабря 2023 г. в 16:54 отвечено 6 декабря 2023 г. в 16:34 Джеральд 156 7 7 бронзовые медали $\endgroup$ Добавить комментарий | 0 $\begingroup$ Это, похоже, довольно простая задача с низкими рисками. Я думаю, что правильный термин заключается в том, что вы пытаетесь обнаружить скрипт, который либо латинский ("английский"), либо хангча ("корейский"). Вероятно, вы научитесь шрифтам, хотя бы. Поделиться Улучшить ответ Следить за редактированием 52 мин назад Mr. AI Cool 1�098 1 1 серебряная медаль 19 19 бронзовые медали отвечено 1 марта 2019 г. в 18:17 MSalters 131 4 4 бронзовые медали