CAPTCHA на основе понимания текста и случайных токенов

2021-03-04 11:35:00

Краткое содержание

Я разработал новый тип CAPTCHA, основанный на понимании текста и случайных токенах. При задаче «Выберите первую пару соседних букв» и случайном токене 8NBA596V пользователю необходимо предоставить решение NB. Он обеспечивает базовую защиту, и атакующему может решить отдельные задачи с определенным усилием. Я любопытен, сможет ли современный ИИ решить его универсально? Вы можете получить доступ к дополнительным примерам задач здесь: https://www.topincs.com/manual/captcha Существует база данных задач, и при каждом попытке представляется новая задача с новым случайным токеном. У них всегда есть решение различной длины и чистое угадывание, поэтому шансы на успех ограничены. Индивидуальную задачу можно легко взломать, написав небольшой фрагмент кода, поэтому необходима большая база данных задач. Меня интересует вопрос о том, может ли обработка естественного языка или машинное обучение в их нынешнем состоянии атаковать CAPTCHA универсально, создавая модель значения задачи – по сути, предикат в крошевом мире дискурса – и

Полный текст

CAPTCHA на основе понимания текста и случайных токенов Задать вопрос

Задано 4 года, 9 месяцев назад Изменено сегодня Просмотрено 213 раз

Задано 4 года, 9 месяцев назад

1 $\begingroup$ Я разработал новый тип CAPTCHA на основе понимания текста и случайных токенов. При задаче Выбрать первую пару соседних букв и случайный токен 8NBA596V, пользователь должен предоставить решение NB. Это обеспечивает базовую защиту, и атакующему может быть предложено решить отдельные задачи с определенным усилием. Меня интересует, может ли современный ИИ решить это универсально? Вы можете получить доступ к большему количеству примеров задач здесь: https://www.topincs.com/manual/captcha Существует база данных задач, и при каждом попытке представляется новая задача с новым случайным токеном. У них всегда есть решение различной длины и чистое угадывание, поэтому шансы на успех ограничены. Индивидуальную задачу легко атаковать, написав небольшой фрагмент кода, поэтому необходима большая база данных задач. Меня интересует вопрос о том, может ли обработка естественного языка или машинное обучение в их нынешнем состоянии универсально атаковать CAPTCHA, создавая модель смысла задачи – по сути, предикат в крошевом мире дискурса – и затем применять ее к случайному токену. natural-language-processing captcha Поделиться Улучшить вопрос Следить за редактированием 4 апреля 2021 г., 15:15 задано 4 апреля 2021 г., 11:35 Delirious Monad 11 2 2 бронзовые значки $\endgroup$ 3 1 $\begingroup$ Вы пробовали подавать эту задачу в какие-либо доступные модели GPT, например, GPT-2 или GPT-J-6B? $\endgroup$ Stack Exchange Нарушил закон – Stack Exchange Нарушил закон 2021-09-03 09:50:39 +00:00 Комментировано 3 сентября 2021 г. в 9:50 $\begingroup$ Я попробовал это на GPT-J-6B, и он неоднократно не смог решить эту задачу. Они иногда могут решать ранее неизвестные задачи только на основе описания задачи, но, похоже, не эту. $\endgroup$ Stack Exchange Нарушил закон – Stack Exchange Нарушил закон 2021-09-03 10:02:49 +00:00 Комментировано 3 сентября 2021 г. в 10:02 $\begingroup$ Я попробовал это на этой неделе с Grok пару раз, и он правильно решил все эти задачи, что очень впечатляет. Но когда я попросил его перевернуть роли, он быстро столкнулся с проблемой. Grok смог сыграть перевернутую игру: он придумывал случайные токены и задачи, но не мог создавать новые задачи и просто использовал те, которые знал обо мне. Случайные токены были очень регулярными: строго чередовались цифры и буквы. Он также не мог убедиться, что всегда есть решение, отличное от пустого. $\endgroup$ Delirious Monad – Delirious Monad 2025-03-15 12:03:09 +00:00 Комментировано 15 марта в 12:03 Добавить комментарий | 1 Отсортировано по: Сбросить по умолчанию Наивысший балл (по умолчанию) Измененная дата (новые первыми) Созданная дата (старые первыми) 0 $\begingroup$ (Предполагая английский.) В вашем конкретном примере будет $26^2$ комбинаций заглавных букв. Также предполагая фиксированную длину токена в восемь, это дает вам $26 * 26 * 7 = 4732$ возможных комбинаций. Мое интуитивное ощущение заключается в том, что пространство ключей слишком мало. На самом деле, для машины может быть проще решить CAPTCHA, чем это. Допустим, ваша система и универсальная система одинаково умеют затенять текст на изображении. Универсальная система – это строка длиной шесть символов, состоящая из заглавных букв и цифр. Таким образом, атакующему необходимо сделать обоснованное предположение из $(26 + 10)^6 = 2,176,782,336$ возможностей. Это пространство ключей в 460,013 раз больше, чем ваша система с более длинной строкой. Но становится хуже. Атакующий может использовать вероятностный подход, определяя "вероятность буквы" для каждого из восьми позиций, выбирая две соседние позиции, которые максимизируют вероятность, а затем выбирая букву с наибольшей вероятностью для этих решений. Это не гарантирует атакующему победу. Но это будет угадывать с большей вероятностью, чем $\frac{1}{4732}$. Также может быть легче для ML-системы различать определенные буквы от других. B/P может быть более легко сбиты с толку по сравнению с M/T (Я делаю здесь предположение).

Читать оригинал статьи