Всё-таки, пока не понял.
Вид для печати
Всё-таки, пока не понял.
ИИ смеётся, но не понимает: как LLM имитируют, а не распознают юмор и каламбуры
2 мин
5.8K
Блог компании ТехнократияИскусственный интеллект
https://habrastorage.org/r/w1560/get...b0a80bf8d1.jpgНовое исследование показывает, как языковые модели ловко имитируют понимание юмора, подменяя смысл статистикой, а иронию — вероятностью. Эксперты отмечают, что за внешней «остроумностью» скрывается отсутствие подлинного понимания — не только юмора, но и эмпатии, культурного контекста и человеческих нюансов. Искусственный интеллект умеет находить закономерности, но не намерения. Он узнаёт структуру шутки — но не улавливает её смысл.
Комики, строящие выступления на игре слов, и авторы остроумных заголовков могут вздохнуть с облегчением — по крайней мере, пока. Новое исследование говорит о том, что искусственный интеллект всё ещё далёк от настоящего понимания юмора.
Учёные из Великобритании и Италии изучили, способны ли большие языковые модели (LLM) по-настоящему понимать каламбуры — и пришли к выводу, что нет.
Команда из Университета Кардиффа (Уэльс) и Университета Ка’ Фоскари в Венеции установила: LLM хорошо распознают структуру каламбура, но не понимают саму шутку.
Например, они тестировали фразу: “I used to be a comedian, but my life became a joke.” (Раньше я был комиком, но моя жизнь превратилась в шутку.)
Если заменить вторую часть на: “but my life became chaotic” (но моя жизнь стала хаотичной),
модели всё равно воспринимали предложение как каламбур.
Другое испытание: “Long fairy tales have a tendency to dragon.” (Длинные сказки склонны превращаться в дракона. — игра слов: dragon созвучно drag on — «затягиваться»)
Даже при замене слова dragon на prolong (затягиваться) или случайное слово, модели всё равно считали фразу игрой слов.
Профессор Хосе Камачо Кольядос из школы компьютерных наук Университета Кардиффа отметил, что понимание юмора у моделей очень хрупкое.
«В целом, LLM склонны запоминать то, что они изучили в процессе обучения. Они хорошо распознают существующие каламбуры, но это не означает, что они действительно понимают их», — пояснил он.«Мы смогли последовательно обманывать модели, изменяя известные каламбуры и убирая двойной смысл. В таких случаях модели ассоциируют предложение с ранее встречавшимися шутками и начинают придумывать причины, почему это каламбур. В итоге мы выяснили, что их понимание юмора — лишь иллюзия.»Учёные заключили, что при столкновении с незнакомой игрой слов, способность моделей отличать каламбур от обычного предложения может падать до 20%.
Другой тестируемый каламбур: “Old LLMs never die, they just lose their attention.”
(Старые LLM никогда не умирают, они просто теряют внимание. — игра слов с attention)
Если заменить attention на ukulele (укулеле), модели всё равно воспринимали фразу как игру слов, объясняя это тем, что ukulele якобы звучит как you-kill-LLM (вы убиваете LLM). Исследователи отметили, что это проявление креативности — но пониманием шутки это назвать нельзя.
Авторы исследования подчеркнули: эти результаты показывают, что при использовании LLM в задачах, связанных с юмором, эмпатией или культурными нюансами, следует проявлять осторожность.
Работа была представлена в начале этого месяца на Конференции по эмпирическим методам в обработке естественного языка (EMNLP 2025) в Сучжоу, Китай. Подробности изложены в статье под названием: Pun unintended: LLMs and the illusion of humor understanding
Источник: The Guardian
Чтобы взломать нейросеть, достаточно написать запрос стихами — исследование
2 мин
14K
Искусственный интеллектМашинное обучение*
https://habrastorage.org/r/w1560/get...93175ca605.jpgОказывается, чтобы обойти фильтры безопасности крупной языковой модели, не нужен ни хитрый код, ни экзотическая уязвимость: достаточно написать вредный запрос стихами. Группа исследователей из лаборатории DEXAI показала, что поэтическая форма заметно повышает шансы на небезопасный ответ у современных нейросетей. В первом эксперименте они придумали всего пару десятков «опасных стихов» и прогнали их через 25 моделей, включая Gemini 2.5 Pro, GPT-5, Claude Opus 4.1, DeepSeek R1, Qwen3-Max, Mistral Large 2411, Llama 4 Maverick, Grok 4 и Kimi-K2-Thinking. В среднем такие запросы "пробивали" защиту примерно в 60% случаев, а у некоторых моделей успех приближался к 90–100%.
Чтобы более широко проверить гипотезу, авторы взяли около 1200 вредных запросов из открытого набора MLCommons AILuminate: от химического и биологического оружия до кибератак, манипуляций, утечек приватных данных и задач, связанных с потерей контроля над ИИ. Каждый такой запрос переписали в стихотворную форму с помощью другой модели, стараясь сохранить смысл, но изменить подачу. Получился по сути поэтический слой поверх стандартного бенчмарка безопасности.
Затем исследователи сравнили, как разные модели реагируют на прозу и на стихи. Безопасность оценивали отдельными моделями-судьями и выборочно людьми. Выяснилось, что в среднем доля опасных ответов растет примерно с 8% для обычных формулировок до 43% для поэтических версий на том же наборе запросов. Наименее устойчивыми оказались Gemini 2.5 Pro (не отказалась ни разу на 20 вручную подобранных стихах, 100 % небезопасных ответов) и несколько версий DeepSeek с показателями выше 95%. На другом полюсе — GPT-5 Nano и Claude Hiaku 4.5 (по 10%), которые почти всегда уходили в отказ. При этом общий тренд сохраняется: внутри семейств GPT-5, Claude и Grok более крупные и "умные" модели обычно оказываются уязвимее своих облегченных версий, которые либо хуже понимают метафоры, либо чаще выбирают сухой отказ.
Этот результат — неприятная новость для текущих подходов к выравниванию (RLHF, Constitutional AI и т.п.) и стандартных бенчмарков безопасности: они, похоже, сильно переоценивают устойчивость моделей, потому что почти не учитывают такие стилистические сдвиги. Следующий шаг для разработчиков — учиться тестировать и обучать нейросети не только на сухих инструкциях, но и на "игровых" формах вроде стихов, сказок и ролевых сценариев, где язык выглядит безобидно, а смысл может быть вполне опасным.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.