Нейросети. Общая тема

Пyмяyx** · 26.10.2024, 02:08

Пyмяyx** · 26.10.2024, 02:08

5 ног

Пyмяyx** · 17.06.2025, 15:47

Чем дольше ИИ-модели «рассуждают» при анализе изображения, тем больше «галлюцинируют» — исследование

The Insider
15 июня 2025 21:57

Изображение: Deep Dream AI

Специалисты из университета Калифорнии и Стэнфордского университета обнаружили механизм возникновения «галлюцинаций» в мультимодальных «рассуждающих» языковых моделях искусственного интеллекта, говорится в научной работе по их исследованию. С помощью специально разработанных метрики RH-AUC и диагностического бенчмарка RH-Bench ученые установили прямую связь между длиной «рассуждений» ИИ и его склонностью генерировать недостоверную информацию при описании изображений.
Современные мультимодальные модели, включая GPT-4V от OpenAI, DeepSeek-R1 и Google Gemini, способны обрабатывать тексты, изображения и видео. Однако при решении сложных задач эти системы часто описывают детали, которых фактически нет на входных изображениях, — явление, получившее название «галлюцинации».
Исследование показало ключевую закономерность: чем длиннее цепочка «рассуждений» модели, тем больше она полагается на языковые закономерности, заложенные при обучении, и тем меньше внимания уделяет реальному содержимому изображения. Анализ механизма «внимания» продемонстрировал, что модели постепенно «отстраняются» от визуальной информации по мере усложнения логических построений.
Как объясняют авторы работы, «поскольку генерации становятся длиннее, модели склонны отдаляться от контента, основанного на изображении, и больше полагаться на языковые приоритеты». Эти искажения возникают из-за внутренней предрасположенности к такому поведению, которую ИИ приобрел при обучении во время анализа больших текстовых массивов.
Ученые также установили, что более крупные модели лучше справляются с балансом между способностями к «рассуждениям» и точностью восприятия. При этом качество такого баланса зависит не столько от объема обучающих данных, сколько от их типов и тематических областей.
Ранее исследователи из Университета Сингапура выявили, что ИИ-компаньоны способны проявлять свыше десяти различных форм вредного поведения при взаимодействии с пользователями. Работа, представленная на конференции по человеческим факторам в вычислительных системах 2025 года, основана на анализе скриншотов 35 тысяч диалогов между системой Replika и более чем 10 тысячами пользователей за период с 2017 по 2023 год.

Тема: Нейросети. Общая тема

Опции темы

Отображение

Информация о теме

Пользователи, просматривающие эту тему

Ваши права