-
-
-
-
-
-
-
-
Чем дольше ИИ-модели «рассуждают» при анализе изображения, тем больше «галлюцинируют» — исследованиеThe Insider
15 июня 2025 21:57
https://theins.ru/images/qHsLfURUWbW...lYmIu/anBn.jpg
Изображение: Deep Dream AI
Специалисты из университета Калифорнии и Стэнфордского университета обнаружили механизм возникновения «галлюцинаций» в мультимодальных «рассуждающих» языковых моделях искусственного интеллекта, говорится в научной работе по их исследованию. С помощью специально разработанных метрики RH-AUC и диагностического бенчмарка RH-Bench ученые установили прямую связь между длиной «рассуждений» ИИ и его склонностью генерировать недостоверную информацию при описании изображений.
Современные мультимодальные модели, включая GPT-4V от OpenAI, DeepSeek-R1 и Google Gemini, способны обрабатывать тексты, изображения и видео. Однако при решении сложных задач эти системы часто описывают детали, которых фактически нет на входных изображениях, — явление, получившее название «галлюцинации».
Исследование показало ключевую закономерность: чем длиннее цепочка «рассуждений» модели, тем больше она полагается на языковые закономерности, заложенные при обучении, и тем меньше внимания уделяет реальному содержимому изображения. Анализ механизма «внимания» продемонстрировал, что модели постепенно «отстраняются» от визуальной информации по мере усложнения логических построений.
Как объясняют авторы работы, «поскольку генерации становятся длиннее, модели склонны отдаляться от контента, основанного на изображении, и больше полагаться на языковые приоритеты». Эти искажения возникают из-за внутренней предрасположенности к такому поведению, которую ИИ приобрел при обучении во время анализа больших текстовых массивов.
Ученые также установили, что более крупные модели лучше справляются с балансом между способностями к «рассуждениям» и точностью восприятия. При этом качество такого баланса зависит не столько от объема обучающих данных, сколько от их типов и тематических областей.
Ранее исследователи из Университета Сингапура выявили, что ИИ-компаньоны способны проявлять свыше десяти различных форм вредного поведения при взаимодействии с пользователями. Работа, представленная на конференции по человеческим факторам в вычислительных системах 2025 года, основана на анализе скриншотов 35 тысяч диалогов между системой Replika и более чем 10 тысячами пользователей за период с 2017 по 2023 год.
-
Нейросеть для генерации изображений
Технологии искусственного интеллекта навсегда изменили нашу жизнь.
Кардинальные изменения коснулись представителей индустрий, которым креатив приходится проявлять каждый день, – это маркетологи, дизайнеры, художники. Сегодня существует много нейросетей, которые за секунды могут создать уникальный контент. Такие нейросети рисуют по словам и могут сгенерировать любое изображение под ваш запрос – например, иллюстрацию, картину, рисунок, фотографию, логотип, 3D-графику, эмблему, иконку. Предлагаем подборку самых популярных из них в нашей статье.
Сгенерировать изображения
https://epicai.ru/template/common/im...le_3456645.jpg
DALL-E
Нейросеть DALL-E создана компанией OpenAI и интегрирована в ChatGPT при финансовой поддержке Microsoft (грант в размере 1 млрд. долларов). Название нейросети по описанию представляет собой комбинацию имени Сальвадора Дали и робота Валли из Pixar. Со временем Microsoft выпустила приложение Designer с интеграцией в нейросеть, а также расширение Image Creator, которое позволило работать прямо в браузере.
Полная версия DALL-E представлена в 2021 г. В 2022 г. платформу использовали 3 млн. людей – по данным, она генерировала 4 млн. изображений в сутки и более. Сегодня DALL-E создает качественные фантазийные иллюстрации – арт-картинки, картины, открытки, рисунки, но пока не умеет создавать реалистичные фото. Потенциально ее можно использовать в разных сферах: дизайн, маркетинг, образование, медицина, медиа.
Открыть DALL-E
Где доступен? Сайт, расширение для браузера, мобильное приложение.
Сколько стоит? Нейросеть для изображений бесплатно не работает. Чтобы воспользоваться услугами, нужно оформить подписку ChatGPT за 20 долларов в месяц.
Midjourney
Midjourney – нейросеть для создания картинок на основе текстового описания, как художественных, так и фотореалистичных. Вышла на рынок в 2022 г. и на данный момент остается независимым самофинансируемым проектом. Работу обеспечивает группа алгоритмов по распознанию речи и технологии генеративных состязательных сетей.
Новые версии Midjourney выходят с интервалом в несколько месяцев. Сервис может создать картинку, ориентируясь при этом на команды от пользователя – например, соединить два изображения в одно, а также использовать четыре варианта подсказок.
Разработчики предложили внедрить механизм модерации, включив в него перечень запрещенных слов, фраз и выражений. С 2023 г. на Midjourney работает двухэтапная модерация на базе искусственного интеллекта – механизм понимает слова в контексте, а не просто блокирует их. Нейросеть уже доказала свою ценность при решении задач в разных сферах: медицина, финансы, логистика, сельское хозяйство, автопромышленность.
Открыть Midjourney
https://epicai.ru/template/common/im...rney_34565.jpg
Где доступен? Чат-бот создан на платформе Discord, веб-версия.
Сколько стоит? Бесплатный тариф ограничен лимитом (до 25 запросов) и может быть отключен в любой момент. Платная подписка начинается от 10 долларов в месяц.
https://epicai.ru/template/common/im...rum_435453.jpg
Шедеврум
Шедеврум представляет собой бесплатную ИИ-платформу от компании Яндекс.
Картинки с помощью нейросети генерируются через YandexART. Изначально сервис был обучен на основе 240 млн. изображений, и даже на момент выпуска обучение не остановили и продолжили, используя 500 млн. примеров. В 2023 г. была интегрирована языковая модель YandexGPT. У пользователей появилась возможность генерировать не только картинки, но и вполне реалистичные видео. А в 2025 г. платформа впервые использовала визуальную модель посторонней компании Janus-Pro-7B.
Нейронная сеть понимает три языка – русский, казахский и английский, но на русском общается лучше всего. Работает по подобию простой социальной сети – это главная особенность. Результаты публикуются в ленте и доступны для подписчиков. Их можно оценить, сохранить, оставить комментарии, подписаться на страницу, прочее.
Где доступен? Официальный сайт в режиме реального времени. Для корректной работы желательно пройти регистрацию через Яндекс ID.
Сколько стоит? Генерация изображений через описание происходит бесплатно.
Kandinsky
Нейросеть для создания изображений Kandinsky разработали специалисты Сбера при поддержке ученых AIRI, на основе наборах данных Sber AI и SberDevices. Первая версия появилась на рынке в 2021 г. и называлась ruDALL-E XL. В 2023 г. были выпущены версии Kandinsky 2.2, 3.0 и Video. Они получили широкую популярность в России. Последней версией является Kandinsky 3.1, пользоваться которой можно с 2024 г.
Kandinsky часто сравнивают с Midjourney – она способна выдавать реалистичные и детализированные картины. Сегодня платформа умеет генерировать рисунки, улучшать уже сделанные фото, дорисовывать изображения, удалять объекты, изменять задний фон, прочее. Есть функция создания анимационных видео, которые длятся от 4 до 8 секунд.
Новой разработкой Kandinsky стало ознакомление сервиса с русской культурой, традициями и фольклором. Сегодня вы можете нарисовать нейросетью фото актеров, известных лиц, героев сказок, мультфильмов и фильмов, детали советской архитектуры.
https://epicai.ru/template/common/im...ky_3456546.jpg
Где доступен? Веб-версия без условия установки ПО.
Сколько стоит? Работа с Kandinsky для российских пользователей бесплатно.
https://epicai.ru/template/common/im..._ai_657467.jpg
Fabula AI
Нейросеть была основана в России в 2023 г., а уже в 2024 г. на ее развитие инвестировано 5 млн. руб. За менее чем год работы разработчики привлекли 1,7 млн. пользователей на разных платформах, в том числе Telegram, VK, App Store, Google Play, которые создали 200 млн. изображений. Для обучения сети использовалась генеративная модель Stable Diffusion, качественные ускорители Nvidia GeForce RTX 4090 и RTX 3090.
Особенность Fabula AI – наличие «тонкой» настройки запроса, благодаря которой можно изменить параметры генерации по описанию, например, выбрать количество шагов или задать функцию Guidance scale. На изображение может быть нанесен текст, логотип, человек, животное, товар (его снимки и свойства). Кроме того, сервис хорошо обрабатывает портретные фото и рисует аватарки для социальных сетей. Понимает русский и английский язык, а для внедрения в бизнес создан отдельный интерфейс API.
Где доступен? Веб-версия онлайн без установки ПО.
Сколько стоит? При условии регистрации пользователь получает 10 генераций бесплатно. Цена платного пакета стартует от 69 руб. за 10 генераций и выше.
Robotext
Облачный сервис Robotext генерирует картинки по тексту и способен создавать текстовый, визуальный, графический контент с помощью ИИ в автоматическом режиме.
Функции Robotext разработаны и реализованы на базе собственных сетевых моделей – компания целенаправленно не занималась перепродажей иностранных API. Обработка данных ведется на GPU оборудовании, которое размещено на нескольких ЦОД в Москве. То есть, информация не передается и не используется на зарубежных сервисах.
За год работы функции визуализации от Robotext успели попробовать более 6,5 млн. человек, среди них платных подписчиков – 28 тыс. человек. До 250 пользователей работают в режиме B2B на постоянной основе. В 2024 г. суммарно генератор обработал почти 19 млрд. символов текста и сгенерировал на их основе изображения, логотипы, презентации. Процедура занимает не более минуты, а если результат вас не удовлетворит, можно изменить настройки: внести коррективы в описание, сделать другой стиль, формат.
https://epicai.ru/template/common/im...otext_3476.jpg
Где доступен? Официальный сайт без подключения к VPN.
Сколько стоит? Есть бесплатная и платная версия Robotext.
https://epicai.ru/template/common/im...text_34568.jpg
TurboText
Изображения с помощью нейросети TurboText получаются яркими, качественными и реалистичными. Система позволяет выбрать стиль для генерации (используются разные модели обучения) – портрет, реализм, киберпанк, анимация, мультфильм, рисование, кинематография или абстракция. Модели V1-V4 подходят для профессионального использования и новичкам. Здесь можно делать постеры, логотипы, картинки с текстом.
Целевая аудитория TurboText – это владельцы магазинов онлайн, дизайнеры, художники, журналисты, веб-мастера, школьники и студенты. Чтобы получить результат, разработчики экосистемы платформ по работе с контентом рекомендуют правильно сделать запрос – указать тип изображения, тему создания, конкретные детали, которые вас интересуют, желаемый стиль, настроение. TurboText работает с информацией для социальных сетей, рекламных постеров, плакатов и даже крупных печатных изданий. Пользователи часто обращаются к нейросети за созданием открытки (открыток).
Где доступен? Официальный сайт без подключения к VPN.
Сколько стоит? 10 генераций бесплатно, затем платный тариф от 100 руб.
Remini
Remini – это приложение для мобильных телефонов, создающее новые фото и улучшающее качество старых (размытых, поврежденных), имеющих низкое разрешение, и восстанавливающее детали лица с помощью ИИ. Нейросеть рисует онлайн следующим образом: вы загружаете селфи, она оценивает информацию (цвет, стиль, текстуру), а затем визуализирует уникальный снимок. «Работает» преимущественно с лицом, а также с верхней частью тела. В 85% случаях лицо на фото получается 1:1, как на оригинале.
По итогам 2024 г. количество активных загрузок от приложения превысило 500 млн. Сегодня с помощью Remini можно качественно улучшить свой внешний вид на фото – сделать макияж, поменять прическу, надеть деловой костюм, сгенерировать себя в другой стране, в разном возрасте, с беременностью или ребенком (для женщин).
https://epicai.ru/template/common/im...mini_34645.jpg
Где доступен? Remini доступно для телефонов на iOS и Android. Есть веб-версия.
Сколько стоит? Для владельцев iOS приложение работает бесплатно. Можно получить доступ к более широкому функционалу за счет платной подписки.
https://epicai.ru/template/common/im...ress_73434.jpg
Adobe Express
Облачный редактор Adobe Express работает на базе нейросети для генерации фотографий. Он способен создавать и редактировать графический контент для сайтов, магазинов, блогов, баннеров, социальных сетей и даже крупных печатных изданий.
В 2023 г. компанией Adobe было обновлено приложение – разработчики добавили поддержку нейронной сети, что в разы увеличило число пользователей. Помимо генерации изображений, здесь можно применять новые стили и эффекты к ним. Также доступна функция редактирования файлов в формате PDF, удаление фона с изображений, работа с видео. Главное преимущество сервиса – удобство. В результате одной генерации можно получить сразу четыре картинки. Есть возможность работать на английском и на русском языке. Для обучения использовался лицензионный текст с согласия создателей.
Где доступен? Облачный редактор в режиме онлайн.
Сколько стоит? Нейросеть Adobe Express работает по бесплатному и платному тарифу. Вариант премиум стоит от 10 долларов в месяц (доступ к 25 тыс. шрифтам).
Делаем выводы
Только за 2024 г. пользователи нейросетей нарисовали 15 млрд. изображений, а 90% крупных компаний считают использование ИИ весомым преимуществом для бизнеса. Мы уверены, что попробовать такие возможности на практике должны и вы. Советуем использовать все нейросети, о которых мы рассказали выше – все они умеют создавать изображения, имеют широкий набор функций и инструментов, просты в использовании.
-
Заметила, что последнее время активно пользуюсь янексовской нейросетью "Алиса" вместо поисковиков, когда мне нужно найти не сайт, а ответ на конкретный вопрос.
Иногда она не справляется, но в большинстве случаев дает быстрый и конкретный ответ на правильно поставленные вопросы.