Нейросети разные. Сравнение

Вышла FLUX.2 — open source-конкурент Nano Banana

1 мин
11K
Искусственный интеллект Машинное обучение*

https://habrastorage.org/r/w1560/get...62970477ff.jpgBlack Forest Labs представила семейство моделей FLUX.2, которое обеспечивает генерацию изображений на уровне Google Nano Banana, но включает версию с открытыми весами. Новинка основана на связке двух моделей: за глубокое понимание контекста отвечает Vision-Language модель Mistral-3 на 24 млрд параметров, которая сначала выстраивает логически непротиворечивую сцену, а уже затем передает управление трансформеру с архитектурой Rectified Flow для финальной отрисовки.
Такая структура позволяет модели реально «понимать» физику света, перспективу и пространственные связи объектов. Модель принимает до 10 входных изображений, что позволяет удерживать лицо персонажа, стиль бренда или дизайн товара неизменными в десятках генераций без необходимости сложной настройки. Поддерживается разрешение до 4 мегапиксилей, разные соотношения сторон, а также корректное отображение текста и элементов интерфейса.
Линейка сегментирована следующим образом: самые мощные версии [pro] и [flex], а для локального запуска предназначена FLUX.2 [dev]. Все модели обходят конкурентов в лице Seed Dream 4 и Nano Banana и лишь немного уступают Nano Banana Pro при меньшей цене генерации.
Полная версия FLUX.2 [dev] насчитывает 32 миллиарда параметров, и в стоковом состоянии для ее запуска требуется около 90 ГБ VRAM. Хорошая новость в том, что NVIDIA совместно с BFL уже выпустили оптимизированные FP8-квантизации, снижающие потребление памяти примерно на 40%. Это делает локальный запуск FLUX.2 [dev] реальностью на топовых картах RTX 4090 и 5090, а поддержка модели уже внедряется в свежие обновления ComfyUI и Diffusers.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

FLUX.2: Передовой визуальный интеллект

Новости

https://bfl.ai/_next/image?url=https...ng&w=3840&q=75

FLUX.2 разработан для реальных творческих рабочих процессов, а не только для демонстраций или вечеринок. Он генерирует высококачественные изображения, сохраняя единообразие характера и стиля на нескольких референсных изображениях, следуя структурированным подсказкам, читая и записывая сложный текст, следуя фирменным правилам и надёжно работая с освещением, макетами и логотипами. FLUX.2 позволяет редактировать изображения с разрешением до 4 мегапикселей, сохраняя детализацию и целостность.
Black Forest Labs: Открытое ядро

Мы убеждены, что визуальный интеллект должен формироваться исследователями, креативщиками и разработчиками по всему миру, а не только избранными. Именно поэтому мы объединяем передовые возможности с открытыми исследованиями и инновациями, выпуская мощные, проверяемые и компонуемые модели с открытым весом для сообщества, а также надежные, готовые к использованию конечные точки для команд, которым требуются масштабируемость, надежность и возможность настройки.
Запустив Black Forest Labs в 2024 году, мы поставили перед собой цель сделать открытые инновации устойчивыми, опираясь на наш опыт разработки одних из самых популярных в мире открытых моделей. Мы объединили открытые модели, такие как FLUX.1 [dev] — самая популярная в мире модель открытых изображений, — с профессиональными моделями, такими как FLUX.1 Kontext [pro], которые обеспечивают работу команд от Adobe до Meta и других. Наш подход с открытым ядром стимулирует эксперименты, привлекает к себе внимание, снижает затраты и гарантирует, что мы сможем продолжать делиться открытыми технологиями из Шварцвальда и залива со всем миром.
От FLUX.1 до FLUX.2

Точность, эффективность, контроль, предельный реализм — там, где FLUX.1 продемонстрировал потенциал медиамоделей как мощных инструментов творчества, FLUX.2 демонстрирует, как передовые возможности могут трансформировать производственные процессы. Радикально изменив экономику генерации, FLUX.2 станет неотъемлемой частью нашей творческой инфраструктуры.
https://bfl.ai/_next/image?url=https...pg&w=3840&q=75
Универсальность вывода : FLUX.2 способен создавать высокодетализированные фотореалистичные изображения, а также инфографику со сложной типографикой, все с разрешением до 4 МП.
Что нового

Поддержка множественных ссылок : возможность ссылаться на 10 изображений одновременно с наилучшим на сегодняшний день соответствием характера/продукта/стиля.
Детализация изображения и фотореализм : более высокая детализация, более четкие текстуры и более стабильное освещение, подходящие для съемки товаров, визуализации и других видов использования, подобных фотографии.
Рендеринг текста : сложная типографика, инфографика, мемы и макеты пользовательского интерфейса с разборчивым мелким текстом теперь надежно работают в производстве.
Улучшенное следование подсказкам : улучшенное следование сложным, структурированным инструкциям, включая многочастные подсказки и композиционные ограничения.
Знание мира : значительно больше основано на знании реального мира, освещении и пространственной логике, что приводит к созданию более связных сцен с ожидаемым поведением.
Более высокое разрешение и гибкие соотношения ввода/вывода: редактирование изображений с разрешением до 4 МП.

https://bfl.ai/_next/image?url=https...ng&w=3840&q=75
Все варианты FLUX.2 предлагают редактирование изображений из текста и нескольких ссылок в одной модели.
Доступно сейчас

Семейство FLUX.2 охватывает спектр продуктов-моделей: от полностью управляемых, готовых к использованию в продакшене API до открытых контрольных точек, которые разработчики могут запускать самостоятельно. Обзорный график ниже показывает, как FLUX.2 [pro], FLUX.2 [flex], FLUX.2 [dev] и FLUX.2 [klein] обеспечивают баланс между производительностью и контролем.

FLUX.2 [pro]: Современное качество изображений, не уступающее лучшим закрытым моделям, и сопоставимое с другими моделями по быстроте схватывания и визуальной чёткости, при этом создавая изображения быстрее и с меньшими затратами. Никаких компромиссов между скоростью и качеством. → Доступно уже сейчас на BFL Playground , через API BFL и через наших партнёров по запуску.
FLUX.2 [flex] : Управляйте параметрами модели, такими как количество шагов и масштаб наведения, предоставляя разработчикам полный контроль над качеством, точностью выполнения и скоростью. Эта модель превосходно подходит для рендеринга текста и мелких деталей. → Доступно на bfl.ai/play , через API BFL и через наших партнёров по запуску.
FLUX.2 [dev]: модель с открытыми весами 32B, производная от базовой модели FLUX.2. Самая мощная на сегодняшний день модель генерации и редактирования изображений с открытыми весами, объединяющая синтез текста в изображение и редактирование изображений с несколькими входными изображениями в одной контрольной точке. Веса FLUX.2 [dev] доступны на Hugging Face и теперь могут использоваться локально с помощью нашего референсного кода вывода . На графических процессорах потребительского уровня, таких как графические процессоры GeForce RTX, вы можете использовать оптимизированную референсную реализацию fp8 FLUX.2 [dev], созданную в сотрудничестве с NVIDIA и ComfyUI . Вы также можете попробовать Flux.2 [dev] через конечные точки API на FAL , Replicate , Runware , Verda , TogetherAI , Cloudflare , DeepInfra . Для получения коммерческой лицензии посетите наш веб-сайт .
FLUX.2 [klein] ( скоро ): модель Apache 2.0 с открытым исходным кодом, созданная на основе базовой модели FLUX.2. Более мощная и удобная для разработчиков, чем аналогичные модели того же размера, обученные с нуля, с множеством функций, присущих модели-учителю. Присоединяйтесь к бета-тестированию .
FLUX.2 - VAE: новый вариационный автоэнкодер для латентных представлений, обеспечивающий оптимальный баланс между обучаемостью, качеством и степенью сжатия. Эта модель лежит в основе всех магистральных потоков FLUX.2, а подробный отчёт с описанием её технических характеристик доступен здесь . FLUX.2 - VAE доступен на HF по лицензии Apache 2.0 .

Платная.

https://ru.freepik.com