Подписаться ВК
 22.09.2023 в 16:15   OpenAI

Нейросеть DALL-E 3 от OpenAI обходит Midjourney и Stable diffusion

Поделиться
с друзьями:

OpenAI представила свою последнюю версия нейросети DALL-E 3, основной фокус на уточнении деталей и решении проблем, связанных с надписями и сложными частями тела, такими как например пальцы. Результатом является массив эстетически привлекательных изображений, которые создаются без использования сложных подсказок. DALL-E 3 полностью интегрирован с GPT-4, специально разработанным для подписчиков ChatGPT+.

Это скорее не прорыв в области искусственного интеллекта, а шаг на встречу соперничеству между моделями. Многие ожидают, что следующая модель Stable Diffusion предложит еще большую изысканность и художественную привлекательность, а у midjourney улучшится интерфейс. На текущий момент DALL-E 3 предлагает ограниченный набор визуальных эффектов.

Один из заявленных преимуществ DALL-E 3 заключается в том, что он лучше понимает тонкости и детали по сравнению с предыдущими моделями. Это означает, что процесс преобразования ваших творческих идей в точные изображения становится более гармоничным.

Интересным обещанием DALL-E 3 является его интеграция с ChatGPT. Вам больше не нужно создавать сложные подсказки - достаточно краткого описания и ChatGPT генерирует детальные подсказки от вашего имени.

OpenAI также подчеркивает важность контекста в длинных подсказках. DALL-E 3 разработан с учетом этого, что делает его более приспособленным к контексту, описанному в подробных подсказках.

Тем не менее, есть элемент неизведанного, как и во всех новых моделях искусственного интеллекта. Хотя первые признаки выглядят многообещающими, настоящей проверкой на прочность будет более длительное использование. Вопросы о его эффективности и скорости работы все еще остаются открытыми.

Вполне возможно, что DALL-E 3 будет основываться на многоэтапном процессе, в котором GPT-4 будет выполнять функцию кодировщика текста. При этом, сложная механика данной установки может остаться тайной.

Начиная с октября, доступ к DALL-E 3 будет предоставляться сначала пользователям ChatGPT Plus и ChatGPT Enterprise, а в будущем возможно его расширение для исследователей.

Промпт: «Выразительная картина маслом, изображающая баскетболиста, прыгающего в воду, в виде взрыва туманности».

Промпт: «Пиксельная арт-сцена: башня Койт, возвышающаяся на Телеграфном холме, с панорамным видом на гору вниз и летающими птицами»

Вопрос цензуры в DALL-E 3

Основное внимание при разработке модели DALL-E 3 было уделено ограничению ее возможностей. Это включало в себя строгие согласования и фильтры, предназначенные для исключения определенных типов контента. Например, модель категорически отказывается создавать изображения известных личностей, копировать произведения искусства в стиле известных художников или создавать любой контент, который считается небезопасным согласно стандартам OpenAI. Этот стратегический подход не только ограничивает возможности модели, но и является предосторожностью для защиты компании от возможных юридических проблем.

Тем не менее, помимо этих фильтров и ограничений, выявлены некоторые интересные наблюдения. DALL-E 3, кажется, имеет определенные ограничения в создании фотореалистичного контента. Вместо того чтобы создавать изображения, идеально имитирующие настоящие фотографии, выходные данные обладают ярко выраженным стилизованным качеством. Изображения, созданные искусственным интеллектом, выглядят практически визуальными и немного пластичными. Даже когда текст содержит явное указание на «фотографию», результат остается стилизованным.

Промпт: «Ярко-желтый диван в форме банана стоит в уютной гостиной, на его изгибе лежит стопка разноцветных подушек. На деревянном полу узорчатый ковер добавляет нотку эклектичного очарования, а в углу стоит растение в горшке, тянущееся к солнечному свету, проникающему через окно.»

Промпт: «Поделка из бумаги, изображающая девушку, нежно обнимающую своего кота. Оба сидят среди растений в горшках, кот удовлетворенно мурлычет, а девушка улыбается. Сцена украшена бумажными цветами и листьями ручной работы.»

DALL-E 3 действительно имеет большой потенциал, хотя у него есть свои особенности. В некоторых его творениях можно увидеть поразительное сходство с фотографиями. Однако стоит помнить, что моделированный реализм этих изображений необязательно соответствует реальной фотографии того же объекта.

Преимущества и функционал DALL-E 3

Искусство стилизации выражается в произведениях искусства, которые можно увидеть на аккаунте OpenAI в Instagram. Здесь преобладает изысканная стилизация, а не фотореалистический контент. Модель акцентирует внимание на эстетике и творчестве. DALL-E 3 идет по другому пути, чем предыдущая модель. В отличие от DALL-E 2, которая могла имитировать стили определенных художников, DALL-E 3 отказывается создавать изображения в стиле современных художников. Это вызывает удивление в творческом сообществе, аналогично реакции на Stable Diffusion 2.0.

Чтобы уважать права художников, OpenAI дает возможность исключать свои работы из будущих версий DALL-E. Художники могут запросить исключение своего изображения из результатов модели, если у них есть права на него. Будущие версии DALL-E не будут создавать контент, схожий со стилем исполнителя. OpenAI очень беспокоится о безопасности и цензуре. Они провели проверку безопасности модели с помощью внешних команд и использовали классификаторы для игнорирования определенных слов, которые могут содержать вредоносный контент. Однако они не говорят, входят ли сюда известные люди, что может повлиять на качество создаваемых лиц.

Также в OpenAI заметили намеки на использование водяных знаков для отслеживания "изображений, созданных искусственным интеллектом". Это указывает на то, что они стремятся к лучшему мониторингу и возможному использованию водяных знаков на созданном контенте.

OpenAI сообщают, что они улучшили генерацию текста и отрисовку рук, что является обычным заявлением среди конкурентов. Однако реальные результаты сравнительно с тщательно отобранными примерами остаются неизвестными и представляют настоящую проверку.

Превосходное пространственное понимание: DALL-E 3 понимает отношения в пространстве, описанные в подсказках, что позволяет создавать сложные ракурсы и композиции. Однако пользователи ожидают более конкретных доказательств этих возможностей.

Главным преимуществом DALL-E 3 являются его подсказки и интеграция с ChatGPT. Он обещает автоматизацию, ускорение и упрощение процесса творческого проектирования. Примечательно, что ChatGPT генерирует подсказки, переводя расплывчатые идеи или элементарные подсказки в выразительные. Улучшенное понимание контекста в DALL-E 3 облегчает процесс, позволяя пользователям сосредоточиться на своих намерениях, а не на подробностях.

DALL-E 3 пока не затрагивает такие функции, как закрашивание, генеративная заливка и 3D-моделирование. Отсутствие этих функций может стать ограничением, особенно для пользователей, привыкших к более универсальным моделям.

Клиенты ChatGPT Plus и Enterprise получат доступ к DALL-E 3 в начале октября. Однако распределение кредитов для пользователей ChatGPT Plus и связанные с этим расходы остаются неясными. Позже осенью доступ к DALL-E будет предоставлен через API и платформу OpenAI Labs.

Ожидается, что DALL-E будет полностью интегрирован с продуктами партнеров и Microsoft. Будет возможно создавать презентации, иллюстрации, дизайны, логотипы - все это в контексте и усиленное с помощью ChatGPT. Эта интеграция станет основной тенденцией и создаст серьезную проблему для конкурентов, таких как Google со своими Bard и Ideogram.

Сравнение DALL E 3 и Midjourney

DALL-E 3

Midjourney

Подсказка: «Иллюстрация человеческого сердца из полупрозрачного стекла, стоящего на постаменте среди бурного моря. Лучи солнечного света пронизывают облака, освещая сердце, открывая внутри крошечную вселенную. Цитата «Найди вселенную внутри себя» жирными буквами выгравирована на горизонте». (“An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote ‘Find the universe within you’ is etched in bold letters across the horizon.”)

Изображение DALL-E 3 очень спокойное и безмятежное, оно вызывает ощущение связи с вселенной. В то же время образ Midjourney более фантастический и игривый. Однако здесь допущена ошибка в написании. Несмотря на различия, оба изображения являются визуально привлекательными и заставляют задуматься. Они приглашают нас задуматься о нашем месте в мире и наших связях с чем-то большим, чем мы сами.

DALL-E 3

Midjourney

Подсказка: «2D-анимация ансамбля народной музыки, состоящего из антропоморфных осенних листьев, каждый из которых играет на традиционных инструментах мятлика, среди деревенского леса, испещренного мягким светом утренней луны». (“A 2D animation of a folk music band composed of anthropomorphic autumn leaves, each playing traditional bluegrass instruments, amidst a rustic forest setting dappled with the soft light of a harvest moon.”)

DALL-E 3

Midjourney

Подсказка : «Современное архитектурное здание с большими стеклянными окнами, расположенное на скале с видом на безмятежный океан на закате». (“A modern architectural building with large glass windows, situated on a cliff overlooking a serene ocean at sunset.”)

Различие есть, но оба изображения прекрасны и завораживающие. Они отражают суть жизни в непосредственной близости к природе. На изображении DALLE-3 нам хорошо виден закат, но мы должны признать, что «атмосфера заката» Midjourney заслуживает большего внимания.

В перспективе DALL-E 3 станьте лидером в области создания изображений с помощью ИИ


Интеграция привлекает новых пользователей, расширяя охват и популярность экосистемы OpenAI, особенно среди тех, кто интересуется контент-решениями, созданными с помощью искусственного интеллекта. В настоящее время Midjourney и Stable Diffusion имеют около 15 миллионов зарегистрированных пользователей, но благодаря интеграции DALL-E 3 получит доступ к базе пользователей в десять раз большей - 100 миллионам пользователей. Это делает план подписки ChatGPT Plus еще более привлекательным, так как он предлагает доступ к различным функциям по доступной цене. Особенно в свете недавнего снижения объема трафика на 20% летом, этот стратегический шаг призван увеличить доходы OpenAI и другие ключевые показатели.

Комментарии: