Блог

Как работает ИИ-генератор изображений?

Все пользуются, мало кто понимает процесс, так что мы в Маяке решили это исправить 👀

Генераторы изображений на основе искусственного интеллекта (ИИ) некоторым всё еще кажутся инструментом из будущего. Но вообще-то компьютеры рисуют уже десятилетиями.

В 1970-х годах художник Гарольд Коэн научил раннюю ИИ-систему создавать рисунки. Его программа «AARON» управляла роботом, который рисовал чёрно-белые формы на бумаге. Через десять лет Коэн усовершенствовал её до создания фигур человека.
Сегодня генеративные ИИ-модели рисуют виртуальными кистями. Приложения, такие как Midjourney, Кандинский или DALL-E, создают изображения за считаные секунды по текстовым запросам. Результаты настолько реалистичны, что легко обманывают людей. В марте 2023 года изображения Дональда Трампа в наручниках, созданные ИИ, разлетелись по интернету. Хе-хе 👀

И генераторы изображений совершенствуются с невероятной скоростью. Как же они работают?

Искусство с помощью алгоритмов

Генеративные ИИ-модели — это вид глубинного обучения. Они используют слои взаимосвязанных узлов, напоминающих структуру человеческого мозга.
Эти модели обучаются на огромных наборах данных: крупнейший общедоступный набор, LAION-5B, содержит 5,85 миллиарда размеченных изображений.
Данные часто собираются из интернета — социальных сетей, фотобанков и сайтов с товарами.
Самые передовые генераторы изображений применяют диффузионные модели — особый вид генеративного ИИ. Они добавляют визуальный «шум» к изображениям в базе данных, превращая их в нечто, напоминающее помехи на экране старого телевизора. Затем модель учится убирать этот шум, восстанавливая исходное изображение. В процессе она запоминает группы пикселей, связанные с определёнными визуальными концепциями, и сохраняет это знание в математическом пространстве, называемом «латентным пространством».

От слов к картинке

Допустим, вы просите приложение создать изображение кота. Модель, знающая, как пиксели формируют образ котика, может обратиться к своему латентному пространству и воссоздать его реалистичный образ.
Чем более подробен запрос, например, «милый кот сидит на подоконнике с видом на Санкт-Петербург, картина Васнецова, 19 век», тем больше слоёв деталей модель должна обработать: стиль изображения, текстуру, цвета и фон.
Однако сложные запросы могут давать непредсказуемые результаты, особенно если описание сцены плохо представлено в обучающем наборе данных. Даже простые элементы часто вызывают сложности. Например, у людей на изображениях могут отсутствовать пальцы или быть их излишек, а пропорции порой нарушают законы физики.

Это связано с тем, что в наборах данных руки встречаются реже, чем лица, из-за чего модели сложнее их воспроизводить. Неправильная симметрия лица и ошибки в тексте на изображении — ещё один признак работы машины.

Постоянное обучение

Разработчики помогают моделям совершенствоваться, уточняя наборы данных или настраивая алгоритмы. Например, та же Midjourney недавно обновила алгоритмы для улучшенной генерации рук.
Увы или к счастью, стремительное развитие технологий ведёт к тому, что вскоре отличить изображение, созданное ИИ, от настоящей фотографии или картины будет практически невозможно.

Почему это важно для школьников?

Генеративные ИИ уже меняют не только искусство, но и образование. Представьте: нужно нарисовать таблицу, карту или диаграмму для подготовки к истории или биологии — и ИИ может создать её за секунды. Можно визуализировать сложные идеи, строить графики и даже разрабатывать уникальные презентации.
Но помните — ИИ, как и калькулятор, не заменяет умение думать. Разобраться в том, как он работает, значит научиться лучше понимать логику, алгоритмы и современный мир технологий. Возможно, эти знания помогут вам не только на экзаменах, но и в выборе профессии будущего.
⭢ Кстати, об этом. У нас открылась запись на бесплатные консультации с экспертом по профориентации. Честное слово, ведёт их не ИИ 😁
ЕГЭ ОГЭ