Після появи текстових нейромереж з’явилися моделі, здатні створювати фотографії та відео. І те, й інше — лише інструменти, якими потрібно вміти користуватися. Сьогодні розберемо, як правильно складати промт, щоб отримати максимально бажаний результат.
Нейромережа для генерації зображень
Промт для зображення зазвичай коротший, ніж для текстової моделі. Тут важлива не стільки довжина, скільки налаштування. Основний план складається з п’яти пунктів: чіткість, деталізація, структурованість, стиль та атмосфера.
Чіткість
Як і в текстових моделях, чим конкретніше ви формулюєте завдання, тим краще нейромережа вас зрозуміє. Наприклад, замість «слон у плавальному костюмі» варто написати: Слон у синьому купальнику сидить на гойдалці посеред савани, навколо акації та висока трава.

Чим більше конкретики — тим ближче результат до бажаного.
Деталізація
Деталізація дозволяє точно контролювати вигляд зображення. Можна уточнити ракурс, освітлення, стиль. Наприклад: Маленький слон у зеленому купальнику в білий горошок, на гойдалці серед африканської савани, теплий захід сонця.

Якщо не уточнити, нейромережа домислить деталі на свій розсуд.
Стиль та атмосфера
Варто вказати, у якому стилі має бути картинка: реалізм, аніме, комікс, ретро тощо. Наприклад, наш слон у савані може бути намальований у стилі мультфільму.

Структурованість
Запит повинен бути логічним і послідовним. Зручно користуватися формулою «що + як + де»:
- Що? Слон.
- Як? У зеленому купальнику в білий горошок.
- Де? На гойдалці серед африканської савани.
Лаконічність
Деталізація потрібна, але не варто перевантажувати промт зайвими словами. Надмірно довгі описи можуть спрацювати гірше.

Додаткові інструменти генерації
Співвідношення сторін
Деякі сервіси не приймають зображення з неправильними пропорціями.
- Midjourney використовує –ar.
- У Stable Diffusion — налаштування Aspect Ratio Selector.
- У DALL-E та GPT Image можна вказати прямо в тексті: «у форматі 1:1,75» або «горизонтальні пропорції».
GPT Image спокійно сприймає метод DALL-E, але має лише три співвідношення: 1:1, 1,5:1, 1:1,5. Навіть якщо спробувати вибрати щось, що не входить до списку, то буде обрано найближчий із трьох можливих форматів.
Вага елементів
Звичайно, це не те, що багато хто міг би подумати. Вага означає значущість об’єкта у кадрі. У тій чи іншій нейромережі вага може вказуватись своїм особливим способом.
- У Stable Diffusion використовують дужки: (слон) — трохи важливіший, ((слон)) — ще більш пріоритетний.
- У Midjourney — подвійні двокрапки: слон::2 трава::1.
Наприклад, Stable Diffusion буде розуміти вагу дужками, де звичайні круглі множать вагу на 1,1 у мірі кількості дужок – (ключ) обтяжує до 1,11, ((ключ)) встановить вагу 1,12 і т. д. – а квадратні ділять на 1,1 x за таким же принципом.
Однак квадратні дужки, на жаль, не завжди підтримуються або підтримуються не повністю. В одних збірках Stable Diffusion може бути доступний синтаксис [ключ], [[ключ]], але не підтримуватись варіант з коефіцієнтом ([ключ:0.7]), в яких ще квадратні дужки зовсім не мають ефекту. Перевірка здійснюється методом проб і помилок, або як варіант – просто застосовувати для зменшують ваг круглі дужки з числом: (ключ: 0,7).
Негативні промти
Це опис того, чого ви не хочете бачити.
Наприклад: Африканська савана без зебр або у Midjourney: –no zebra.
До речі, важливе доповнення, в Midjourney весь ланцюжок параметрів має йти в кінці промту, тобто після ключових слів. Зрештою робота з AI – це процес творчої взаємодії. Кожна нейромережа має свій підхід і може видавати різні результати навіть за однакового промту. Нижче наведена таблиця з конкретними прикладами негативних та позитивних промтів через ваги. Вона допоможе повністю зрозуміти як користуватись вагою елементів.
Формат запису | Примітка | Діапазон значень |
---|---|---|
STABLE DIFFUSION | ||
(cyberpunk), ((synthwave)), ((retrofuturism)) — те ж саме, що (cyberpunk:1.1), (synthwave:1.21), (retrofuturism:1.21) | Множить на 1,1¹. За замовчуванням (без дужок і коефіцієнтів) значення кожного параметра дорівнює 1. | Можлива більша кількість дужок; число технічно необмежене, крім загального ліміту токенів (~77…256 токенів). |
(anime style, japanese ukiyo-e), isometric RPG art, (((storybook illustration))) — обидва стилі в перших дужках отримають вагу 1,1 | Те ж саме: дужки збільшують вагу (приклад вище). | Як вище (ліміт токенів). |
((watercolor painting)), ink sketch, charcoal drawing | Множить на 1,1², тобто 1,21 | |
(((surrealism))), (symbolism:2.5), dadaism | Множить на 1,1³, тобто 1,331 | |
(storybook illustration:2), (oil painting:0.1), (whimsical fantasy:1.4) | Можна задавати вагу звичайним числом через двокрапку | Зазвичай рекомендують у діапазоні 0.01…3.0; при значному перевищенні ймовірні артефакти |
(minimalist design:0.7) | Вага ≥ 0.01 та ≤ 0.99 зменшує значущість параметрів | > 0.0, < 1.0 |
city, (cars, people:-1.0) — згенерує місто без автомобілів та людей. | Вага < 0 змушує нейромережу виключати зазначені об’єкти. | Для негативної ваги рекомендують приблизно -0.01…-3.0; при занадто від’ємних значеннях можливі артефакти |
(low quality:-1.0) | Спробує уникати низької якості (ознаки, позначені як low quality у датасеті). | Див. попередній рядок про негативні ваги |
MIDJOURNEY | ||
photorealism, hyperrealism:: 3 concept art:: cinematic lighting:: 0.5 — ключові слова/групи у співвідношенні 3:1:0.5 | У Midjourney для позначення ваг потрібно розділяти промт групами оператором :: . Пробіл зліва від оператора неприпустимий, а справа обов’язковий. Кома після числа-ваги не ставиться. | Значення ваги за замовчуванням 1, технічно діапазон необмежений |
impressionism:: 1.1 sharp detail:: -1 soft lighting:: 1.2 — живопис у дусі імпресіонізму: розмиті мазки, м’яке освітлення | Негативна вага (для уникнення ключового слова) задається тим же способом | Для від’ємних значень діапазон формально необмежений |
основна частина промта --no shadows, gradients | Параметри з символами -- можна розміщувати тільки в кінці всього промта, і між групами таких параметрів не ставиться кома. | Параметр --no ідентичний встановленню ваги -0.5 |
основна частина промта --iw 1.23 | У Midjourney --iw задає вагу зображень-референсів (доданих файлів). За замовчуванням значення 1.0. | Midjourney v5: 0.0…2.0; Midjourney v6–7: 0.0…3.0 |
Поширені проблеми та рішення
- Текст на зображеннях: або робити надписи у графічному редакторі, або детально описати шрифт, розмір і колір. GPT Image 1 краще справляється з літерами.
- Анатомічні аномалії (зайві лапи, неприродні пропорції): допомагає деталізація або негативні промти типу extra limbs, unnatural proportions.
- Помилки в предметах і текстурах: додавайте ключові слова для підвищення якості, наприклад 8k, photorealistic, ultra detailed.
Генерація відео
Відео — це не просто картинка в русі, а сцена з динамікою, темпом і роботою камери.
Дія та сюжет
Почніть з визначення: хто головний герой, що він робить, де це відбувається.
Наприклад: ((птах з тілом колібрі та головою слона)), що зависає перед квіткою, теплий захід сонця, фотореалістичний, ультрадеталізований,.
Опис об’єктів
Перелічіть усі деталі сцени: фон, предмети, взаємодії.
Рух камери
- tracking shot — камера рухається за об’єктом
- orbit shot — обліт навколо
- zoom in/out — наближення чи віддалення
- POV — вид від першої особи
Промт: slowly flaps its ears, flaps its wings very quickly and slowly flies up to the flower, sticks its trunk into the flower
Тут до промту додали orbit shot, zoom in
Стиль
Можна вибрати реалізм, аніме, вінтаж тощо.
Формат
Орієнтація кадру, роздільна здатність, FPS, тривалість — зазвичай налаштовуються окремо.
Анімація зображень
Якщо ви оживлюєте завантажену картинку, вкажіть дію та характер руху:
Повільно махає вухами, дуже швидко махає крилами і повільно підлітає до квітки, засовує хобот у квітку.
Краще, якщо зображення у повний зріст — інакше мережа домалює відсутні частини.
Підсумок
Секрет гарної генерації — баланс між чіткістю та стислим описом.
Для зображень важлива деталізація без «води».
Для відео — чіткий сюжет, опис об’єктів, динаміка камери та, за потреби, стиль.