Як ChatGPT Images 2.0 точніше виконує візуальні інструкції

22 Квітня 2026

OpenAI представила оновлення для системи генерації зображень ChatGPT Images 2.0, зосереджене на точнішому виконанні інструкцій у промптах. Дослідник компанії Цзяньфен Ван демонструє, як модель краще працює з просторовими розкладками об’єктів і відтворенням тексту на зображеннях.

Instruction Following with ChatGPT Images 2.0

Текст на зображеннях: від хаотичних літер до керованого дизайну

Одним із ключових викликів для генеративних моделей зображень є коректне відтворення тексту — як за змістом, так і за розташуванням.

У прикладі з «журнальним» арт-портретом жінки модель отримує складну інструкцію: згенерувати фотографію, де вона тримає слово «the words» у правій руці та «the view» — у лівій. Завдання поєднує одразу кілька вимог:

впізнаваний образ людини;
читабельний текст;
точне розміщення кожного слова в заданій руці.

Оновлена версія системи справляється з цим сценарієм значно впевненіше, ніж попередні моделі, які часто плутали букви, змінювали слова або ігнорували просторові вказівки. У результаті користувач отримує зображення, де текст не просто присутній, а підпорядкований задуму промпту.

Годинники без «дефолтного» 10:10

Ще одна показова зміна стосується рендерингу годинників. Раніше генеративні моделі часто відображали час 10:10 незалежно від запиту. Це пов’язано з тим, що в рекламних зображеннях годинників у мережі саме цей час трапляється найчастіше, тож модель «звикла» вважати його типовим.

У тесті з ChatGPT Images 2.0 системі задають кілька конкретних значень часу: 2:25, 2:30, 9:10 і 7:45. Модель має не просто намалювати годинник, а правильно розташувати стрілки відповідно до кожного значення.

Новий підхід демонструє, що система краще відокремлює статистичні шаблони з інтернету від конкретних інструкцій користувача. Замість автоматичного 10:10 вона коректно відтворює заданий час, що критично для будь-яких сценаріїв, де точність деталей має значення — від інфографіки до прототипів інтерфейсів.

Просторові відносини: коли модель «уявляє» композицію

Найскладніша частина демонстрації — робота з просторовими розкладками об’єктів. Моделі потрібно не лише «знати», як виглядають предмети, а й «уявити» їхнє взаємне розташування згідно з інструкцією.

У прикладі задається композиція з кількох об’єктів:

яблуко в центрі;
горнятко — безпосередньо праворуч від яблука;
книги — над горнятком;
камера — ліворуч;
баскетбольний м’яч — унизу.

Таке завдання вимагає розуміння просторових відносин: «праворуч», «ліворуч», «над», «під», «у центрі». Модель має побудувати внутрішню «карту» сцени, розмістити об’єкти відповідно до неї та зберегти логічну композицію.

За словами дослідника, результат демонструє «величезний прогрес» у здатності системи точно дотримуватися інструкцій користувача. Це важливо для сценаріїв, де користувачі хочуть контролювати не лише стиль, а й структуру зображення — від макетів сторінок до схем і діаграм.

Менший розрив між наміром і результатом

Ключова ідея оновлення ChatGPT Images 2.0 — зменшити розрив між тим, що користувач має на увазі, і тим, що модель генерує у відповідь. Поліпшення в трьох напрямах:

Текст: читабельність і точне відтворення слів.
Час і числові значення: відмова від «дефолтних» шаблонів на користь конкретних інструкцій.
Просторова композиція: коректне розташування об’єктів відносно одне одного.

Усе це робить систему більш придатною для завдань, де важлива не лише візуальна привабливість, а й точність: від дизайну та реклами до освітніх матеріалів і технічних ілюстрацій.

Джерело

Instruction Following with ChatGPT Images 2.0 — OpenAI

204

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Як ChatGPT Images 2.0 точніше виконує візуальні інструкції

Текст на зображеннях: від хаотичних літер до керованого дизайну

Годинники без «дефолтного» 10:10

Просторові відносини: коли модель «уявляє» композицію

Менший розрив між наміром і результатом

Джерело

Україні можуть надати дрон-ракетоносець з високоточними ракетами

Невидиме поле бою російсько-українського конфлікту – електронна війна

Большинство программ от Android запустятся на Nokia X

Facebook розпочинає боротьбу з неправдивою інформацією

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone додав сонячну генерацію на перші 100 базових станцій

Vodafone у 1 кв. 2026 року: стабільність бізнесу та інвестиції у телеком-інфраструктуру України

Vodafone запускає 5G у міжнародному роумінгу

200 грн на місяць: Vodafone запустив акцію для клієнтів 55+

Vodafone інвестував у критичну інфраструктуру та технології більше 24 млрд грн

Статті

Виробники приховують справжню швидкість USB-C на ноутбуці

Які недоліки у шістнадцятидюймових ноутбуків

45 “землеподібних” планет виявили – чи означає це, що ми вже не самотні у Всесвіті

NASA спростувало п’ять популярних міфів про космос на основі наукових спостережень та даних

Астронавт рік літав, 811 його генів змінили прописку, а мозок сповільнився

Тестування зарядних пристроїв. Не перегріваються, але деякі потужні все одно “пливуть”

Як іспанський комп’ютерний вірус приніс світу антивірусний сервіс Virus Total, придбаний Google

ПОРАДИ

Способи використання старих смарт-годинників Samsung Galaxy Watch замість утилізації

Як усунути поширені програмні та апаратні несправності в смартфонах серії Samsung Galaxy

Як захистити домашню мережу зміною налаштувань роутера

СТАТТІ

Виробники приховують справжню швидкість USB-C на ноутбуці

Які недоліки у шістнадцятидюймових ноутбуків

45 “землеподібних” планет виявили – чи означає це, що ми вже не самотні у Всесвіті

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Як ChatGPT Images 2.0 точніше виконує візуальні інструкції

Текст на зображеннях: від хаотичних літер до керованого дизайну

Годинники без «дефолтного» 10:10

Просторові відносини: коли модель «уявляє» композицію

Менший розрив між наміром і результатом

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ