OpenAI представила оновлення для системи генерації зображень ChatGPT Images 2.0, зосереджене на точнішому виконанні інструкцій у промптах. Дослідник компанії Цзяньфен Ван демонструє, як модель краще працює з просторовими розкладками об’єктів і відтворенням тексту на зображеннях.
![]()
Текст на зображеннях: від хаотичних літер до керованого дизайну
Одним із ключових викликів для генеративних моделей зображень є коректне відтворення тексту — як за змістом, так і за розташуванням.
У прикладі з «журнальним» арт-портретом жінки модель отримує складну інструкцію: згенерувати фотографію, де вона тримає слово «the words» у правій руці та «the view» — у лівій. Завдання поєднує одразу кілька вимог:
- впізнаваний образ людини;
- читабельний текст;
- точне розміщення кожного слова в заданій руці.
Оновлена версія системи справляється з цим сценарієм значно впевненіше, ніж попередні моделі, які часто плутали букви, змінювали слова або ігнорували просторові вказівки. У результаті користувач отримує зображення, де текст не просто присутній, а підпорядкований задуму промпту.
Годинники без «дефолтного» 10:10
Ще одна показова зміна стосується рендерингу годинників. Раніше генеративні моделі часто відображали час 10:10 незалежно від запиту. Це пов’язано з тим, що в рекламних зображеннях годинників у мережі саме цей час трапляється найчастіше, тож модель «звикла» вважати його типовим.
У тесті з ChatGPT Images 2.0 системі задають кілька конкретних значень часу: 2:25, 2:30, 9:10 і 7:45. Модель має не просто намалювати годинник, а правильно розташувати стрілки відповідно до кожного значення.
Новий підхід демонструє, що система краще відокремлює статистичні шаблони з інтернету від конкретних інструкцій користувача. Замість автоматичного 10:10 вона коректно відтворює заданий час, що критично для будь-яких сценаріїв, де точність деталей має значення — від інфографіки до прототипів інтерфейсів.
Просторові відносини: коли модель «уявляє» композицію
Найскладніша частина демонстрації — робота з просторовими розкладками об’єктів. Моделі потрібно не лише «знати», як виглядають предмети, а й «уявити» їхнє взаємне розташування згідно з інструкцією.
У прикладі задається композиція з кількох об’єктів:
- яблуко в центрі;
- горнятко — безпосередньо праворуч від яблука;
- книги — над горнятком;
- камера — ліворуч;
- баскетбольний м’яч — унизу.
Таке завдання вимагає розуміння просторових відносин: «праворуч», «ліворуч», «над», «під», «у центрі». Модель має побудувати внутрішню «карту» сцени, розмістити об’єкти відповідно до неї та зберегти логічну композицію.
За словами дослідника, результат демонструє «величезний прогрес» у здатності системи точно дотримуватися інструкцій користувача. Це важливо для сценаріїв, де користувачі хочуть контролювати не лише стиль, а й структуру зображення — від макетів сторінок до схем і діаграм.
Менший розрив між наміром і результатом
Ключова ідея оновлення ChatGPT Images 2.0 — зменшити розрив між тим, що користувач має на увазі, і тим, що модель генерує у відповідь. Поліпшення в трьох напрямах:
- Текст: читабельність і точне відтворення слів.
- Час і числові значення: відмова від «дефолтних» шаблонів на користь конкретних інструкцій.
- Просторова композиція: коректне розташування об’єктів відносно одне одного.
Усе це робить систему більш придатною для завдань, де важлива не лише візуальна привабливість, а й точність: від дизайну та реклами до освітніх матеріалів і технічних ілюстрацій.


