У новому випуску серії Builder’s Unscripted засновник і CEO MagicPath П’єтро Скірано показав один із найхимерніших проєктів, які з’явилися навколо GPT‑5.5 і Codex. Дизайнер, інженер і музикант за освітою, він використав нову модель як «дослідницький корабель» для подорожі в неочевидні можливості ШІ – зокрема, перетворення зображень у музику й назад, майже як у секретній мові між людьми та машиною.

Секретна мова між картинками і звуком
Початковий імпульс проєкту був радше творчим, ніж утилітарним. П’єтро сформулював собі експериментальне завдання: «А що, якби створити щось, де 5.5 бере зображення і розкладає його на звук, який буде гармонійним на основі картинки?». Ідея не обмежувалася банальним аудіо‑плейбеком; йшлося про осмислене музичне відображення візуального образу.
Другий крок робив задум ще амбітнішим: використати отриманий саундтрек для зворотного відновлення зображення. Таким чином народилася концепція «таємної комунікаційної мови‑гри», де двоє людей могли б обмінюватися лише звуком, а машини – відтворювати вихідні картинки. Зовні це схоже на криптографічну гру: те, що для людського вуха звучить як гармонійна мелодія, для моделі стає закодованим повідомленням.
У підсумку вийшов застосунок, який дає змогу завантажити, наприклад, логотип, отримати з нього музичний трек, а потім – подати цей трек назад і відновити той самий логотип. Для користувача це виглядає як майже магічне перетворення: «ми конвертуємо, по суті, зображення в звук і зі звуку назад».
Криптографія, Base64 і гармонія: чому це мало не спрацювати
Сам автор зізнається, що майже не вірив у реалістичність задуму. Формулювання було прямим: «я думав, ну немає шансів, що воно це зробить правильно, бо це дуже складно: тут є криптографія, є вимога до того, наскільки добре має звучати музика, як ти взагалі порівнюєш Base64‑представлення зображення зі звуком».
У цьому експерименті зійшлося кілька складних шарів.
По-перше, потрібно було перетворити «сиру» цифрову форму зображення (на кшталт Base64) на структуру, придатну для кодування в музику. Це не просто мапінг бітів у ноти: потрібна схема, яка дозволить потім надійно витягти дані назад, не втративши ключової інформації.
По-друге, звук мав бути не випадковим шумом, а «гармонійним» – тим, що людське вухо сприймає як більш‑менш осмислену мелодію. Тобто алгоритм не просто кодує дані, а водночас конструює композицію, яку приємно слухати.
По-третє, уся ця система мала працювати в обидва боки: зі зображення в аудіо і з аудіо назад у візуальний об’єкт. Це вже більше схоже на справжню шифросистему з нетиповим носієм – замість тексту чи бінарних файлів використовується музика.
Коли цей стек вимог накласти на один промпт, скепсис здається логічним. Тим показовіша реакція П’єтро: «Я це зробив – і воно просто запрацювало. Це було божевілля».
Codex + GPT‑5.5: «один постріл» у складну систему
Ключ до експерименту – поєднання Codex і GPT‑5.5. Саме ця зв’язка, за словами П’єтро, змогла виконати завдання «в один постріл», без багатоденного тюнінгу й великої кількості ітерацій.
Codex виступив програмним «двигуном» – генератором коду, який перетворює високорівневий задум у робочий застосунок. GPT‑5.5 тут важливий як модель, що розуміє інструкції, володіє сильною мультимодальністю і може тримати в розумі складний конвеєр: від аналізу зображення до синтезу музики й реалізації зворотної операції.
П’єтро підкреслює, що в цьому конкретному кейсі вражає сумарна складність задачі: потрібно врахувати криптографію, структурування даних, естетику музики та забезпечити точну реконструкцію. Але для зв’язки Codex + 5.5 це не стало бар’єром.
Фактично модель виступила архітектором алгоритму, який:
– бере зображення,
– кодує його в спосіб, придатний для відтворення,
– відображає цю структуру на параметри музичного треку,
– а потім дозволяє інвертувати процес.
Те, що цей конвеєр вдався «з першої спроби», П’єтро описує як момент, коли стає очевидно: горизонт можливого з новими моделями значно ширший, ніж здається до початку експерименту.
«Жодна ідея не надто божевільна»: що змінює такий досвід
Для П’єтро цей випадок став не просто ефектною демонстрацією, а радше ілюстрацією зміни мислення, до якої підштовхують сучасні моделі. Він формулює це дуже прямо: «це той тип речей, коли думаєш: що я можу зробити? Жодна ідея не надто божевільна».
З його точки зору, якраз із покращенням моделей з’являється нова відповідальність на боці людини – перестати заздалегідь відкидати нетривіальні ідеї. Якщо раніше внутрішній «бар’єр раціональності» казав: «це надто складно, це точно не спрацює», то зараз, на його думку, варто частіше просто спробувати.
Він описує це як боротьбу з людськими «стінами» у голові – сумнівами, чи «взагалі таке можна зробити». У випадку з образ‑у‑звук експериментом ці стіни були дуже конкретними: криптографія, музична теорія, робота з мультимодальністю. Але GPT‑5.5 «настільки хороший, що бере й робить ці речі правильно».
Цей досвід, за його словами, підживлює певну ейфорію від усвідомлення: якщо система вже здатна на такі нетривіальні трансформації, стає складніше знайти ідею, яку варто вважати «завідомо неможливою».
Висновок: експерименти на межі дивного стають новою нормою
Історія з «секретною мовою» між картинками і музикою добре показує, як зрушився фокус роботи з сучасними моделями. Замість перевірки базових можливостей на кшталт простого кодування чи чат‑відповідей, деякі розробники починають ставити моделям завдання на межі абсурдності – перетворити картинку на саундтрек, заховати в ньому інформацію і відновити оригінал, ще й зробивши це музично привабливим.
Для П’єтро це не просто кумедний трюк, а свого роду індикатор епохи: поле можливостей ШІ вже настільки широке, що сенс має не стільки обережне планування, скільки сміливе «тиканння» у найсміливіші ідеї. Моделі на кшталт GPT‑5.5 та Codex дають достатню силу, щоб навіть найнесподіваніші з них несподівано опинялися робочими.
У цьому сенсі експеримент із конвертацією зображень у звук і назад – не лише технічний фокус, а й маніфест: межі того, що можна будувати з ШІ, сьогодні визначає вже не стільки складність задачі, скільки готовність людини не відмахнутися від «занадто дивної» ідеї.


