Беспроводные наушники удобны для использования с несколькими устройствами, включая смартфон, планшет или компьютер. Однако при использовании беспроводного соединения между наушниками и ПК с ОС Windows вы можете столкнуться с неожиданно плохим качеством звука. Если ваши беспроводные наушники в Windows звучат хуже, чем в других операционных системах, это распространенная проблема.
Причина кроется в ограничениях устаревших стандартов Bluetooth. Старые версии Bluetooth имеют ограниченную пропускную способность, что не позволяет одновременно передавать качественный звук и записывать звук с микрофона. Если беспроводные наушники ошибочно распознаются системой как гарнитура, качество звука сразу ухудшается. Однако есть шаги, которые вы можете предпринять прямо сейчас, чтобы добиться наилучшего качества звука.
В большинстве случаев Windows использует Bluetooth Classic Audio для подключения беспроводных наушников. До появления Bluetooth LE Audio, о котором речь пойдет ниже, Bluetooth Classic Audio назывался просто Bluetooth. Этот стандарт уже более двадцати лет используется для соединения беспроводных устройств друг с другом.
Такая устаревшая технология неизбежно имеет свои ограничения. В частности, Bluetooth Classic Audio потребляет много данных и энергии при передаче звука. Из-за этого стандарт не способен обеспечить качественную передачу звука и одновременную запись сигнала с микрофона. Когда наушники используются в качестве гарнитуры, Windows 11 применяет профиль Hands-Free (HFP), который позволяет одновременно воспроизводить звук и записывать голос, но со значительно сниженным качеством звука.
Вместо этого, когда беспроводные наушники подключаются к ПК с Windows 11 исключительно в качестве устройства вывода звука, активируется расширенный профиль распределения звука (A2DP). A2DP поддерживает передачу стереозвука с использованием таких кодеков, как SBC, AAC или aptX. Все устройства с поддержкой Bluetooth Classic Audio и A2DP обязаны поддерживать кодек SBC в качестве базовой, однако производители оборудования могут дополнительно реализовать поддержку кодеков aptX Adaptive, LDAC или LDHC.
При использовании профиля Hands-Free беспроводные наушники переходят в режим низкого качества с монофоническим звуком. Воспроизводится только один аудиоканал, а поддержка высокопроизводительных кодеков Bluetooth и объемного звука пропадает. В справочной документации Microsoft отмечается, что при использовании HFP «качество звука больше похоже на AM-радио, чем на звук CD-качества, который обеспечивает Bluetooth без использования микрофона». Windows 11 часто некорректно работает с беспроводными наушниками из-за наличия в них встроенного микрофона, в результате чего система воспринимает их как гарнитуру. Конечно, беспроводные наушники можно использовать в качестве гарнитуры для игр или видеозвонков, но если Windows 11 распознает их как гарнитуру во время прослушивания музыки, пользователь слышит некачественный монофонический звук.
Без полной замены Bluetooth Classic Audio не существует идеального решения для такого поведения Windows. Однако есть несколько практических шагов, которые вы можете предпринять. Фактически, вам нужно заставить Windows 11 игнорировать встроенный микрофон в наушниках.
Для этого откройте программу «Настройки», перейдите в раздел «Система» — «Звук» и нажмите «Дополнительные параметры звука». В появившемся окне нужно перейти на вкладку «Запись» и выбрать беспроводные наушники. После этого следует нажать правой кнопкой мыши на название наушников и выбрать «Отключить». Необходимо дождаться повторного подключения наушников или перезагрузить их вручную. В результате наушники будут отключены в качестве записывающего устройства, а Windows 11 будет использовать лучший профиль A2DP.
Что касается новых устройств, Microsoft постепенно решает эту давнюю проблему Windows, которая существовала задолго до Windows 11. Bluetooth LE Audio является альтернативой Classic Audio и использует радиомодули Bluetooth Low Energy для обеспечения новых, более универсальных аудиопрофилей с меньшим потреблением энергии. Вместо A2DP и HFP Bluetooth LE Audio использует профиль телефонии и мультимедиа (TMAP), который позволяет одновременно воспроизводить музыку и записывать голос в высоком качестве.
При активном TMAP Bluetooth LE Audio в Windows 11 может обеспечивать воспроизведение звука с частотой дискретизации до 32 кГц, при этом позволяя использовать микрофон. В этом случае пользователям больше не нужно беспокоиться о том, какой профиль активен. При этом есть важное условие: для использования Bluetooth LE Audio необходим совместимый компьютер, совместимые наушники и поддерживаемая версия Windows 11.
Поддержку Bluetooth LE Audio на конкретном ПК можно проверить в официальной документации Microsoft. Также рекомендуется убедиться, что система обновлена до Windows 11 версии 24H2 или более поздней и установлены текущие аудиодрайверы Bluetooth от производителя компьютера. В настоящее время не все компьютеры с Windows 11 и не все беспроводные наушники поддерживают Bluetooth LE Audio.
Пользователям Windows еще какое-то время придется следить за тем, чтобы наушники не были зарегистрированы как гарнитура. При этом в Microsoft ожидают, что «большинство новых мобильных ПК, которые появятся на рынке с конца 2025 года, уже будут иметь эту поддержку на заводском уровне».
Процессор Apple для iPhone 18 может увидеть самый большой годовой рост стоимости за всю историю линейки, поскольку партнер компании по производству чипов перейдет на 2-нанометровый процесс.
Отчеты из цепочки поставок показывают, что чип Apple A20 может стоить до 280 долларов за единицу, что примерно на 80 процентов больше, чем у предыдущего поколения. Более ранние оценки предсказывали более скромный рост цен, однако новые прогнозы повысились на фоне сохраняющихся производственных трудностей.
Ожидается, что Apple будет производить чип A20 по 2-нм техпроцессу TSMC. Этот переход направлен на повышение производительности и энергоэффективности, но в то же время сопровождается существенно более высокими издержками производства и ужесточением ограничений объемов выпуска.
Исторически сложилось так, что Apple соглашалась на более высокие первоначальные производственные затраты, чтобы получить ранний доступ к самым передовым технологическим стандартам. Предыдущие переходы на 5-нанометровые и 3-нанометровые технологические процессы обеспечили компании конкурентные преимущества без столь резкого роста стоимости.
При переходе на 2-нанометровое производство совпадают несколько факторов. Производство подходящих чипов на основе нанолистовых структур первого поколения остается нестабильным, а использование передовых методов упаковки и рост цен на память еще больше увеличивают затраты.
Каждый из этих факторов усиливает другие, делая переход более дорогостоящим, чем предыдущие изменения технологических норм.
Ежегодные обновления чипов Apple обычно приносят скромные улучшения в энергоэффективности, но 2-нм техпроцесс — это более радикальный сдвиг. Он представляет нанолистовые транзисторы, или транзисторы с круговым затвором, также известные как транзисторы с круговым затвором. Такие транзисторы повышают энергоэффективность и плотность размещения элементов, но значительно сложнее в стабильном массовом производстве.
Gate-all-around — это новый способ создания транзисторов, который дает инженерам более точный контроль над потоком электрического тока внутри чипа. Вместо того, чтобы соприкасаться с кремниевым каналом только с нескольких сторон, затвор полностью закрывает его, уменьшая потери энергии и повышая эффективность.
Для пользователей iPhone практическими преимуществами являются более стабильная производительность и более длительное время автономной работы, особенно с учетом растущих рабочих нагрузок, связанных с локальными вычислениями с использованием искусственного интеллекта. Функции, связанные с фотографией, системным интеллектом и выполнением локальных моделей, все больше зависят от возможностей оборудования, а не только от оптимизации программного обеспечения.
TSMC считается самым безопасным вариантом для раннего массового производства по 2-нм техпроцессу. Этим объясняется тот факт, что Apple, Qualcomm и MediaTek связаны с первоначальными производственными мощностями компании.
Предполагается, что Apple получит значительную долю раннего производства, хотя точные детали распределения остаются неподтвержденными. Баланс сил обычно меняется по мере увеличения выпуска подходящих микросхем и подключения дополнительных потребителей.
Параллельно Samsung разрабатывает собственный 2-нм процесс GAA для чипа Exynos 2600, пытаясь сократить разрыв в энергоэффективности и производительности для задач искусственного интеллекта. Контрактное производственное подразделение Samsung сталкивалось с проблемами стабильности предыдущих процессов, но давление конкуренции по-прежнему остается важным фактором.
Даже Apple выигрывает, когда у TSMC есть реальные альтернативы на рынке. На данный момент остается открытым вопрос, будет ли рост стоимости кремния ограничиваться ценами на сами чипы или в конечном итоге отразится на конечной стоимости iPhone, поскольку 2-нанометровое производство достигнет зрелой стадии.
Впервые в космосе заработала фабрика размером с микроволновую печь, способная генерировать плазму. Это приближает человечество на шаг ближе к производству материалов в условиях микрогравитации с последующим использованием на Земле.
На этой неделе компания Space Forge объявила, что успешно активировала производственную печь на борту своего первого спутника ForgeStar-1. Условия низкой околоземной орбиты позволили ему достичь температуры 1830 градусов по Фаренгейту, или около 1000 градусов по Цельсию. Этот результат означает создание необходимых условий для производства полупроводниковых материалов в космосе и дальнейшее развитие концепции орбитальной фабрики.
Сделано в космосе
ForgeStar-1 был запущен 27 июня 2025 года в рамках миссии SpaceX Transporter-14, которая предполагает совместный вывод на орбиту нескольких аппаратов. Этот спутник космического производства стал первым подобным проектом для Великобритании. Космическая кузница планирует выращивать полупроводниковые кристаллы, которые могут быть в 4000 раз чище, чем материалы, производимые в земных условиях.
По мере того как доступ к космосу становится проще, увеличивается и количество способов получения практической выгоды от запуска и эксплуатации спутников на орбите. Космическое производство использует уникальные условия орбитальной среды для создания современных материалов, свободных от дефектов, вызванных гравитацией Земли.
Недавняя демонстрация плазмы, проведенная Space Forge, стала первой в отрасли и подтвердила, что экстремальные условия, необходимые для роста кристаллов, могут быть созданы на низкой околоземной орбите. Невесомость позволяет атомам выстраиваться в более упорядоченную и совершенную структуру, чем это возможно на Земле, благодаря отсутствию конвекции, то есть передачи тепла посредством движения жидкостей или газов.
Генерация плазмы на орбите представляет собой фундаментальный сдвиг в подходах к производству. Это демонстрирует, что базовая среда для расширенного выращивания кристаллов может быть обеспечена на специальном коммерческом спутнике, открывая путь к совершенно новому направлению производства.
Компания намерена производить полупроводниковые материалы, которые могли бы найти множество применений на Земле, включая электронику, телекоммуникационную инфраструктуру и транспорт. Такие полупроводники могут быть использованы в оборудовании сетей пятого поколения, обеспечивающих мобильную связь, а также в современной авиационной технике.
По окончании миссии ForgeStar-1 будет сведен с орбиты и сгорит в атмосфере Земли. Первый спутник компании также служил для испытания теплозащитного экрана под названием «Придвен». Целью этого испытания является создание будущих модификаций транспортных средств, способных возвращаться через атмосферу в целости и сохранности и доставлять изготовленные в космосе материалы обратно на Землю.
Появился новый клон игры Flappy Bird , превращающий складной смартфон в крылья, которыми игроку необходимо махать, чтобы управлять птицей на экране. Игра предлагает буквально помахать дорогим устройством, имитируя движение крыльев.
За последние несколько лет мы уже видели множество креативных способов использования складных дисплеев: от скинов для эмуляторов ретро-игр до нестандартных режимов многозадачности. Однако этот проект, похоже, воспринимает эту идею слишком буквально.
Разработчик под псевдонимом @rebane2001 выпустил демо-версию игры, которая переносит классический геймплей Flappy Bird на складные устройства с неожиданным поворотом: вам нужно физически «помахивать» телефоном, чтобы управлять им.
Веб-игра с метким названием Foldy Bird использует датчики угла шарнира устройства для регистрации движений. Вместо того, чтобы нажимать на экран, чтобы удерживать пиксельную птицу в воздухе, пользователю необходимо быстро и несколько раз аккуратно открывать и закрывать смартфон. Чем быстрее происходят эти движения, тем выше летит птица. Это одновременно забавно и нервно, демонстрация того, как можно переосмыслить аппаратные датчики для управления играми, даже если идея относиться к флагманскому устройству как к дешевой пластиковой игрушке кажется странной.
Почему это важно? Помимо того, что проект имеет все шансы стать вирусной сенсацией, он подчеркивает, насколько чувствительными и точными стали сенсоры в современных складных смартфонах. Такие устройства, как последние модели Pixel Fold или серия Galaxy Z Fold, оснащены очень точными гироскопами и системами определения угла, которые обычно используются для активации таких режимов, как Flex Mode, или для включения экрана. Видеть, как эти возможности применяются для активного управления игрой, действительно впечатляет с технической точки зрения.
В то же время возникает очевидный вопрос о долговечности. Хотя ультратонкое стекло и шарнирные механизмы значительно усовершенствовались по сравнению с предыдущими поколениями складных устройств, главным врагом гибких экранов остается быстрое и повторяющееся механическое воздействие. Разбить экран во время игры вполне возможно.
Украинский военный разместил в социальной сети X (Твиттер) сообщение о том, что его MacBook Air на базе процессора М1 был поврежден осколком артиллерийского снаряда и при этом продолжал нормально работать. Мужик пишет, что посты в Х можно читать с ноута.
Посты с фото и видео поврежденного ноутбука опубликовал один из украинских военнослужащих, который служит в бригаде «Азов». В отдельном посте также было опубликовано видео, показывающее, что macOS работает нормально, хотя экран имеет очевидные и серьезные повреждения.
Смартфоны также могут прийти на помощь, если вы забудете провести техническое обслуживание и заменить изношенные тормозные колодки на новые. Гаджеты iPhone способны остановить даже спорткар Porshe 911 , но только если скорость не превышает 60 км/ч.
Ранее в этом месяце в офисе Google на Пирсе 57 в Нью-Йорке, с видом на реку Гудзон, было продемонстрировано будущее, которое можно буквально взять и примерить. Он использовал беспроводные очки с дисплеем в одном глазу, способным проецировать карты Google Maps на пол перед пользователем, показывать обновления Uber и автоматически распознавать и переводить разговорные языки. Благодаря этому стало возможным полностью понимать разговор на китайском языке.
Также была протестирована еще одна пара очков, подключенных кабелем к компактному устройству, похожему на смартфон. Эта модель может запускать приложения прямо у вас на глазах, подобно гарнитуре смешанной реальности. Обеспечено подключение к персональному компьютеру, возможность взаимодействия с плавающими трехмерными объектами с помощью рук и запуска трехмерных игр. Это было похоже на Vision Pro, который можно носить в кармане куртки.
Это будущее уже приближается. Ожидается, что в 2026 году такие очки смогут протестировать самостоятельно.
В то же время эти два совершенно разных подхода к дизайну, один случайный и сдержанный, другой ближе к компактной гарнитуре дополненной реальности, — лишь небольшой проблеск того, что будет дальше.
Рабочий стол сегодня может быть буквально завален умными очками. Среди них есть большая пара в черной оправе, оснащенная цветным дисплеем в одном глазу и использующая нейронный браслет на запястье для передачи команд. Рядом лежат очки в стиле Ray-Ban, которые воспроизводят музыку и фотографируют.
Также есть черные очки со сменными линзами и зеленые монохромные дисплеи с интеграцией ChatGPT. Рядом тонкие очки с дисплеями и дополнительным кольцом-компаньоном, но динамиков нет. Отдельно представлены очки, предназначенные для помощи людям с нарушениями слуха.
Для просмотра фильмов или работы иногда используются совершенно другие очки, которые вообще не поддерживают беспроводное соединение и подключаются к смартфону или ноутбуку через USB-кабель.
Умные очки стали самой большой тенденцией нового продукта в середине двадцатых годов этого десятилетия. Очки с интеллектуальными функциями могут напоминать футуристические образы, такие как очки Тони Старка, или технологии из фантастических фильмов, а это именно то, к чему стремятся большинство крупных технологических компаний.
По словам главы направления Android в Google Самира Самата, первоначальное видение платформы было вдохновлено образами из фильмов «Железный человек», где Джарвис выступает не как чат-бот, а как агент, способный работать вместе с пользователем и решать задачи непосредственно в окружающем пространстве. Это видение остается чрезвычайно привлекательным, но путь к нему был долгим, и полная реализация все еще обретает форму.
Более десяти лет назад Google Glass вызвали бурные дискуссии о социальном восприятии, конфиденциальности в публичном пространстве и даже породили негативный термин, связанный с пользователями этих устройств. В обзоре 2013 года отмечалось, что как аксессуар громкой связи устройство имело ограниченные возможности и не отображало все доступное на экране смартфона, что вызывало желание вернуться к обычному телефону.
Несмотря на значительный прогресс в технологиях за последние двенадцать лет, умные очки по-прежнему сталкиваются с аналогичными проблемами.
При этом они, наконец, стали более функциональными, менее громоздкими и достаточно привычными внешне, чтобы хотя бы частично оправдать давние ожидания. Они не идеальны и имеют значительные компромиссы и недостатки, но их возможности одновременно впечатляют и вызывают беспокойство.
Функционал и набор возможностей существенно различаются, но все умные очки имеют общую цель. Они стремятся стать чем-то, что хочется носить каждый день и в течение дня. Они потенциально могут стать постоянными спутниками на уровне беспроводных наушников, умных часов, фитнес-браслетов или колец для отслеживания здоровья, а со временем стать такими же незаменимыми, как смартфон.
Количество моделей и направлений стремительно растёт.
Нынешний всплеск интереса к умным очкам напоминает начало 2010-х годов, когда десятки различных часов и браслетов пытались прикрепиться к запястьям пользователей, от первого Fitbit до ранних умных часов, таких как Pebble или Martian. Тогда возник вопрос, действительно ли люди будут носить такие устройства постоянно. Ответ был ясен.
Сегодня основное внимание уделяется вычислениям лиц. В этой гонке принимают участие крупные имена из мира бытовой электроники и оптики, а также производители очков, в том числе Meta, Google, Samsung, Amazon, Snap, TCL, EssilorLuxottica, Warby Parker и Gentle Monster.
Умные очки постепенно находят свое место. Очки Meta от Ray-Ban прошли путь от странной и настороженной новинки 2021 года до устройства, которое регулярно используют во время путешествий и в повседневной жизни. Такие компании, как Nuance Audio, уже продают сертифицированные FDA очки со слуховыми аппаратами. В то же время крупнейшие игроки все еще готовятся к выходу на рынок. Google и Samsung уже на подходе, а Apple также может представить свои очки уже в следующем году.
В настоящее время отсутствует четкое определение того, что именно следует считать умными очками. Даже Samsung и Google делят этот класс устройств на несколько категорий: от моделей, работающих в связке со смартфоном, до полностью автономных решений. Некоторые модели поддерживают только звук, а другие добавляют камеры. У некоторых есть дисплеи, но их назначение и качество сильно отличаются. Некоторые показывают уведомления, другие запускают приложения, служат видоискателем для камеры или предоставляют субтитры в реальном времени.
Компании активно экспериментируют, пытаясь создать универсальные очки с максимальным набором функций. Эта тема станет одной из ключевых на выставке CES в начале января. Отдельную роль играет позиционирование умных очков как основного устройства взаимодействия с искусственным интеллектом, который является одной из самых динамичных и влиятельных технологий современности.
В то же время остаются основные, но критически важные вопросы. Это автономность, качество дисплея, габариты, комфорт, способ передачи информации со смартфона, доступность, конфиденциальность, безопасность и социальное восприятие. Также остается открытым вопрос, как очки будут интегрироваться с существующими смартфонами, наушниками и часами.
Именно решение этих проблем будет определять развитие отрасли в ближайшие двенадцать месяцев.
Искусственный интеллект как основа и движущая сила
Уже много времени было потрачено на использование очков с дисплеями в повседневной жизни, особенно при ходьбе. Мета-очки Ray-Ban Display показывают ответы на вопросы, генерируют текстовые подсказки на основе изображений, снятых камерой, и пытаются помочь в режиме реального времени. Именно к этому сценарию стремятся большинство крупных компаний, работающих над очками, рассматривая их как носимых помощников со звуком, миниатюрными дисплеями, подключенными приложениями и инструментами искусственного интеллекта.
При этом качество таких советов по-прежнему неравномерно. Искусственный интеллект может ошибаться в распознавании объектов, неправильно определять место или выдумывать детали. Тем не менее, очки — один из наиболее близких способов для искусственного интеллекта реально наблюдать за миром вокруг пользователя, что объясняет интерес Google и Meta к этому форм-фактору.
Дальнейшее развитие связано с так называемым контекстным искусственным интеллектом, который сможет понимать, где находится пользователь и что именно он делает, реагируя более активно. Это требует более глубокого понимания контекста, которое может обеспечить дополненная и смешанная реальность.
Управление жестами и роль запястья
С развитием функционала растет потребность в удобных методах управления. Нейронные браслеты, умные часы или даже кольца могут играть роль интерфейсов для управления очками. Компании рассматривают возможность интеграции таких решений в существующие устройства, чтобы не заставлять пользователей носить с собой чрезмерное количество аксессуаров.
Экраны и качество отображения
Дисплеи в очках развиваются в двух направлениях. Ведущие модели с кабельным подключением позволяют создавать большие виртуальные экраны, подходящие для работы и просмотра фильмов. В то же время полностью беспроводные модели с прозрачными линзами ограничены небольшой площадью дисплея из-за требований к автономности и весу.
Габариты, вес и автономность
Размещение всех компонентов в компактном футляре для очков остается непростой задачей. Батареи, динамики, процессоры, камеры и проекторы занимают место и увеличивают вес. Большинство производителей стремятся к весу от 25 до 50 граммов, что соответствует обычным очкам. Тем не менее, автономность по-прежнему остается ключевым ограничением, а минимальная цель — полный день работы на одной зарядке.
Вопрос коррекции зрения и вспомогательных функций
Совместимость с рецептурными линзами остается серьезной проблемой, особенно для пользователей с серьезными нарушениями зрения. Некоторые производители уже расширяют диапазон поддерживаемых диоптрий, но отрасли еще предстоит пройти долгий путь.
В то же время умные очки демонстрируют большой потенциал в сфере ассистивных технологий. Они уже могут читать текст вслух, описывать окружающие предметы или выполнять функции слуховых аппаратов, предоставляя пользователям больше независимости.
Конфиденциальность и безопасность
Вопрос конфиденциальности является одним из самых актуальных. Постоянное присутствие камер и микрофонов вызывает опасения по поводу сбора данных, информирования окружающей среды и безопасности хранения информации. Дополнительные риски связаны с ошибками искусственного интеллекта, отвлечением внимания во время вождения и ограниченным выбором альтернативных услуг.
Будущее развитие
Несмотря на все проблемы, к концу 2026 года ожидается появление гораздо большего количества умных очков. Они появятся в обычных магазинах оптики, на лицах моделей и в качестве инструментов для работы, развлечений и помощи людям с особыми потребностями.
Некоторые проекты неизбежно исчезнут, как это уже произошло с другими носимыми устройствами. Однако компании, которые выживут, смогут предложить технологические очки, которые действительно захочется носить постоянно, с учетом индивидуального зрения и без постоянной необходимости подзарядки.
Отрасль еще не достигла зрелости. Однако оно уже на очень близком расстоянии к этому моменту.
Если вы прочитали статью Что делает ChatGPT и почему он работает? Заглянем под капот, в магию этой нейронной сети» , вы поймете, как ИИ генерирует текст. В целом ИИ опирается на подсказку пользователя и ищет самые популярные родственные слова по заданной пользователем теме. Например, ИИ будет продолжать фразу «черный кот» как «мяуканье черного кота», потому что «мяу» — популярное слово, которое в текстах ставится рядом с кошками. ИИ не будет выводить «черный кот кукарекает», потому что человек пишет на котором он обучался, не используйте такое сочетание слов.
Но как ИИ создает впечатляюще детализированные и реалистичные фотографии и видео на основе текстовой подсказки? Например, какой набор пикселей ассоциируется с фразой «онлайн-новости»? Между тем, любая диффузионная модель ИИ легко сгенерирует для вас картинку на основе этой ключевой фразы. Для генерации мультимедийного контента используются хитрые подходы, например, поворачивается течение времени.
Векторы в ИИ: четко «под рукой»
Когда дело доходит до искусственного интеллекта, слова «векторы» и «векторизация» сразу же начинают звучать. Не волнуйтесь, если вы в последний раз слышали о векторах в школе или университете — чтобы понять, математика не нужна.
Вам нужно только помнить, что вектор – это линия с направлением движения. Математики рисуют на бумаге вектор в виде стрелки.
Только представьте, что вся математика и все числа — это всего лишь способ определить расстояние между объектами. Фраза «расстояние между городами Киевом и Харьковом 400 км» не вызывает когнитивного диссонанса. Знаете, кто-то взял линейку и перевел расстояние по поверхности планеты в короткое число.
Таким же образом расстояния между другими объектами могут быть названы численно. Скажем, какое расстояние по гамме цветов между бордовым и терракотовым? Примените колориметр поочередно к обоим оттенкам и определите числовое расстояние между двумя цветами.
При обучении искусственного интеллекта создается своеобразная карта расстояний между всеми объектами, с которыми он был знаком. Например, расстояние между словом «кошка» и словом «мяу» будет 0,1, а расстояние между «кошка» и «кукарекает» — 0,99. Поскольку расстояние от слова «мяу» намного меньше, ИИ выберет слово «мяу» между словами «мяу» и «кукарекает». Слово «мяукает», в свою очередь, тоже имеет дистанцию ко всем остальным словам.
Теперь пришло время погрузиться в то, как ИИ превращает слова в пиксели.
Пример AI-генератора картинок и видео
Само название диффузионных генераторов изображений ИИ имеет глубокую связь с физикой. Генерация моделей изображений и видео, которые мы видим сегодня, работает по принципу, известному как диффузия.
Этот процесс поразительно похож на броуновское движение, которое мы наблюдаем в природе, когда частицы движутся беспорядочно. Но ИИ осуществляет диффузию в обратном потоке времени – от конца к началу.
Эта связь с физикой — не просто интересная аналогия. Из него напрямую вытекают алгоритмы, с помощью которых мы можем создавать изображения и видео. Этот подход также обеспечивает интуитивное понимание того, как эти модели работают на практике.
Но прежде чем погрузиться в физические основы, давайте рассмотрим реальную модель диффузии.
Если мы посмотрим исходный код диффузионного AI-генератора WAN 2.1, то увидим, что процесс создания видео начинается с получения случайного числа.
То есть сначала ИИ просто создает случайный набор пикселей, используя полученное число в качестве начальной подсказки. Это изображение выглядит как чистый шум.
Этот «шумный» видеопоток затем подается в модель искусственного интеллекта, называемую преобразователем — модель того же типа, которая лежит в основе больших речевых систем, таких как ChatGPT.
Но вместо текста трансформер выдаёт другое видео — уже с намеками на структуру. Затем это видео добавляется к исходному видео, и результат возвращается в модель.
Этот процесс повторяется десятки раз. После десятков или сотен повторов из чистого шума постепенно формируется удивительно реалистичное видео.
Но как все это связано с броуновским движением? И как модель так точно использует текстовые запросы, чтобы превратить шум в видео, как описано?
Чтобы понять, рассмотрим диффузионные модели в трех частях.
Для начала давайте изучим модель CLIP, созданную в OpenAI в 2021 году. Мы увидим, что CLIP на самом деле состоит из двух моделей — лингвистической и визуальной — которые обучаются вместе, чтобы сформировать общее пространство расстояний между словами и изображениями.
Далее мы разберем сам процесс диффузии — как модели учатся убирать шум и превращать хаос в изображение. Мы увидим, что простая идея о том, что «модель просто убирает шум» не совсем соответствует действительности.
Наконец, давайте объединим CLIP и распространение, чтобы понять, как именно текстовые запросы влияют на создание изображений и видео.
КЛИП
2020 год стал переломным для языкового моделирования. Результаты исследований масштабирования нейронных сетей и появление GPT-3 показали, что «больше» действительно означает «лучше».
Огромные модели ИИ, обученные на гигантских наборах данных, выявили способности, которых просто не существовало в моделях меньшего размера.
Исследователи быстро применили те же идеи к изображениям.
В феврале 2021 года команда OpenAI представила модель CLIP, обучение которой основывалось на 400 миллионах пар «изображение — текстовая подпись», собранных из Интернета.
CLIP состоит из двух моделей: одна обрабатывает текст, другая — изображения.
Результатом каждого из них является вектор длиной 512, и основная идея состоит в том, что векторы для одного изображения и его подписи должны быть похожими.
Для этого была разработана контрастная схема обучения.
Например, набор данных может содержать фотографию кошки, собаки и человека с подписями «фото кошки», «фото собаки» и «фото мужчины».
В визуальную модель передаются три изображения, а в текстовую модель — три текста. Мы получаем шесть векторов (числа расстояний с направлением движения) и хотим, чтобы пары, соответствующие друг другу, имели наибольшее сходство (имели наименьшее расстояние).
При этом учитывается не только сходство соответствующих пар, но и различие всех остальных комбинаций.
Мы можем размещать векторы для изображений в виде столбцов матрицы, а для текста — в виде строк.
Пары по диагонали — правильные совпадения, а вне ее — неправильные. Цель CLIP — максимизировать сходство правильных пар и минимизировать сходство неправильных.
Это «контрастное» обучение дало модели название: Контрастное предварительное обучение языку и изображению (CLIP).
Сходство измеряется по школьной формуле – косинусу угла между двумя прямыми (векторами). Если угол между векторами равен нулю, их косинус равен 1 – это максимальное сходство.
Итак, CLIP обучен так, что связанные тексты и изображения «смотрят» в одном направлении в общем пространстве.
Учитывая расстояния между определенными объектами, ИИ может давать промежуточные результаты. Например, если взять две фотографии одного и того же человека: в шляпе и без, и посчитать разницу в расстоянии между их векторами, то результат будет соответствовать понятию «шляпа».
То есть, вычитая и добавляя расстояния (векторы), оказывается можно работать с понятиями, а не только с изображениями.
CLIP также может классифицировать изображение: просто сравните его числовое расстояние с набором расстояний для возможных сигнатур и выберите то, которое имеет наибольшее сходство.
Таким образом, CLIP создает мощное пространство, в котором изображения связаны с текстом. Но это работает только в одном направлении: от данных к векторам, а не наоборот.
Диффузионные модели искусственного интеллекта
В том же 2020 году команда из Беркли опубликовала работу Denoising Diffusion Probabilistic Models (DDPM). Он впервые показал, что можно генерировать высококачественные изображения путем пошагового преобразования шума в изображения.
Идея проста: мы берем набор обучающих изображений и добавляем к ним шум до тех пор, пока они не будут полностью уничтожены. Затем мы учим сеть выполнять обратный процесс — удалять шум.
Однако прямая реализация «убираем шум шаг за шагом» не работает. Исследователи из Беркли предложили другую схему: берем «чистое изображение», искажаем его и идем в обратном направлении — от шума к исходному изображению.
Этот подход работает намного лучше, чем поэтапное восстановление.
Немаловажно и то, что во время генерации модель на каждом шаге заново добавляет шум — и это делает результаты более наглядными.
Причина объясняется теорией броуновского движения: добавление случайного шума помогает избежать «слипания» точек в центре распределения данных и воспроизводит их полное разнообразие.
В результате вместо среднестатистического размытого изображения мы получаем множество реалистичных вариантов.
ИИ создает изображения, отсчитывая время назад
Модели диффузии можно интерпретировать как изучение зависящего от времени векторного поля, которое указывает направление перехода от шума к данным.
Представим себе двумерный пример, где каждая точка представляет собой небольшое изображение в два пикселя. Если добавить шум, точка совершает случайные шаги – это броуновское движение.
Модель учится «поворачивать время вспять», возвращая точки обратно в исходную структуру (например, спираль).
Если мы обучим ее не только по координатам, но и по времени t (количеству шагов), модель научится вести себя по-разному на разных этапах — сначала грубо, потом более подробно.
Это делает его гораздо более эффективным.
Из этой модели также следует добавление шума при генерации: оно позволяет сэмплам не «слипаться» в среднее значение, а равномерно заполнять распределение данных.
Если шум не добавлен, модель сходится к центру — то есть создается «усредненное», размытое изображение.
Ничего
Вскоре появился упрощенный метод DDIM (неявные модели шумопонижения и диффузии), который доказал, что то же качество можно получить без случайных шагов.
Он основан на аналитической связи между стохастическим уравнением (с шумом) и обыкновенным детерминированным дифференциальным уравнением без шума.
DDIM позволяет генерировать изображения быстрее и без потери качества.
Оба метода, DDPM и DDIM, приводят к одинаковому распределению результатов, но DDIM делает это детерминированно, без случайности.
В WAN используется дальнейшее развитие этой идеи — метод согласования потоков.
DALL·E 2 и сочетание CLIP с диффузией
К 2021 году стало ясно, что диффузионные модели могут создавать высококачественные изображения, но плохо реагируют на текстовые подсказки.
Идея совмещения CLIP и диффузии показалась естественной: CLIP умеет хорошо сравнивать слова и картинки и может контролировать процесс создания картинок методом диффузии.
В 2022 году команда OpenAI именно это и сделала, создав unCLIP, коммерческая версия которого известна как DALL·E 2.
DALL·E 2 учится преобразовывать векторы из CLIP в изображения, и делает это с невероятной точностью.
Текстовые векторы передаются в диффузионную модель как дополнительное условие, и она использует их для более точного удаления шума согласно описанию.
Этот метод называется кондиционированием.
Но кондиционирование само по себе не гарантирует полного соответствия запросу. Для этого потребуется еще одна хитрость.
Руководство
Вернемся к примеру со спиралью. Если разные части спирали соответствуют разным классам (людям, собакам, кошкам), то обусловленность помогает, но не идеально: точки путаются.
Решением является руководство без классификаторов. Модель преподается как в классе, так и без него.
Во время генерации мы можем сравнивать векторы для условной и безусловной моделей. Разница между ними указывает направление к искомому классу, и мы можем усилить это направление коэффициентом ? (альфа).
В результате модель точнее воспроизводит нужные объекты — например, дерево в пустыне наконец-то появляется и становится все более реалистичным, если увеличить ?.
Этот принцип стал стандартом в современных моделях.
В WAN используется еще более интересная опция — отрицательные подсказки.
То есть пользователь может явно указать, что он не хочет видеть в видео (например, «лишние пальцы» или «движение назад»), и эти факторы вычитаются из результата.
Заключение
С момента публикации DDPM в 2020 году и до сегодняшнего дня разработка диффузионных моделей шла бешеными темпами. Современные системы, способные конвертировать текст в видео, выглядят практически нереально.
Самое впечатляющее, что все эти части — кодеры текста, векторные поля, процессы обратной диффузии — настолько точно скоординированы друг с другом, что образуют целостный механизм. И все это основано на простых математических формулах и геометрии. В результате появились модели, напоминающие машины нового типа.
Теперь вам не нужна камера, художник или аниматор, чтобы создавать реалистичные и красивые изображения или видео. Достаточно всего нескольких слов текста.
OpenAI недавно добавила поддержку Apple Music в приложение ChatGPT, и эта интеграция заполняет пробел, который Apple Music пыталась устранить в течение многих лет. Лучше всего интеграция работает, когда есть общее представление о музыке, которую вы хотите услышать, но стандартный поиск Apple Music не всегда способен правильно интерпретировать такие запросы.
Поиск Apple Music работает хорошо, если вы точно знаете, что нужно найти. Его поиск менее полезен, когда поиск начинается с настроения, смутного воспоминания или плохо сформулированной идеи. В таких ситуациях ChatGPT помогает лучше.
Почему использование ChatGPT с Apple Music может быть выгодным
Поиск Apple Music построен на основе ключевых слов, исполнителей и точных совпадений. Этот подход хорошо работает для прямых запросов, но часто терпит неудачу, когда поиск основан на настроениях, эмоциональном тоне или непосредственных влияниях.
ChatGPT гораздо лучше справляется с расплывчатыми формулировками. Такие запросы, как непринужденная электронная музыка для позднего вечера или альтернативный рок без тяжелого гранжа, обычно сразу же дают подходящие результаты без длительных уточнений.
Для этой функции требуется учетная запись ChatGPT в Интернете или приложении iOS. Apple Music необходимо подключить перед началом поиска или сохранением результатов.
Для добавления песен или плейлистов в собственную библиотеку требуется активная подписка Apple Music. Без подписки вы сможете просматривать результаты и прослушивать фрагменты, но функциональность будет ограничена.
Как работает подключение Apple Music к ChatGPT
Выполните следующие действия, чтобы подключить Apple Music:
Откройте ChatGPT в приложении или веб-версии iOS и войдите в свою учетную запись.
Откройте каталог приложения в интерфейсе чата.
Выберите Apple Music из списка доступных приложений.
Войдите в систему, используя свой Apple ID.
Предоставьте разрешение на поиск и действия с библиотекой.
Вернитесь в чат и начните поиск Apple Music.
Предоставляемые разрешения намеренно ограничены. ChatGPT может находить музыку и сохранять ее в вашей медиатеке, а Apple Music берет на себя полную ответственность за воспроизведение, загрузки и историю прослушивания.
После подключения поиск перестает напоминать заполнение формы и больше похож на описание того, что вы хотите услышать. Вы можете уточнить результаты, добавив контекст, изменив настроение или сузив временные рамки, не начиная поиск заново.
ChatGPT не имеет доступа к вашей личной библиотеке Apple Music, спискам воспроизведения или истории прослушивания, поскольку его доступ ограничен общедоступным каталогом Apple Music. Это означает, что он может искать исполнителей, альбомы, композиции и редакционные плейлисты, но не может просматривать или изменять данные, связанные с учетной записью пользователя.
Где интеграция работает лучше всего
Создание списков воспроизведения — это область, где эта интеграция имеет наибольший смысл. ChatGPT способен за считанные секунды превратить общую идею в полноценный плейлист и сохранить его прямо в библиотеке.
Открытие музыки заново также является сильной стороной, особенно при поиске по эпохе, жанру или влияниям. Подобные запросы часто помогают найти исполнителей, о которых давно не упоминали, но которые до сих пор нравятся.
Гибкость ChatGPT ускоряет процесс поиска новой музыки, особенно при создании плейлистов. При этом редактировать плейлисты удобнее прямо в Apple Music. ChatGPT хорошо помогает на начальном этапе, но финальная доработка обычно происходит в самом сервисе.
Примеры поиска, которые хорошо работают в Apple Music
Поиск в Apple Music лучше всего работает по конкретным и фактическим запросам. Он надежно обрабатывает исполнителей, жанры, периоды времени, авторство и четко определенные категории, которые напрямую соответствуют метаданным каталога.
Альтернативный рок 2000-х.
Электронная музыка 1990-х годов.
Концертные альбомы Pearl Jam.
Инструментальный хип-хоп.
Джазовые фортепианные трио.
Саундтреки Ганса Циммера.
В таких случаях Apple Music обычно возвращает приемлемые результаты с первой попытки. Проблемы с поиском новой музыки возникают, когда запросы основаны на настроении, темпе или субъективных формулировках, а не на четких атрибутах каталога.
Примеры запросов, которые лучше всего работают с ChatGPT
Современный металл типа Baroness, Gojira и Mastodon, но скорее мелодичный, чем агрессивный.
Тяжелая музыка с длинными строками и атмосферой, а не скоростью и бластбитами.
Альтернативный рок 2000-х без поп-панка и пост-гранжа.
Электронная музыка для позднего вечера, спокойная, минималистичная и нетанцевальная.
Создайте плейлист, который начинается жестко и постепенно становится более мелодичным.
Такие запросы обычно возвращают полезные результаты с первой попытки. Затем вы можете настроить настроение, временные рамки или интенсивность, не вводя повторно имена исполнителей.
ChatGPT также может объяснить, почему определенные исполнители соответствуют данному запросу, помогая еще больше сузить ваш выбор. После того как плейлист примет нужный вид, его можно напрямую сохранить в Apple Music, где воспроизведение и дальнейшее редактирование происходит в обычном порядке.
Эта интеграция лучше всего подходит для людей, которые часто создают плейлисты и которых раздражают жесткие инструменты поиска. Станет ли это постоянной привычкой или эпизодическим инструментом, будет зависеть от того, насколько Apple позволит этой функциональности развиваться.
Генеральный директор Instagram Адам Моссери отмечает, что создаваемый контент становится все труднее отличить от реальности. Совсем недавно, в прошлом году, журналист The Verge Сара Джонг написала, что «основное предположение о фотографии скоро будет заключаться в том, что это подделка, поскольку создавать реалистичные и убедительные поддельные изображения стало тривиально». Моссери фактически согласен с этим утверждением.
На протяжении большей части жизни относительно безопасным было предположение, что фотографии и видео по большей части являются точными запечатлениями реальных моментов.
Очевидно, это уже не так. Ожидается переход от автоматического предположения, что увиденное реально, к скептицизму, и адаптация к новым условиям займет годы. Необходимо обратить внимание на то, кто и с какой целью распространяет информацию. Это будет неудобно, поскольку люди биологически склонны доверять своим глазам.
По мнению Моссери, эволюция, необходимая для Instagram и других платформ, заключается в создании более эффективных инструментов для творчества, маркировке контента, созданного искусственным интеллектом, и проверке подлинности контента, демонстрации сигналов достоверности о том, кто публикует контент, и продолжении улучшения рейтинга оригинального контента. В последние несколько лет активно обсуждается «апокалипсис вопроса «что такое фотография», вызванный развитием редактирования и генерации изображений с помощью искусственного интеллекта. На фоне стремительного приближения 2026 года список предлагаемых мер выглядит запоздалым и поверхностным.
Взгляд Моссери на этот вопрос включает утверждение, что, несмотря на жалобы на «мусор ИИ», существует много действительно впечатляющего контента, созданного ИИ. При этом никаких конкретных примеров не приводится. В нем также отмечается, что производители фотоаппаратов движутся в неправильном направлении, пытаясь заставить всех «выглядеть как профессиональные фотографы 2015 года».
В отличие от этого сырого, несовершенные изображения временно становятся сигналом реальности, по крайней мере, до тех пор, пока искусственный интеллект не научится воспроизводить несовершенства. После этого фокус придется сместить с того, что говорится, на того, кто это говорит. Идентификация реальных медиа должна осуществляться с помощью цифровых отпечатков пальцев и криптографической подписи изображений непосредственно с помощью камер, а не с помощью тегов или водяных знаков, добавленных к контенту ИИ.
Моссери далеко не первый руководитель технологической отрасли, обративший внимание на эту проблему. Представитель Samsung Патрик Чом заявил, что «настоящей фотографии на самом деле не существует» после прошлогодних споров по поводу подхода смартфонов Galaxy к съемке Луны. В интервью The Wall Street Journal генеральный директор Apple Крейг Федериги выразил обеспокоенность по поводу влияния ИИ-редактирования. При этом есть ощущение, что для полного понимания ситуации понадобится не одна подобная презентация в Instagram.
Windows 11 не так идеальна, как пытается представить Microsoft. Спустя почти пять лет после запуска Windows 11 все еще кажется незавершенной. Компания продолжает исправлять ошибки, случайные сбои и постепенно доводить операционную систему до современных стандартов. Некоторые из этих усилий успешны, но чрезмерное внимание Microsoft к искусственному интеллекту вызывает беспокойство.
В то же время недавнее заявление Microsoft можно рассматривать как позитивный сигнал. Windows Server 2025 получила встроенную поддержку NVMe, что существенно ускоряет передачу данных. Такая же функциональность уже присутствует в Windows 11, но скрыта и сопровождается существенными оговорками. На протяжении более десяти лет Microsoft эффективно относилась к высокоскоростным твердотельным накопителям NVMe, как к обычным жестким дискам. Каждое взаимодействие системы с диском NVMe проходит через уровень трансляции, который преобразует команды NVMe в команды интерфейса малой компьютерной системы (SCSI) — протокол, появившийся в 1980-х годах. Настройки Windows 11 могут негативно повлиять на ресурс SSD, но даже сама операционная система по умолчанию искусственно ограничивает его производительность.
NVMe был разработан для поддержки до 64 000 очередей по 64 000 инструкций в каждой, обеспечивая массовый параллелизм и значительно более высокую скорость передачи данных. SCSI поддерживает только одну очередь с 32 командами. Использование SCSI поверх NVMe — работоспособное решение, но оно оставляет неиспользованным большую часть потенциальной производительности.
Microsoft утверждает, что включение встроенной поддержки NVMe в Windows Server 2025 обеспечивает до 80 процентов больше IOPS (операций ввода/вывода в секунду), что является показателем количества операций чтения или записи в секунду. Также сообщается о 45-процентном сокращении количества циклов ЦП на операцию ввода-вывода по сравнению со старым подходом с использованием широковещательной передачи SCSI. Использование этой функции почти удваивает производительность SSD по сравнению с текущим подходом SCSI.
Собственный драйвер NVMe, включенный Microsoft в Windows Server 2025, уже присутствует в Windows 11 версии 25H2. Его можно активировать, добавив в реестр три значения, которые заставят Windows полностью обходить устаревший уровень SCSI.
Встроенная поддержка NVMe в Windows 11 в настоящее время официально не поддерживается. Прежде чем совершать какие-либо действия, необходимо создать резервную копию системы и полностью осознавать возможные риски.
Самый простой способ активации — выполнить следующие команды в терминале Windows, работающем с правами администратора:
После выполнения команд необходимо перезагрузить компьютер, чтобы изменения вступили в силу. Альтернативно вы можете добавить значение вручную, выполнив следующие действия.
Нажмите Windows + R, чтобы открыть окно «Выполнить». Введите regedit и нажмите Enter.
Перейдите в HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Policies\Microsoft\FeatureManagement\Overrides.
Если раздел «Переопределения» отсутствует, создайте его, щелкнув правой кнопкой мыши на левой панели.
Создайте три новых значения DWORD (32-бит):
735209102 со значением 1
1853569164 со значением 1
156965516 со значением 1
Перезагрузите компьютер.
После перезагрузки вы можете проверить, сработало ли изменение, открыв Диспетчер устройств. Диск NVMe должен появиться в разделе «Носители данных» вместо «Устройства», что подтверждает использование нового встроенного драйвера.
Заявленное Microsoft улучшение IOPS на 80 процентов было зафиксировано в Windows Server 2025. На потребительских системах под управлением Windows 11 результаты, вероятно, будут более скромными.
Наибольший прирост производительности наблюдается в сценариях с большим количеством одновременных операций с небольшими файлами. Именно в таких условиях многоочередная архитектура NVMe раскрывает свой потенциал. Для повседневных задач, таких как веб-серфинг или запуск отдельных приложений, разница может быть почти незаметной. Реальный прирост производительности существенно зависит от конкретной модели SSD и характера нагрузки.
Эта настройка может привести к сбою системы в случае ошибки. Возможные последствия включают невозможность загрузки системы, потерю данных и непригодность резервных копий.
Прежде чем вносить изменения в реестр, следует учесть, что Microsoft не просто так активировала эту функцию в потребительских версиях Windows. Экосистема в настоящее время не готова к полноценному использованию.
Во-первых, безопасный режим полностью перестает работать. Поддержка NVMe приводит к сбою безопасного режима, поскольку необходимые драйверы не загружаются при запуске системы. Существует обходной путь, который включает добавление ключей реестра вручную для включения класса дисков NVMe в безопасном режиме, но это добавляет еще один уровень сложности и риска.
Во-вторых, изменение затрагивает идентификаторы дисков. При переключении с адаптера SCSI на собственный драйвер NVMe уникальный идентификатор диска может измениться. В результате программа резервного копирования может перестать распознавать диск, пока он не будет переконфигурирован.
Аналогичные проблемы возможны и с инструментами управления хранилищем. Поскольку большинство программ Windows предназначены для использования команд SCSI, некоторые утилиты могут неправильно идентифицировать диски NVMe или, что еще хуже, обнаруживать их дважды как два разных диска.
Наконец, драйверы от производителей не дают никаких преимуществ в этом сценарии. Изменение работает только в том случае, если вы используете стандартный драйвер Microsoft StoreNVMe.sys. Если установлен проприетарный драйвер NVMe от Samsung, Intel или другого производителя, встроенная поддержка NVMe не обеспечит никакого прироста производительности.