Смартфоны сегодня уже не фотографируют-они генерируют снимок По лишь им известным алгоритмам. Такой подход называется вычислительная фотография и он позволил уменьшить недостатки, которые имеют крошечные сенсоры их камер. Однако в направлении вычислительного фото телефоны уже почти достигли вершины возможностей – фотографии можно создавать в почти полной темноте. Поэтому производители ищут следующее поле битвы камер и им может стать вычислительное видео.
Вычислительная революция в смартфонном фото
Смартфоны имеют крошечные сенсоры и это накладывает на них много ограничений. Слабое освещение, много теней и света, мелкие детали на предметах – все это приводило к низкокачественных фотографий.
В последнее десятилетие вычислительные мощности мобильных чипов значительно выросли и это позволило делать не один, а несколько снимков когда пользователь нажимает кнопку затвора.
Даже дрожание рук смартфоны превратили в инструмент повышения качества фотографий.
В ожидании смартфонной видеореволюции
Однако до сих пор не было таких же возможностей в видео. При съемке видео в сложном освещении проявляется большинство тех же проблем, с которыми пользователи сталкивались в эпоху до вычислительной фотографии.
Вычислительное видео создает определенные набор проблем, потому что нет времени, как это есть при вычислительном фото. Телефону может потребоваться несколько секунд, чтобы определить, как должно выглядеть неподвижное изображение с его камеры, создать его из десятка отдельных экспозиций и потратить значительное время на их объединение.
Если на каждое фото телефон без проблем может потратить несколько десятков секунд с видео такой роскоши нет. Ведь каждая секунда видеоряда содержит от 24 до 60 отдельных изображений. Телефон не может сделать по несколько снимков каждого из этих изображений потому что просто нет времени на их захват, не говоря уже о том, чтобы обработать их.
Поиск нового набора решений для вычислительного видео в настоящее время является главной целью для каждого крупного производителя. Это стало одной из важнейших задач для процессоров NPU, мощность которых на данный момент увеличивается быстрее, чем в любой другой части телефонов.
Технология, лежащая в основе программного обеспечения
NPU — это нейронное процессор, который обрабатывает рабочие нагрузки машинного обучения и искусственного интеллекта». Когда они только начали появляться, ожидалось, что они будут использоваться для расширенной реальности.
Так оно и произошло, но оказалось, что способы использования искусственного интеллекта, машинного обучения и нейронной обработки для фотографии на самом деле гораздо шире.
Сила нейронных процессоров заключается в том, что они могут обрабатывать огромное количество инструкций за короткий промежуток времени, используя при этом очень мало энергии. Это именно то, что нужно для вычислительного видео.
Набор приемов
Есть 2DNR и 3DNR — двумерное и трехмерное шумоподавление. Это процесс отделения деталей от шума в попытке полішити качество изображения без уменьшения количества визуальной информации.
Камеры уже используют шумоподавления, но большая мощность нейронной обработки позволяет новым телефонам использовать более продвинутые алгоритмы NR для более эффективного выполнения этой работы.
В чем разница между 2D и 3D NR? В режиме 2D шумоподавления используются методы машинного обучения, основанные на миллионах похожих снимков, сделанных другими. Каждый кадр обрабатывается как неподвижное изображение. Пиксели сравниваются с соседними кластерами пикселей, чтобы идентифицировать и устранять шум.
Дополнительное измерение, добавленное 3DNR, — это время. Подавление шума основано на том, что появляется в последовательных кадрах, а не только на данных изображения с одного кадра.
Задача вычислительного видео состоит в том, чтобы обеспечить оба типа шумоподавления одновременно, но с использованием правильной техники в правильных частях сцены. 3DNR прекрасно работает для относительно неподвижных областей изображения.
3D-шумоподавление дает телефону гораздо больше шансов сохранить подлинные детали, не создавая впечатления, что они появляются и исчезают от кадра к кадру.
Однако 3DNR не является отличным решением для движущихся объектов. Телефон должен отделять части изображения в движении, неподвижные области, применять различные формы обработки и быть готовым менять эти области за доли секунды.
Переход к источнику
Также нужен телефон, который сразу записывает данные с меньшим кол шума. Для этого можно использовать камеру с сенсором большего размера и более высокой чувствительностью.
Одним из хороших путей является более эффективное использование оптической стабилизации (OIS). Это двигатель в камере, который слегка перемещает объектив, чтобы компенсировать любое движение в руках пользователя.
Эта компенсация движения позволяет телефону использовать более медленную выдержку, избегая при этом размытого изображения. При съемке ночью, чем дольше выдержка, тем лучше данные, которыми обладает камера телефона для построения кадра. А при съемке со скоростью 30 кадров в секунду максимальное теоретическое окно, очевидно, составляет 1/30 секунды.
Вычислительное видео может динамически использовать эту концепцию окна максимальной экспозиции с помощью OIS, стабилизирующего объектив.
В некоторых ситуациях с низкой освещенностью телефон выигрывает от снижения частоты кадров до 30 кадров в секунду, даже если установлено запись 60 кадров в секунду. Это удваивает максимальное время экспозиции, позволяя камере захватывать кадры с большей детализацией и меньшим уровнем шума.
Недостающие кадры затем можно искусственно сгенерировать путем анализа разницы в данных изображения между кадрами, которые уже есть.
Результаты имеют значение
Телефон может даже снизить частоту кадров до гораздо более низкой, например до 15 кадров в секунду, и при этом создавать видео с частотой 60 кадров в секунду, что может выглядеть великолепно, если сцена достаточно неподвижна.
Чем ниже частота кадров, тем дольше становится окно максимальной экспозиции. Однако на данный момент это теоретические методы.
Выявление проблем
OIS, технология, которая делает медленную выдержку жизнеспособной, может компенсировать движение только на одном конце. Это позволяет избежать размытия рукопожатия, а не размытия движения бегуна в кадре.
Одна из функций вычислительного видео заключается в том, чтобы справиться с этим, изменяя скорость захвата на лету.
Существует также аппаратный метод, который может помочь, называемый DOL-HDR. Возможно, вы хорошо знакомы с режимами HDR для фотоснимков. У них несколько кадров объединяются, чтобы создать одну картинку. В мире телефонов это может означать от трех до 36 изображений.
С видео на это нет времени, и минимальное время для записи незначительных изменений, которые произошли в сцене при съемке этих экспозиций, вызывает эффект, называемый ореолом в плохо обработанных режимах HDR.
DOL-HDR позволяет избежать этих проблем, делая два снимка одновременно, используя один датчик камеры.
Как? Данные с обычного датчика камеры считываются строка за строкой, подобно тому, как печатающая головка принтера прокладывает свой путь по листу бумаги. Один ряд пикселей следует за следующим.
DOL-HDR записывает две версии каждой строки одновременно, одну из изображений с более длинной экспозицией, другую-с более короткой экспозицией. Этот вид HDR может быть широко использован в сценах, где уровень освещенности очень контрастный, например, во время захода Солнца.
DOL-HDR также можно использовать для максимального увеличения детализации движения и динамического диапазона ночного видео. Представьте себе сцену: относительно тихое видео при слабом освещении, но в кадре пробегает человек, и мы не хотим, чтобы бегун был размытым.
С помощью DOL-HDR можно использовать короткую экспозицию, чтобы получить более четкое изображение движущейся фигуры. А более длительную экспозицию, чтобы получить лучшие результаты для фона сцены.
Задача вычислительного видео состоит в том, чтобы плавно переключаться между различными стилями и техниками съемки и брать на себя постоянно растущую нагрузку на их обработку.
По материалам Techradar