Понедельник, 6 октября, 2025

ИИ будет запускаться на более слабом «железе», обещает новая технология Huawei SINQ

Лаборатория вычислительных систем Huawei в Цюрихе представила новый открытый метод квантования для больших языковых моделей (LLM), который позволяет существенно снизить потребность в памяти без потери качества результатов.

Этот метод, названный SINQ (Sinkhorn-Normalized Quantization), создан с упором на скорость, отсутствие необходимости в калибровке и простоту интеграции в существующие рабочие процессы моделей. Код для ее реализации команда Huawei выложила на GitHub и Hugging Face под открытой, удобной для корпоративного использования лицензией Apache 2.0, позволяющей организациям свободно использовать, изменять и коммерчески развертывать разработку.

В зависимости от архитектуры и разрядности, SINQ сокращает потребление памяти на 60-70%.

Это означает, что модели, которым ранее требовалось более 60 ГБ памяти, теперь могут работать на конфигурациях с объемом памяти около 20 ГБ – важный шаг к запуску больших моделей на одном мощном, но потребительском графическом процессоре или нескольких недорогих видеокартах.

Таким образом, модели, которые ранее требовали корпоративных графических процессоров уровня NVIDIA A100 или H100, теперь можно запускать на гораздо более доступном оборудовании – например, на NVIDIA GeForce RTX 4090 (около $1600) вместо A100 80GB (около $19 000) или даже H100, стоимость которых превышает $30 000.

Для команд, работающих в облачных инфраструктурах, экономия также ощутима. Экземпляры на базе A100 стоят 3-4,50 долларов в час, в то время как графические процессоры с 24 ГБ памяти, такие как RTX 4090, доступны на многих платформах по цене 1-1,50 долларов в час.

Со временем, особенно для длительных процессов инференса, это может снизить затраты на тысячи долларов, а также позволяет развертывать LLM на небольших кластерах, локальных рабочих станциях или потребительском оборудовании, которое ранее ограничивалось нехваткой памяти.

Преодоление проблемы с памятью в LLM

Запуск больших моделей часто требует компромисса между производительностью и размером.

На практике нейронные сети используют числа с плавающей запятой (floating-point) для представления Весов и активаций. Они могут охватывать огромный диапазон значений — от очень маленьких до очень больших, с десятичными частями.

Эта гибкость полезна, поскольку во время тренировки и инференса значения весов могут изменяться в масштабе на несколько порядков. Использование floating-point позволяет модели тонко подстраиваться. Например, вес может быть равен 0.0023 или 123.45-и оба значения сохраняются с достаточной точностью.

Квантование-это метод, который снижает точность чисел в модели, чтобы сократить объем памяти. Однако это обычно приводит к компромиссу качества, особенно при 4-битной точности или ниже.

При преобразовании этих чисел в формат более низкой разрядности (например, 8-битные целые числа) происходит аппроксимация.

То есть сохраняется меньше битов, что делает вычисления более быстрыми и менее требовательными к памяти, но может привести к потере точности.

Задача состоит в том, чтобы сделать эту конверсию так, чтобы поведение модели оставалось практически неизменным, даже если внутри она работает с более грубыми приближениями Весов и активаций.

SINQ решает эти проблемы, предлагая готовое решение с высокой производительностью даже в режимах низкой точности – без необходимости в калибровочных данных или сложных межслойных зависимостях.

Как работает SINQ

Подход SINQ основан на двух основных новациях:

  1. Двухосное масштабирование (Dual-Axis Scaling): вместо одного коэффициента масштабирования для всей матрицы SINQ использует отдельные векторы масштабирования для строк и столбцов. Это уменьшает влияние выбросов и позволяет более гибко распределять погрешность квантования.

  2. Нормализация по принципу Sinkhorn-Knopp: быстрый алгоритм, вдохновленный итерациями Синкхорна, используется для нормализации стандартных отклонений строк и столбцов в матрице. Это помогает минимизировать так называемый «дисбаланс матрицы » -новую метрику, которая оказалась более эффективной, чем традиционные метрики, такие как эксцесс, в повышении точности квантования.

Комбинация этих двух подходов позволяет SINQ превосходить другие безкалибровочные методы, в частности RTN, HQQ и методы, основанные на преобразовании Адамара, по многим показателям.

Производительность и совместимость

SINQ был протестирован на широком спектре архитектур и моделей, включая Qwen3, LLaMA и DeepSeek.

На бенчмарках, таких как WikiText2 и C4, SINQ стабильно снижает перплексию и flip rate по сравнению с базовыми методами, часто приближаясь или даже достигая результатов калиброванных решений.

Метод также поддерживает неоднородные схемы квантования, такие как NF4, и может сочетаться с калибровкой AWQ, образуя вариант A-SINQ. В калиброванных настройках A-SINQ еще больше сокращает разрыв с моделями полной точности.

Что касается быстродействия, SINQ квантует модели примерно в два раза быстрее, чем HQQ, и более чем в 30 раз быстрее, чем AWQ, что делает его подходящим как для научных экспериментов, так и для промышленного использования, где время квантования является критическим фактором.

Открытый исходный код и простота использования

Huawei опубликовала SINQ как открытый проект под лицензией Apache 2.0, с подробными инструкциями по реализации и инструментами для воспроизводимости на GitHub.

Репозиторий содержит поддержку квантования моделей hugging Face с помощью нескольких строк кода, а также инструменты для сохранения и повторной загрузки квантованных Весов.

Параметры по умолчанию обеспечивают баланс между экономией памяти и точностью, но пользователи могут настраивать разрядность, стратегию разбиения на блоки и размер групп в зависимости от собственных потребностей.

Разработчики также добавили интеграцию для оценки через библиотеку lm-eval и планируют выпустить предварительно квантованные модели в hugging Face Hub в будущем.

Перспективы

С ростом спроса на запуск больших моделей на потребительском оборудовании квантование становится ключевым инструментом. SINQ стремится снизить входной барьер для развертывания LLM, позволяя разработчикам и исследователям эффективно сжимать модели без значительных потерь качества или совместимости.

Ожидаются дальнейшие обновления, в частности интеграция с hugging Face Transformers и публикация предварительно квантизированных моделей, что делает SINQ одним из самых перспективных проектов в области квантования.

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті