Вівторок, 21 Квітня, 2026

Як запустити Gemma 4 та інші LLM прямо на iPhone за допомогою MLX

Запуск великих мовних моделей (LLM) безпосередньо на смартфоні вже перестав бути експериментом — це робочий інструмент для розробників. На сесії каналу AI Engineer розробник застосунку Locally AI Адрієн Гронден показав, як отримати до 40 токенів за секунду від Gemma 4 на iPhone, використовуючи фреймворк MLX від Apple. Нижче — структурований огляд підходу, інструментів та обмежень.

Running LLMs on your iPhone: 40 tok/s Gemma 4 with MLX — Adr


MLX: фреймворк Apple для локальних моделей

MLX — це фреймворк Apple, оптимізований під Apple Silicon:

  • працює на чипах iPhone, iPad та Mac;
  • орієнтований на максимально ефективне використання апаратних можливостей;
  • підтримує не лише текстові моделі, а й:
  • аудіо (MLX audio),
  • візуальні моделі (MLX VLM),
  • генерацію зображень та відео (MLX video),
  • мультимодальні сценарії (omni-моделі: text-to-speech, speech-to-speech тощо).

Екосистема MLX швидко розширюється: з’являються інструменти для тексту, зображень, відео та аудіо, а також бібліотеки від спільноти для різних мов програмування.


MLX Swift LM: швидкий шлях до LLM в iOS‑додатку

Для розробників під iOS, iPadOS та macOS ключовим елементом є репозиторій MLX Swift LM на GitHub. Це Swift‑пакет, який:

  • інтегрується в застосунок як бібліотека;
  • надає простий API для:
  • завантаження моделі,
  • запуску інференсу безпосередньо на пристрої;
  • дозволяє підняти базовий iOS‑додаток з локальною LLM менш ніж за 10 хвилин.

Архітектура типового рішення виглядає так:

  1. Додати MLX Swift LM у проєкт (через Swift Package Manager).
  2. Обрати модель на Hugging Face (див. нижче).
  3. Передати її ID у фреймворк.
  4. Дати MLX Swift LM автоматично завантажити ваги та запустити модель локально.

Для Python‑орієнтованих сценаріїв та macOS існують інші проєкти на базі MLX, зокрема MLX VLM та інструменти для аудіо й відео, які розвиває спільнота.


Де брати моделі: MLX community на Hugging Face

Основне джерело моделей для MLX — це MLX community на Hugging Face. Там публікуються:

  • повнорозмірні та квантизовані ваги моделей;
  • варіанти у 4‑, 5‑, 6‑, 8‑бітних форматах (та інших, як BF16, MXFP4 тощо);
  • тисячі моделей (орієнтовно 4–5 тисяч), які активно оновлюються.

Ключові особливості цього хабу:

  • нові моделі від лабораторій з’являються дуже швидко — приблизно за 30 хвилин після релізу вже доступні квантизовані версії (4‑, 6‑біт тощо);
  • підтримуються різні сімейства моделей:
  • Gemma 4 (Google),
  • Qwen,
  • невеликі LM з Hugging Face, оптимізовані під мобільні пристрої.

Щоб інтегрувати модель:

  1. Знайти її у MLX community на Hugging Face.
  2. Взяти ID репозиторію моделі.
  3. Передати цей ID у MLX Swift LM, який сам завантажить ваги та підготує модель до роботи.

Квантизація: як вмістити LLM в iPhone

Повні версії сучасних LLM надто великі для більшості смартфонів, тому квантизація — обов’язкова умова для запуску на iPhone.

Які налаштування мають сенс

  • Рекомендований діапазон: 4–8 біт.
  • Менше ніж 4 біти:
  • різко падає якість вихідного тексту;
  • моделі стають «не дуже корисними» для складних завдань.
  • 4 біти:
  • мінімальний прийнятний рівень для більшості сценаріїв.
  • 8 біт:
  • варто використовувати для менших моделей, де є запас по пам’яті;
  • дає кращу якість, але потребує більше ресурсів.

Приклад: Gemma 4 у 8‑бітній версії, додатково квантизованій до 4‑біт, на нових iPhone здатна видавати близько 40 токенів за секунду в режимі стримінгу. Це вже комфортна швидкість для більшості чат‑сценаріїв.

На старіших iPhone швидкість нижча, але навіть 20 токенів за секунду залишаються практично корисними для багатьох застосунків.

Малі моделі для автоматизації

Окремий клас — компактні моделі приблизно на 300–350 млн параметрів. Вони:

  • працюють дуже швидко;
  • підходять для:
  • текстової обробки,
  • простих автоматизацій,
  • інтеграції в Siri Shortcuts та інші сценарії, де важлива швидкість, а не «глибина» відповіді.

Продукти поверх MLX: Locally AI та LM Studio

На базі MLX вже з’являються готові інструменти для кінцевих користувачів і розробників.

Locally AI

Locally AI — це нативний чат‑застосунок для iPhone, iPad та macOS, який:

  • запускає моделі локально через MLX;
  • підтримує:
  • моделі на кшталт Gemma 4,
  • Apple Foundation Models,
  • добірку перевірених open‑source моделей, які гарантовано працюють на iPhone;
  • доступний безкоштовно в App Store.

Єдине суттєве обмеження для користувача — розмір моделей:

  • зазвичай від ~1 до 3 ГБ на модель;
  • це наразі головний бар’єр, але:
  • моделі стають меншими й розумнішими,
  • апаратні можливості iPhone з кожним поколінням зростають.

Інтеграція з LM Studio

Locally AI нещодавно було придбано LM Studio. LM Studio — це «студія» для локальних моделей, яка:

  • дозволяє завантажувати будь‑які моделі з Hugging Face;
  • підтримує різні рушії:
  • Llama.cpp,
  • MLX;
  • дає змогу:
  • запускати моделі локально,
  • піднімати локальний сервер з API‑сумісними відповідями:
    • у форматі OpenAI API,
    • у форматі Anthropic для стримінгу тощо;
  • підключати власні застосунки до цього сервера.

Це спрощує порівняння різних inference‑рушіїв (наприклад, Llama.cpp vs MLX) та інтеграцію локальних моделей у вже існуючі клієнти.


Інструментальні можливості: tool calling та структура відповідей

MLX Swift LM вже підтримує tool calling — режим, у якому модель може:

  • викликати зовнішні інструменти або сервіси;
  • працювати як «оркестратор» над системою з кількох сервісів.

Це важливо для побудови складніших агентів, які не лише генерують текст, а й виконують дії.

Натомість структурована генерація (жорстко задані JSON‑схеми тощо) ще не реалізована «з коробки» в MLX Swift LM. Над цим працюють сторонні пакети поверх бібліотеки, зокрема в екосистемі Hugging Face, але це поки що додатковий шар, а не базова функція.


Що це означає для розробників

Поточний стан екосистеми MLX та інструментів навколо неї показує, що:

  • запуск LLM на iPhone вже не вимагає складної інфраструктури;
  • інтеграція зводиться до:
  • підключення MLX Swift LM,
  • вибору моделі в MLX community на Hugging Face,
  • налаштування квантизації під цільовий пристрій;
  • швидкість на сучасних iPhone (до 40 токенів/с для Gemma 4 у 4‑бітному варіанті) достатня для реальних продуктів;
  • з’являються готові платформи (Locally AI, LM Studio), які дозволяють:
  • тестувати моделі без власної розробки,
  • будувати поверх них власні застосунки й сервіси.

З огляду на темпи розвитку MLX та зростання продуктивності мобільних чипів, локальні LLM на смартфонах поступово переходять із категорії «демо» в повноцінний робочий інструмент.


Джерело

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті