![]()
Локальні мовні моделі перестали бути забавкою для ентузіастів з топовими відеокартами. Завдяки десктопному застосунку LM Studio, про який розповідає канал KODARIK, запустити сучасний ШІ на власному комп’ютері тепер можна без терміналу, платних API й постійного інтернету — а ще під’єднати його до агентів, інструментів і навіть Claude Desktop.
Навіщо взагалі локальний ШІ
Локальна мовна модель — це аналог ChatGPT чи Gemini, який працює безпосередньо на вашому комп’ютері або сервері. Вона не досягає рівня хмарних флагманів на кшталт GPT‑4.5 чи Claude 4.7, але для більшості повсякденних задач цього й не потрібно. Натомість локальний підхід дає три ключові переваги.
1. Приватність даних
Коли ви надсилаєте документ у хмарний сервіс, він проходить через інтернет, потрапляє на сервери провайдера, там обробляється моделлю й лише потім повертається назад. Для внутрішніх документів компанії, медичних даних чи іншої чутливої інформації це часто неприйнятно.
Локальна модель працює на машині, яку контролюєте тільки ви. Документи не залишають ваш комп’ютер або приватний сервер, що дозволяє зберегти повну конфіденційність без складних юридичних угод і додаткових обмежень.
2. Менше цензури
Хмарні моделі на кшталт ChatGPT, Gemini чи Claude мають вбудовані фільтри й політики безпеки. Для більшості сценаріїв це плюс, але іноді цензура заважає — наприклад, у дослідницьких задачах, аналізі контенту чи роботі з «чутливими» темами.
Серед локальних моделей існують модифіковані варіанти з мінімальними обмеженнями або без них. Це не означає повну відсутність правил у кожної моделі, але вибір значно ширший, а контроль — на боці користувача.
3. Відсутність підписок і токен‑лімітів
Сучасний ШІ дорожчає: тарифи на API, платні плани, ліміти токенів. Локальна модель використовує ресурси вашого комп’ютера — оперативну пам’ять, диск, CPU/GPU — і не потребує щомісячних платежів за запити.
Раз запустили — і далі обмеження визначаються лише «залізом», а не рахунком у хмарному сервісі.
LM Studio: магазин моделей і чат в одному вікні
LM Studio — це десктопний застосунок для macOS, Windows і Linux, який поєднує в собі:
- інтерфейс чату в стилі ChatGPT;
- каталог локальних мовних моделей;
- інструменти для розробників (локальний API‑сервер, MCP‑інтеграції тощо).
Вибір і завантаження моделей
У розділі Model Search доступний великий список моделей з різною кількістю параметрів — від компактних до гігантів на десятки мільярдів. Ключові моменти:
- Параметри моделі (4B, 9B, 20B, 31B тощо)
Чим більше параметрів, тим модель зазвичай «розумніша», але тим більше ресурсів вона потребує: - більше місця на диску;
- більше оперативної пам’яті;
- вищі вимоги до GPU/CPU.
- Розмір на диску
Наприклад, модель Gemma 4 (4B) займає близько 6,3 ГБ. Для потужніших моделей обсяг може зростати кратно. - Можливості моделі
У списку відображаються піктограми й опис: - підтримка зображень;
- робота з інструментами;
- «глибоке мислення» (покращені можливості міркування).
Це дозволяє підібрати модель під конкретні задачі: тільки текст, аналіз PDF, робота з картинками тощо.
LM Studio також уміє фільтрувати список під можливості вашого комп’ютера. Якщо зняти відповідний чекбокс, з’являться й ті моделі, які «ймовірно занадто великі» для вашої машини: їх можна завантажити, але запуск буде або неможливий, або практично непридатний до роботи.
Приклад: Gemma 4B на MacBook M2 Pro
На MacBook з чипом M2 Pro, 16 ГБ RAM і ~12 ГБ відеопам’яті Gemma 4B показує такі результати:
- простий текстовий запит («Привіт, ти хто?»):
- ~11 секунд на «обдумування»;
- ~5 секунд на генерацію;
- швидкість близько 32 токени/с;
- відповідь на ~461 токен.
- аналіз PDF‑документа (договір на ~5 сторінок з таблицями):
- ~1 хвилина на повну обробку;
- коректне виділення сум і цін по позиціях.
- робота із зображенням:
- ~24 секунди на аналіз;
- детальний опис вмісту картинки.
Це не рівень дата‑центру, але для локального запуску на ноутбуці — цілком робочий сценарій.
Контекстне вікно й ресурси
Перед запуском моделі в LM Studio можна налаштувати:
- довжину контекстного вікна (кількість токенів, які модель «пам’ятає» в межах сесії);
- інші параметри генерації.
Наприклад, Gemma 4B підтримує до 131 000 токенів контексту. Зі збільшенням цього значення росте й споживання ресурсів. У застосунку відображається приблизний розрахунок навантаження на систему — це допомагає не «задушити» комп’ютер надто амбітними налаштуваннями.
Від чату до агента: MCP‑інструменти й інтеграції
Одна з найцікавіших можливостей LM Studio — підключення інструментів через протокол MCP (Model Context Protocol). По суті, це «руки» ШІ, які дозволяють моделі взаємодіяти з зовнішніми сервісами.
Як це працює
У вікні чату є кнопка Integrations (іконка молотка). Там відображаються:
- вбудовані інструменти (наприклад, JS Sandbox, R v1);
- кастомні MCP‑сервери, які користувач додає вручну.
Конфігурація зберігається у файлі mcp.json, де описуються MCP‑сервери: їхні URL, токени доступу, список інструментів тощо.
Приклад 1: керування публікаціями в соцмережах
Один із підключених MCP‑серверів — Postiz, сервіс для публікації контенту в соцмережах, розгорнутий на виділеному сервері. До нього вже прив’язані акаунти YouTube, Facebook, Instagram, Telegram та інші.
Сценарій:
- Активується MCP‑сервер Postiz у LM Studio.
- Моделі дається запит:
«Покажи список інтеграцій у Postiz» або «Покажи список підключених профілів соцмереж». - Модель:
- формує виклик MCP‑інструменту;
- запитує дозвіл на його використання;
- отримує й повертає список підключених профілів.
Далі можна просити модель сформувати й опублікувати пост у вибрані соцмережі — усе через звичайний текстовий діалог.
Приклад 2: завантаження контенту з Instagram через Apify
Ще один MCP‑сервер — Apify, платформа для веб‑скрейпінгу. У конфігурацію додається об’єкт з URL MCP‑сервера й токеном доступу (попередньо взятим з документації Apify).
Після підключення:
- Моделі надсилається посилання на пост в Instagram із проханням завантажити його.
- Спочатку модель помиляється, використовуючи невідповідний інструмент (отримує HTML‑код сторінки).
- Після уточнення, що треба застосувати конкретного актора Apify — Instagram Scraper:
- модель запитує інформацію про актора;
- викликає його;
- отримує структуровані дані, включно з прямим посиланням на відео.
Далі це відео можна передати в той самий Postiz для репосту в усі підключені соцмережі.
Важливий нюанс: контекст і ресурси
Кожен MCP‑сервер і його інструменти завантажуються в контекст моделі. Чим більше інструментів активовано одночасно, тим:
- більше потрібно контекстного вікна;
- вищі вимоги до пам’яті й продуктивності.
Рекомендація проста: тримати увімкненими лише ті MCP‑сервери, які потрібні в поточній сесії, а решту — відключати.
Локальна модель як бекенд для Claude Desktop
LM Studio вміє не лише запускати моделі локально, а й надавати до них доступ через API. Це відкриває шлях до інтеграції з агентами на кшталт Claude Desktop (Claude CoWork), OpenClaw чи Hermes.
Крок 1. Запуск локального API‑сервера в LM Studio
У розділі Developer вмикається локальний сервер:
- за замовчуванням він слухає на
127.0.0.1(localhost) з певним портом; - за потреби можна:
- дозволити доступ із локальної мережі (опція «Serve local network»);
- змінити порт;
- налаштувати аутентифікацію через токени.
Для безпеки створюється токен доступу, який потім використовується клієнтськими застосунками (агентами).
Якщо прокинути цей порт назовні (через Cloudflare Tunnel чи налаштування роутера), до локальної моделі зможуть звертатися агенти, розгорнуті на віддалених серверах.
Крок 2. Налаштування Claude CoWork
У десктопному застосунку Claude:
- Увімкнути Developer Mode:
- перейти в режим CoWork;
- відкрити
Help → Troubleshooting → Enable developer mode; - дочекатися перезапуску програми.
- У меню Developer обрати Configure third-party inference.
- Вказати:
- тип підключення — Gateway;
- URL — IP‑адресу й порт API‑сервера LM Studio (скопійовані з інтерфейсу);
- токен аутентифікації, створений у LM Studio.
- Застосувати налаштування й перезапустити Claude.
Після цього в списку моделей у Claude CoWork, поруч із Claude Sonnet чи Opus, з’являється, наприклад, Google Gemma 4, яка фактично працює локально через LM Studio.
Продуктивність і обмеження
Запити через Claude CoWork до локальної моделі обробляються помітно повільніше, ніж безпосередньо в LM Studio. Причини:
- CoWork використовує дуже велике контекстне вікно за замовчуванням;
- додається мережевий і протокольний оверхед між Claude і LM Studio.
На MacBook M2 Pro відповідь на простий запит («Привіт, ти хто?») через CoWork може займати кілька хвилин. Для більш потужних машин це буде швидше, але все одно повільніше, ніж прямий виклик моделі в LM Studio.
Попри це, підхід відкриває важливу можливість: використовувати знайому оболонку Claude CoWork, але з локальним, безкоштовним бекендом, мінімізуючи витрати на токени.
Висновки
LM Studio перетворює локальний запуск мовних моделей з «іграшки для гіків» на практичний інструмент:
- дає простий інтерфейс для роботи з моделями різного розміру й можливостей;
- дозволяє обробляти текст, PDF і зображення без передачі даних у хмару;
- через MCP‑інтеграції підключає моделі до зовнішніх сервісів — від соцмереж до скрейперів;
- надає локальний API, який можна використовувати в агентах на кшталт Claude CoWork.
Обмеження очевидні: потрібен достатньо потужний комп’ютер, а при складних сценаріях система помітно навантажується (аж до запуску активного охолодження на ноутбуці). Але для тих, хто хоче контролювати свої дані, уникати підписок і експериментувати з агентами, локальний ШІ через LM Studio стає все більш привабливою альтернативою хмарним сервісам.
Джерело
YouTube: Запускаємо AI ЛОКАЛЬНО: LM Studio + AI Агенти Безкоштовно


