Четвер, 23 Квітня, 2026

«MapReduce мертвий»: як друга редакція Designing Data-Intensive Applications підлаштувалася під епоху AI

Книжка «Designing Data‑Intensive Applications» (DDIA) Мартіна Клеппмана за дев’ять років встигла стати майже канонічним текстом для інженерів, які будують великі бекенд‑системи. У 2024‑му вийшла друга, суттєво оновлена редакція — і це не косметичний апдейт, а відображення того, як за десятиліття змінилася сама інфраструктура даних: від смерті MapReduce до появи векторних індексів і систем для AI‑навантажень.

diagram

У новому виданні до Клеппмана приєднався співатор Кріс Ріккоміні — інженер із великим досвідом побудови дата‑інфраструктури, автор книжки «The Missing README» та автор розсилки Materialized View про тренди в системах даних. Разом вони переосмислили, що сьогодні означає «дано‑інтенсивний застосунок» і які технології справді варто вивчати тим, хто будує системи на роки вперед.

Дев’ять років між виданнями: чому друга редакція вийшла саме зараз

Між першою та другою редакціями DDIA минуло приблизно дев’ять років. Для світу розподілених систем це ціла епоха. Те, що у 2015‑му виглядало як передова інфраструктура, сьогодні або стало фоном, або зникло з продакшену.

Перша редакція фіксувала перехід від монолітних баз даних до складних ландшафтів із логами, стрімінгом, NoSQL‑сховищами та сервісами, які масштабуються горизонтально. Вона багато в чому спиралася на досвід Клеппмана з LinkedIn, де він працював над Kafka та фреймворком Samza для обробки потоків. Саме там формувалося бачення логів, стрімів і інтеграції даних, яке стало кістяком першого видання.

За дев’ять років поверх цих ідей виросла нова реальність. Хмарні сервіси стали дефолтом, з’явилися керовані стрімінгові платформи, а головне — на сцену вийшли великі мовні моделі та AI‑системи, які створили новий клас навантажень на інфраструктуру даних.

Друга редакція вийшла саме в момент, коли стало очевидно: щоб залишатися корисною, книжка має не просто оновити приклади, а переосмислити, які абстракції сьогодні є базовими, а які перетворилися на історичні примітки.

«MapReduce мертвий»: чому з книжки зникла колись культова технологія

Одне з найпомітніших рішень у другому виданні — повне видалення матеріалу про MapReduce. Формулювання тут жорстке: MapReduce «мертвий», «ніхто більше ним не користується». І це не гіпербола, а тверезе визнання того, що колись центральна технологія для обробки великих даних фактично втратила значення в мейнстримній практиці.

MapReduce був символом першої хвилі «Big Data»: Hadoop‑кластери, офлайнові джоби, які ганялися ночами, і складні пайплайни, що будувалися навколо файлових систем на кшталт HDFS. Для інженерів середини 2010‑х розуміння MapReduce здавалося обов’язковою умовою роботи з великими даними.

Сьогодні ситуація інша. На зміну MapReduce прийшли:

  • системи потокової обробки, які працюють у режимі near real‑time,
  • високорівневі фреймворки, що приховують деталі виконання,
  • хмарні сервіси, де інженер рідко має справу з «чистим» MapReduce‑подібним API.

Для більшості команд, які будують сучасні дата‑продукти, MapReduce більше не є ні практичним інструментом, ні корисною ментальною моделлю. Його місце зайняли інші абстракції: журнали подій, стріми, матеріалізовані подання, DAG‑орієнтовані оркестратори.

Тому видалення MapReduce з другої редакції — це не ревізія історії, а сигнал: щоб зрозуміти сучасні системи, важливіші інші концепції. Книжка прагне бути не енциклопедією всього, що колись існувало, а практичним путівником по тому, що справді формує інфраструктуру сьогодні.

Від логів до векторів: як книжка підлаштувалася під AI‑навантаження

Якщо MapReduce пішов, то що прийшло на його місце? Одна з ключових новацій другої редакції — розширене висвітлення систем, які підтримують AI‑навантаження, насамперед векторних індексів.

Великі мовні моделі та інші AI‑системи змінили характер роботи з даними. Тепер важливо не лише зберігати й трансформувати структуровані записи, а й ефективно працювати з високовимірними векторними поданнями тексту, зображень чи інших об’єктів.

Векторні індекси стали базовим будівельним блоком для двох ключових сценаріїв:

По‑перше, це retrieval‑augmented generation (RAG) — підхід, коли LLM перед генерацією відповіді отримує ззовні релевантні фрагменти знань. Тут векторний індекс дозволяє зіставляти запит користувача з великою колекцією документів за семантичною близькістю, а не за точним збігом ключових слів.

По‑друге, це системи семантичного пошуку та similarity search, де завдання полягає в тому, щоб знайти «схожі» об’єкти — тексти, продукти, профілі — у високовимірному просторі.

Друга редакція DDIA розглядає ці системи не як окрему «AI‑магію», а як продовження еволюції інфраструктури даних. Векторні індекси вписуються в загальну картину поряд із традиційними B‑деревами, LSM‑структурами, логами подій і стрімінговими пайплайнами.

Це важливий зсув акцентів. Книжка не перетворюється на посібник із машинного навчання, але визнає: щоб будувати сучасні дата‑системи, інженеру потрібно розуміти, як працюють сховища, які обслуговують AI‑навантаження, які компроміси вони роблять між точністю, латентністю та ресурсами, і як вони інтегруються з рештою архітектури.

Другий голос у книжці: що привніс Кріс Ріккоміні

Ще одна суттєва зміна другої редакції — поява співатора. До Мартіна Клеппмана приєднався Кріс Ріккоміні, інженер, який багато років працює з великомасштабною дата‑інфраструктурою.

Ріккоміні відомий не лише як практик, а й як автор книжки «The Missing README». Ця робота сфокусована на тому, чого зазвичай не вчать на класичних курсах комп’ютерних наук: як працювати з продакшен‑системами, як читати й писати реальний код у великих командах, як мислити про підтримуваність, експлуатацію, еволюцію програмного забезпечення.

Крім того, він веде розсилку Materialized View, де системно відстежує й аналізує нові тренди в системах даних та інфраструктурі. Це постійний контакт із переднім краєм індустрії, де з’являються нові бази даних, стрімінгові платформи, формати зберігання й підходи до обробки.

Співаторство з Ріккоміні додає другій редакції ще один ракурс: книжка не лише спирається на академічну строгість і досвід Клеппмана, а й відображає практичні уроки з сучасних дата‑платформ, які будуються сьогодні.

Це особливо помітно в тому, як описуються компроміси реальних систем: не як абстрактні теореми, а як вибір між конкретними витратами — обчислювальними, фінансовими, організаційними. Наприклад, коли йдеться про мультизонні, мультирегіональні чи мультихмарні конфігурації, акцент робиться не лише на теоретичній доступності, а й на людських витратах на проєктування й операційне утримання таких систем.

Kafka, стріми й інтеграція даних: спадок першої редакції, який залишився

Попри великі зміни, друга редакція не відмовляється від фундаментів, які зробили DDIA впливовою. Один із таких фундаментів — бачення логів і потоків як базової абстракції для інтеграції даних, сформоване досвідом Клеппмана в LinkedIn.

Коли він приєднався до команди потокової обробки в LinkedIn, компанія щойно відкрила вихідний код Apache Kafka. Поверх Kafka там будували Samza — фреймворк для обробки стрімів. Цей досвід роботи з логами подій, стрімінговими пайплайнами та складними інтеграціями між сервісами безпосередньо ліг в основу першої редакції книжки.

У другому виданні ці ідеї не лише зберігаються, а й залишаються центральними. Логи, стріми, подієві журнали — усе це продовжує бути тим «клеєм», який зв’язує розподілені системи, дозволяє будувати реплікацію, матеріалізовані подання, ETL‑процеси й реактивні архітектури.

Навіть у світі AI‑систем, векторних індексів і RAG‑підходів дані все одно мають десь народжуватися, трансформуватися, версіонуватися й доставлятися. Стрімінгова інфраструктура, яку колись уособлювали Kafka й Samza, залишається критичною для того, щоб AI‑сервіси працювали на актуальних, узгоджених і відтворюваних даних.

Тому друга редакція радше розширює цю картину, ніж замінює її. Векторні індекси й AI‑сховища вписуються в ширшу екосистему, де журнали подій і стріми продовжують виконувати роль хребта.

Книжка для епохи високорівневих абстракцій

Окремий контекст, у якому виходить друга редакція, — це зростання ролі високорівневих абстракцій. Хмарні провайдери, керовані сервіси, платформи «дані як сервіс», а тепер ще й LLM‑агенти, які пишуть код, — усе це зменшує кількість інженерів, які щодня мають справу з «залізом» або низькорівневими деталями розподілених алгоритмів.

Це породжує природне питання: чи не зникає стимул розуміти нижні шари, якщо більшість роботи відбувається на рівні бізнес‑логіки й API?

Позиція, яка проглядається в новій редакції DDIA, досить прагматична. Якщо інженер справді працює лише з високорівневою бізнес‑логікою, то глибоке знання внутрішньої будови розподілених систем не завжди критично. Але як тільки команда починає покладатися на складну інфраструктуру — мультизонні й мультирегіональні розгортання, мультихмарні конфігурації, стрімінгові пайплайни, AI‑сховища — незнання нижніх шарів швидко перетворюється на ризик.

Друга редакція книжки намагається закрити саме цей розрив: дати інженерам, які працюють у світі високорівневих сервісів, достатньо глибоке розуміння фундаментів, щоб вони могли свідомо приймати рішення про доступність, узгодженість, масштабування й еволюцію систем.

При цьому акцент робиться не на тому, щоб змусити всіх писати власні розподілені бази даних, а на тому, щоб навчити читати між рядків документації хмарних сервісів, розуміти їхні гарантії й обмеження, бачити, де саме ховаються ризики.

Висновок: оновлений путівник по світу даних, де AI — не виняток, а норма

Друга редакція «Designing Data‑Intensive Applications» — це не просто «версія 2.0» популярної книжки, а спроба зафіксувати нову нормальність у світі систем даних.

За дев’ять років між виданнями MapReduce встиг пройти шлях від культової технології до історичної примітки, а векторні індекси — із вузькоспеціалізованого інструмента до базового компонента інфраструктури для AI. Логи й стріми, сформовані досвідом Kafka та Samza в LinkedIn, залишилися фундаментом, на який тепер накладаються нові шари — від RAG‑систем до семантичного пошуку.

Співаторство з Крісом Ріккоміні, автором «The Missing README» і розсилки Materialized View, додало книжці ще більше зв’язку з практикою: від реальних компромісів у продакшені до розуміння того, як еволюціонують дата‑платформи в індустрії.

У результаті друга редакція DDIA виглядає як саме той тип книжки, який потрібен інженерам у 2020‑х: достатньо фундаментальна, щоб пояснити незмінні принципи розподілених систем, і водночас достатньо оновлена, щоб говорити про векторні індекси й AI‑навантаження не як про екзотику, а як про частину повсякденної інфраструктури.


Джерело

Designing Data-intensive Applications with Martin Kleppmann — The Pragmatic Engineer

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті