Книжка «Designing Data‑Intensive Applications» (DDIA) Мартіна Клеппмана за дев’ять років встигла стати майже канонічним текстом для інженерів, які будують великі бекенд‑системи. У 2024‑му вийшла друга, суттєво оновлена редакція — і це не косметичний апдейт, а відображення того, як за десятиліття змінилася сама інфраструктура даних: від смерті MapReduce до появи векторних індексів і систем для AI‑навантажень.

У новому виданні до Клеппмана приєднався співатор Кріс Ріккоміні — інженер із великим досвідом побудови дата‑інфраструктури, автор книжки «The Missing README» та автор розсилки Materialized View про тренди в системах даних. Разом вони переосмислили, що сьогодні означає «дано‑інтенсивний застосунок» і які технології справді варто вивчати тим, хто будує системи на роки вперед.
Дев’ять років між виданнями: чому друга редакція вийшла саме зараз
Між першою та другою редакціями DDIA минуло приблизно дев’ять років. Для світу розподілених систем це ціла епоха. Те, що у 2015‑му виглядало як передова інфраструктура, сьогодні або стало фоном, або зникло з продакшену.
Перша редакція фіксувала перехід від монолітних баз даних до складних ландшафтів із логами, стрімінгом, NoSQL‑сховищами та сервісами, які масштабуються горизонтально. Вона багато в чому спиралася на досвід Клеппмана з LinkedIn, де він працював над Kafka та фреймворком Samza для обробки потоків. Саме там формувалося бачення логів, стрімів і інтеграції даних, яке стало кістяком першого видання.
За дев’ять років поверх цих ідей виросла нова реальність. Хмарні сервіси стали дефолтом, з’явилися керовані стрімінгові платформи, а головне — на сцену вийшли великі мовні моделі та AI‑системи, які створили новий клас навантажень на інфраструктуру даних.
Друга редакція вийшла саме в момент, коли стало очевидно: щоб залишатися корисною, книжка має не просто оновити приклади, а переосмислити, які абстракції сьогодні є базовими, а які перетворилися на історичні примітки.
«MapReduce мертвий»: чому з книжки зникла колись культова технологія
Одне з найпомітніших рішень у другому виданні — повне видалення матеріалу про MapReduce. Формулювання тут жорстке: MapReduce «мертвий», «ніхто більше ним не користується». І це не гіпербола, а тверезе визнання того, що колись центральна технологія для обробки великих даних фактично втратила значення в мейнстримній практиці.
MapReduce був символом першої хвилі «Big Data»: Hadoop‑кластери, офлайнові джоби, які ганялися ночами, і складні пайплайни, що будувалися навколо файлових систем на кшталт HDFS. Для інженерів середини 2010‑х розуміння MapReduce здавалося обов’язковою умовою роботи з великими даними.
Сьогодні ситуація інша. На зміну MapReduce прийшли:
- системи потокової обробки, які працюють у режимі near real‑time,
- високорівневі фреймворки, що приховують деталі виконання,
- хмарні сервіси, де інженер рідко має справу з «чистим» MapReduce‑подібним API.
Для більшості команд, які будують сучасні дата‑продукти, MapReduce більше не є ні практичним інструментом, ні корисною ментальною моделлю. Його місце зайняли інші абстракції: журнали подій, стріми, матеріалізовані подання, DAG‑орієнтовані оркестратори.
Тому видалення MapReduce з другої редакції — це не ревізія історії, а сигнал: щоб зрозуміти сучасні системи, важливіші інші концепції. Книжка прагне бути не енциклопедією всього, що колись існувало, а практичним путівником по тому, що справді формує інфраструктуру сьогодні.
Від логів до векторів: як книжка підлаштувалася під AI‑навантаження
Якщо MapReduce пішов, то що прийшло на його місце? Одна з ключових новацій другої редакції — розширене висвітлення систем, які підтримують AI‑навантаження, насамперед векторних індексів.
Великі мовні моделі та інші AI‑системи змінили характер роботи з даними. Тепер важливо не лише зберігати й трансформувати структуровані записи, а й ефективно працювати з високовимірними векторними поданнями тексту, зображень чи інших об’єктів.
Векторні індекси стали базовим будівельним блоком для двох ключових сценаріїв:
По‑перше, це retrieval‑augmented generation (RAG) — підхід, коли LLM перед генерацією відповіді отримує ззовні релевантні фрагменти знань. Тут векторний індекс дозволяє зіставляти запит користувача з великою колекцією документів за семантичною близькістю, а не за точним збігом ключових слів.
По‑друге, це системи семантичного пошуку та similarity search, де завдання полягає в тому, щоб знайти «схожі» об’єкти — тексти, продукти, профілі — у високовимірному просторі.
Друга редакція DDIA розглядає ці системи не як окрему «AI‑магію», а як продовження еволюції інфраструктури даних. Векторні індекси вписуються в загальну картину поряд із традиційними B‑деревами, LSM‑структурами, логами подій і стрімінговими пайплайнами.
Це важливий зсув акцентів. Книжка не перетворюється на посібник із машинного навчання, але визнає: щоб будувати сучасні дата‑системи, інженеру потрібно розуміти, як працюють сховища, які обслуговують AI‑навантаження, які компроміси вони роблять між точністю, латентністю та ресурсами, і як вони інтегруються з рештою архітектури.
Другий голос у книжці: що привніс Кріс Ріккоміні
Ще одна суттєва зміна другої редакції — поява співатора. До Мартіна Клеппмана приєднався Кріс Ріккоміні, інженер, який багато років працює з великомасштабною дата‑інфраструктурою.
Ріккоміні відомий не лише як практик, а й як автор книжки «The Missing README». Ця робота сфокусована на тому, чого зазвичай не вчать на класичних курсах комп’ютерних наук: як працювати з продакшен‑системами, як читати й писати реальний код у великих командах, як мислити про підтримуваність, експлуатацію, еволюцію програмного забезпечення.
Крім того, він веде розсилку Materialized View, де системно відстежує й аналізує нові тренди в системах даних та інфраструктурі. Це постійний контакт із переднім краєм індустрії, де з’являються нові бази даних, стрімінгові платформи, формати зберігання й підходи до обробки.
Співаторство з Ріккоміні додає другій редакції ще один ракурс: книжка не лише спирається на академічну строгість і досвід Клеппмана, а й відображає практичні уроки з сучасних дата‑платформ, які будуються сьогодні.
Це особливо помітно в тому, як описуються компроміси реальних систем: не як абстрактні теореми, а як вибір між конкретними витратами — обчислювальними, фінансовими, організаційними. Наприклад, коли йдеться про мультизонні, мультирегіональні чи мультихмарні конфігурації, акцент робиться не лише на теоретичній доступності, а й на людських витратах на проєктування й операційне утримання таких систем.
Kafka, стріми й інтеграція даних: спадок першої редакції, який залишився
Попри великі зміни, друга редакція не відмовляється від фундаментів, які зробили DDIA впливовою. Один із таких фундаментів — бачення логів і потоків як базової абстракції для інтеграції даних, сформоване досвідом Клеппмана в LinkedIn.
Коли він приєднався до команди потокової обробки в LinkedIn, компанія щойно відкрила вихідний код Apache Kafka. Поверх Kafka там будували Samza — фреймворк для обробки стрімів. Цей досвід роботи з логами подій, стрімінговими пайплайнами та складними інтеграціями між сервісами безпосередньо ліг в основу першої редакції книжки.
У другому виданні ці ідеї не лише зберігаються, а й залишаються центральними. Логи, стріми, подієві журнали — усе це продовжує бути тим «клеєм», який зв’язує розподілені системи, дозволяє будувати реплікацію, матеріалізовані подання, ETL‑процеси й реактивні архітектури.
Навіть у світі AI‑систем, векторних індексів і RAG‑підходів дані все одно мають десь народжуватися, трансформуватися, версіонуватися й доставлятися. Стрімінгова інфраструктура, яку колись уособлювали Kafka й Samza, залишається критичною для того, щоб AI‑сервіси працювали на актуальних, узгоджених і відтворюваних даних.
Тому друга редакція радше розширює цю картину, ніж замінює її. Векторні індекси й AI‑сховища вписуються в ширшу екосистему, де журнали подій і стріми продовжують виконувати роль хребта.
Книжка для епохи високорівневих абстракцій
Окремий контекст, у якому виходить друга редакція, — це зростання ролі високорівневих абстракцій. Хмарні провайдери, керовані сервіси, платформи «дані як сервіс», а тепер ще й LLM‑агенти, які пишуть код, — усе це зменшує кількість інженерів, які щодня мають справу з «залізом» або низькорівневими деталями розподілених алгоритмів.
Це породжує природне питання: чи не зникає стимул розуміти нижні шари, якщо більшість роботи відбувається на рівні бізнес‑логіки й API?
Позиція, яка проглядається в новій редакції DDIA, досить прагматична. Якщо інженер справді працює лише з високорівневою бізнес‑логікою, то глибоке знання внутрішньої будови розподілених систем не завжди критично. Але як тільки команда починає покладатися на складну інфраструктуру — мультизонні й мультирегіональні розгортання, мультихмарні конфігурації, стрімінгові пайплайни, AI‑сховища — незнання нижніх шарів швидко перетворюється на ризик.
Друга редакція книжки намагається закрити саме цей розрив: дати інженерам, які працюють у світі високорівневих сервісів, достатньо глибоке розуміння фундаментів, щоб вони могли свідомо приймати рішення про доступність, узгодженість, масштабування й еволюцію систем.
При цьому акцент робиться не на тому, щоб змусити всіх писати власні розподілені бази даних, а на тому, щоб навчити читати між рядків документації хмарних сервісів, розуміти їхні гарантії й обмеження, бачити, де саме ховаються ризики.
Висновок: оновлений путівник по світу даних, де AI — не виняток, а норма
Друга редакція «Designing Data‑Intensive Applications» — це не просто «версія 2.0» популярної книжки, а спроба зафіксувати нову нормальність у світі систем даних.
За дев’ять років між виданнями MapReduce встиг пройти шлях від культової технології до історичної примітки, а векторні індекси — із вузькоспеціалізованого інструмента до базового компонента інфраструктури для AI. Логи й стріми, сформовані досвідом Kafka та Samza в LinkedIn, залишилися фундаментом, на який тепер накладаються нові шари — від RAG‑систем до семантичного пошуку.
Співаторство з Крісом Ріккоміні, автором «The Missing README» і розсилки Materialized View, додало книжці ще більше зв’язку з практикою: від реальних компромісів у продакшені до розуміння того, як еволюціонують дата‑платформи в індустрії.
У результаті друга редакція DDIA виглядає як саме той тип книжки, який потрібен інженерам у 2020‑х: достатньо фундаментальна, щоб пояснити незмінні принципи розподілених систем, і водночас достатньо оновлена, щоб говорити про векторні індекси й AI‑навантаження не як про екзотику, а як про частину повсякденної інфраструктури.
Джерело
Designing Data-intensive Applications with Martin Kleppmann — The Pragmatic Engineer


