«MapReduce мертвий»: як друга редакція Designing Data-Intensive Applications підлаштувалася під епоху AI

23 Квітня 2026

Книжка «Designing Data‑Intensive Applications» (DDIA) Мартіна Клеппмана за дев’ять років встигла стати майже канонічним текстом для інженерів, які будують великі бекенд‑системи. У 2024‑му вийшла друга, суттєво оновлена редакція — і це не косметичний апдейт, а відображення того, як за десятиліття змінилася сама інфраструктура даних: від смерті MapReduce до появи векторних індексів і систем для AI‑навантажень.

diagram

У новому виданні до Клеппмана приєднався співатор Кріс Ріккоміні — інженер із великим досвідом побудови дата‑інфраструктури, автор книжки «The Missing README» та автор розсилки Materialized View про тренди в системах даних. Разом вони переосмислили, що сьогодні означає «дано‑інтенсивний застосунок» і які технології справді варто вивчати тим, хто будує системи на роки вперед.

Дев’ять років між виданнями: чому друга редакція вийшла саме зараз

Між першою та другою редакціями DDIA минуло приблизно дев’ять років. Для світу розподілених систем це ціла епоха. Те, що у 2015‑му виглядало як передова інфраструктура, сьогодні або стало фоном, або зникло з продакшену.

Перша редакція фіксувала перехід від монолітних баз даних до складних ландшафтів із логами, стрімінгом, NoSQL‑сховищами та сервісами, які масштабуються горизонтально. Вона багато в чому спиралася на досвід Клеппмана з LinkedIn, де він працював над Kafka та фреймворком Samza для обробки потоків. Саме там формувалося бачення логів, стрімів і інтеграції даних, яке стало кістяком першого видання.

За дев’ять років поверх цих ідей виросла нова реальність. Хмарні сервіси стали дефолтом, з’явилися керовані стрімінгові платформи, а головне — на сцену вийшли великі мовні моделі та AI‑системи, які створили новий клас навантажень на інфраструктуру даних.

Друга редакція вийшла саме в момент, коли стало очевидно: щоб залишатися корисною, книжка має не просто оновити приклади, а переосмислити, які абстракції сьогодні є базовими, а які перетворилися на історичні примітки.

«MapReduce мертвий»: чому з книжки зникла колись культова технологія

Одне з найпомітніших рішень у другому виданні — повне видалення матеріалу про MapReduce. Формулювання тут жорстке: MapReduce «мертвий», «ніхто більше ним не користується». І це не гіпербола, а тверезе визнання того, що колись центральна технологія для обробки великих даних фактично втратила значення в мейнстримній практиці.

MapReduce був символом першої хвилі «Big Data»: Hadoop‑кластери, офлайнові джоби, які ганялися ночами, і складні пайплайни, що будувалися навколо файлових систем на кшталт HDFS. Для інженерів середини 2010‑х розуміння MapReduce здавалося обов’язковою умовою роботи з великими даними.

Сьогодні ситуація інша. На зміну MapReduce прийшли:

системи потокової обробки, які працюють у режимі near real‑time,
високорівневі фреймворки, що приховують деталі виконання,
хмарні сервіси, де інженер рідко має справу з «чистим» MapReduce‑подібним API.

Для більшості команд, які будують сучасні дата‑продукти, MapReduce більше не є ні практичним інструментом, ні корисною ментальною моделлю. Його місце зайняли інші абстракції: журнали подій, стріми, матеріалізовані подання, DAG‑орієнтовані оркестратори.

Тому видалення MapReduce з другої редакції — це не ревізія історії, а сигнал: щоб зрозуміти сучасні системи, важливіші інші концепції. Книжка прагне бути не енциклопедією всього, що колись існувало, а практичним путівником по тому, що справді формує інфраструктуру сьогодні.

Від логів до векторів: як книжка підлаштувалася під AI‑навантаження

Якщо MapReduce пішов, то що прийшло на його місце? Одна з ключових новацій другої редакції — розширене висвітлення систем, які підтримують AI‑навантаження, насамперед векторних індексів.

Великі мовні моделі та інші AI‑системи змінили характер роботи з даними. Тепер важливо не лише зберігати й трансформувати структуровані записи, а й ефективно працювати з високовимірними векторними поданнями тексту, зображень чи інших об’єктів.

Векторні індекси стали базовим будівельним блоком для двох ключових сценаріїв:

По‑перше, це retrieval‑augmented generation (RAG) — підхід, коли LLM перед генерацією відповіді отримує ззовні релевантні фрагменти знань. Тут векторний індекс дозволяє зіставляти запит користувача з великою колекцією документів за семантичною близькістю, а не за точним збігом ключових слів.

По‑друге, це системи семантичного пошуку та similarity search, де завдання полягає в тому, щоб знайти «схожі» об’єкти — тексти, продукти, профілі — у високовимірному просторі.

Друга редакція DDIA розглядає ці системи не як окрему «AI‑магію», а як продовження еволюції інфраструктури даних. Векторні індекси вписуються в загальну картину поряд із традиційними B‑деревами, LSM‑структурами, логами подій і стрімінговими пайплайнами.

Це важливий зсув акцентів. Книжка не перетворюється на посібник із машинного навчання, але визнає: щоб будувати сучасні дата‑системи, інженеру потрібно розуміти, як працюють сховища, які обслуговують AI‑навантаження, які компроміси вони роблять між точністю, латентністю та ресурсами, і як вони інтегруються з рештою архітектури.

Другий голос у книжці: що привніс Кріс Ріккоміні

Ще одна суттєва зміна другої редакції — поява співатора. До Мартіна Клеппмана приєднався Кріс Ріккоміні, інженер, який багато років працює з великомасштабною дата‑інфраструктурою.

Ріккоміні відомий не лише як практик, а й як автор книжки «The Missing README». Ця робота сфокусована на тому, чого зазвичай не вчать на класичних курсах комп’ютерних наук: як працювати з продакшен‑системами, як читати й писати реальний код у великих командах, як мислити про підтримуваність, експлуатацію, еволюцію програмного забезпечення.

Крім того, він веде розсилку Materialized View, де системно відстежує й аналізує нові тренди в системах даних та інфраструктурі. Це постійний контакт із переднім краєм індустрії, де з’являються нові бази даних, стрімінгові платформи, формати зберігання й підходи до обробки.

Співаторство з Ріккоміні додає другій редакції ще один ракурс: книжка не лише спирається на академічну строгість і досвід Клеппмана, а й відображає практичні уроки з сучасних дата‑платформ, які будуються сьогодні.

Це особливо помітно в тому, як описуються компроміси реальних систем: не як абстрактні теореми, а як вибір між конкретними витратами — обчислювальними, фінансовими, організаційними. Наприклад, коли йдеться про мультизонні, мультирегіональні чи мультихмарні конфігурації, акцент робиться не лише на теоретичній доступності, а й на людських витратах на проєктування й операційне утримання таких систем.

Kafka, стріми й інтеграція даних: спадок першої редакції, який залишився

Попри великі зміни, друга редакція не відмовляється від фундаментів, які зробили DDIA впливовою. Один із таких фундаментів — бачення логів і потоків як базової абстракції для інтеграції даних, сформоване досвідом Клеппмана в LinkedIn.

Коли він приєднався до команди потокової обробки в LinkedIn, компанія щойно відкрила вихідний код Apache Kafka. Поверх Kafka там будували Samza — фреймворк для обробки стрімів. Цей досвід роботи з логами подій, стрімінговими пайплайнами та складними інтеграціями між сервісами безпосередньо ліг в основу першої редакції книжки.

У другому виданні ці ідеї не лише зберігаються, а й залишаються центральними. Логи, стріми, подієві журнали — усе це продовжує бути тим «клеєм», який зв’язує розподілені системи, дозволяє будувати реплікацію, матеріалізовані подання, ETL‑процеси й реактивні архітектури.

Навіть у світі AI‑систем, векторних індексів і RAG‑підходів дані все одно мають десь народжуватися, трансформуватися, версіонуватися й доставлятися. Стрімінгова інфраструктура, яку колись уособлювали Kafka й Samza, залишається критичною для того, щоб AI‑сервіси працювали на актуальних, узгоджених і відтворюваних даних.

Тому друга редакція радше розширює цю картину, ніж замінює її. Векторні індекси й AI‑сховища вписуються в ширшу екосистему, де журнали подій і стріми продовжують виконувати роль хребта.

Книжка для епохи високорівневих абстракцій

Окремий контекст, у якому виходить друга редакція, — це зростання ролі високорівневих абстракцій. Хмарні провайдери, керовані сервіси, платформи «дані як сервіс», а тепер ще й LLM‑агенти, які пишуть код, — усе це зменшує кількість інженерів, які щодня мають справу з «залізом» або низькорівневими деталями розподілених алгоритмів.

Це породжує природне питання: чи не зникає стимул розуміти нижні шари, якщо більшість роботи відбувається на рівні бізнес‑логіки й API?

Позиція, яка проглядається в новій редакції DDIA, досить прагматична. Якщо інженер справді працює лише з високорівневою бізнес‑логікою, то глибоке знання внутрішньої будови розподілених систем не завжди критично. Але як тільки команда починає покладатися на складну інфраструктуру — мультизонні й мультирегіональні розгортання, мультихмарні конфігурації, стрімінгові пайплайни, AI‑сховища — незнання нижніх шарів швидко перетворюється на ризик.

Друга редакція книжки намагається закрити саме цей розрив: дати інженерам, які працюють у світі високорівневих сервісів, достатньо глибоке розуміння фундаментів, щоб вони могли свідомо приймати рішення про доступність, узгодженість, масштабування й еволюцію систем.

При цьому акцент робиться не на тому, щоб змусити всіх писати власні розподілені бази даних, а на тому, щоб навчити читати між рядків документації хмарних сервісів, розуміти їхні гарантії й обмеження, бачити, де саме ховаються ризики.

Висновок: оновлений путівник по світу даних, де AI — не виняток, а норма

Друга редакція «Designing Data‑Intensive Applications» — це не просто «версія 2.0» популярної книжки, а спроба зафіксувати нову нормальність у світі систем даних.

За дев’ять років між виданнями MapReduce встиг пройти шлях від культової технології до історичної примітки, а векторні індекси — із вузькоспеціалізованого інструмента до базового компонента інфраструктури для AI. Логи й стріми, сформовані досвідом Kafka та Samza в LinkedIn, залишилися фундаментом, на який тепер накладаються нові шари — від RAG‑систем до семантичного пошуку.

Співаторство з Крісом Ріккоміні, автором «The Missing README» і розсилки Materialized View, додало книжці ще більше зв’язку з практикою: від реальних компромісів у продакшені до розуміння того, як еволюціонують дата‑платформи в індустрії.

У результаті друга редакція DDIA виглядає як саме той тип книжки, який потрібен інженерам у 2020‑х: достатньо фундаментальна, щоб пояснити незмінні принципи розподілених систем, і водночас достатньо оновлена, щоб говорити про векторні індекси й AI‑навантаження не як про екзотику, а як про частину повсякденної інфраструктури.

Джерело

Designing Data-intensive Applications with Martin Kleppmann — The Pragmatic Engineer

137

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

«MapReduce мертвий»: як друга редакція Designing Data-Intensive Applications підлаштувалася під епоху AI

Дев’ять років між виданнями: чому друга редакція вийшла саме зараз

«MapReduce мертвий»: чому з книжки зникла колись культова технологія

Від логів до векторів: як книжка підлаштувалася під AI‑навантаження

Другий голос у книжці: що привніс Кріс Ріккоміні

Kafka, стріми й інтеграція даних: спадок першої редакції, який залишився

Книжка для епохи високорівневих абстракцій

Висновок: оновлений путівник по світу даних, де AI — не виняток, а норма

Джерело

Про що пишуть 31 грудня

В App Store знайшли шкідливі програми

Користувачі Adobe Photoshop не можуть видалити його, якщо не віддадуть свої роботи

«Геопланировщик» напомнит о действии в нужном месте

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone у 1 кв. 2026 року: стабільність бізнесу та інвестиції у телеком-інфраструктуру України

Vodafone запускає 5G у міжнародному роумінгу

200 грн на місяць: Vodafone запустив акцію для клієнтів 55+

Vodafone інвестував у критичну інфраструктуру та технології більше 24 млрд грн

5G запустили на Головному залізничному вокзалі Львова

Статті

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

Чи можемо ми розмістити центри обробки даних у космосі?

П’ять телефонів, що поміщаються в долоні: найкращі компактні смартфони 2026 року

Класичний Google зник. Пошуковий очікує найбільша зміна за 25 років

П’ять років із мозковим імплантатом: як технологія повертає контроль над життям

ПОРАДИ

Як рис не врятує ваш телефон від води, але може його добити

Як смартфон на Android замінює офісну техніку та економить кошти

Як змусити Android перемикати світлу та темну теми залежно від освітлення по датчику світла

СТАТТІ

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

«MapReduce мертвий»: як друга редакція Designing Data-Intensive Applications підлаштувалася під епоху AI

Дев’ять років між виданнями: чому друга редакція вийшла саме зараз

«MapReduce мертвий»: чому з книжки зникла колись культова технологія

Від логів до векторів: як книжка підлаштувалася під AI‑навантаження

Другий голос у книжці: що привніс Кріс Ріккоміні

Kafka, стріми й інтеграція даних: спадок першої редакції, який залишився

Книжка для епохи високорівневих абстракцій

Висновок: оновлений путівник по світу даних, де AI — не виняток, а норма

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ