Дата-сайєнс часто виглядає як набір розрізнених понять — від крос‑валідації й дрейфу до кластеризації та синтетичних даних. Команда IBM Technology пропонує розглядати цю сферу як «періодичну таблицю» елементів, яка показує, як методи, етапи та моделі з’єднуються в цілісний робочий процес — від сирих даних до валідованих інсайтів.
Логіка «періодичної таблиці» дата-сайєнсу
Запропонована структура не є офіційним стандартом, а радше концептуальною картою галузі. Вона організована за двома вимірами:
- Рядки — показують «зрілість» даних:
- сирі (raw data)
- підготовлені (prepared data)
- модельні (model data)
-
валідовані інсайти (validated insights)
-
Колонки (групи) — відображають тип аналітичної діяльності:
- від отримання й обробки даних
- до моделювання, узагальнення
- і зрештою — до оцінювання якості та надійності
Кожна комірка — це умовний «елемент дата-сайєнсу»: конкретна техніка, модель або процес, прив’язаний до певного етапу життєвого циклу аналітики. Ідея в тому, що, розуміючи, де саме в таблиці розташована технологія, можна побачити:
- як вона взаємодіє з іншими;
- які кроки були виконані в проєкті;
- що потенційно «випало» з системи.
Від сирих до підготовлених даних: ETL, ingest, кодування та очищення
На початку будь-якого дата-сайєнс‑процесу — сирі дані. Саме тут з’являються базові «елементи».
ET (Extract–Transform–Load)
Елемент ET відповідає за класичний ETL‑процес — витяг, трансформацію та завантаження даних. Його завдання — перемістити інформацію з джерел у централізовану систему:
- базу даних;
- таблицю;
- або навіть неструктуроване «сховище» (data lake).
Це найближчий рівень до «оригіналу», де дані ще мало оброблені, але вже доступні для подальших операцій.
Di (Data Ingest)
Наступний елемент — Di, або інжест даних. Це набір стримінгових або пакетних операторів, які обробляють потоки інформації:
- приймання даних у реальному часі;
- періодичне завантаження великих обсягів.
На цьому етапі формується підготовлений шар: дані вже організовані доволі добре, щоб їх можна було кодувати, очищувати й аналізувати.
En (Data Encoding)
Елемент En — кодування даних. Його роль — перетворити категорії, текстові поля чи дати на числові представлення, з якими можуть працювати моделі машинного навчання. Це можуть бути:
- числові індекси для категорій;
- векторні подання текстів;
- числова нормалізація дат і часу.
Cd (Data Cleansing) та Re (Regression)
Далі в «верхньому» шарі з’являється Cd — очищення даних. Це фільтрація шуму, виправлення помилок, обробка пропусків — все, що підвищує якість вхідної інформації.
Після цього вступає елемент Re — регресія. Він використовується для оцінювання взаємозв’язків між змінними:
- побудова регресійних моделей;
- аналіз впливу факторів;
- прогнозування безпосередньо на основі очищених та закодованих даних.
Sy (Synthetic Data) і перехід до оцінки
Знання про структуру даних і зв’язки між змінними дозволяють застосувати елемент Sy — синтетичні дані. Це генерація додаткових прикладів, які:
- розширюють набір даних;
- покращують збалансованість класів;
- допомагають тестувати моделі без доступу дочутливих реальних даних.
Ці кроки завершують «верхній» рівень і підводять до групи оцінки.
Оцінка якості: метрики, крос‑валідація, пояснюваність і дрейф
Окрема група таблиці присвячена тому, як виміряти й зрозуміти якість моделей та їхню поведінку.
Me (Metrics & Evaluation) та Va (Cross Validation)
Елемент Me — це метрики та оцінка. Він охоплює:
- обчислення точності, повноти, F‑міри та інших показників;
- загальне оцінювання якості роботи моделей.
Наступний елемент, Va, — крос‑валідація. Це метод перевірки стійкості моделі:
- дані розбиваються на різні частини для навчання й тестування;
- ролі частин циклічно змінюються;
- оцінка усереднюється, що зменшує ризик випадкового «щасливого» спліта.
Ex (Explainability) та Dr (Drift)
Навіть за наявності гарних метрик критично важливо розуміти, чому модель приймає певні рішення. Тут з’являється Ex — пояснюваність. Його завдання:
- показати важливість окремих ознак;
- пояснити, як зміни у вхідних даних впливають на прогноз.
З часом розподіл даних або умови, в яких застосовується модель, можуть змінюватися. Ці зміни фіксує Dr — дрейф. Він відстежує:
- зсув розподілу вхідних даних;
- деградацію якості моделі;
- розбіжності між історичними й поточними даними.
Ba (Bayesian Models) та Bo (Bootstrapping)
У цьому ж блоці розташований елемент Ba — байєсівські моделі. Вони:
- описують невизначеність через розподіли;
- використовують апріорні знання;
- оновлюють оцінки у світлі нових даних.
Завершує рядок елемент Bo — бутстрепінг. Це техніка, яка:
- створює багато повторно вибраних підмножин даних;
- дозволяє оцінити варіативність моделей;
- будувати довірчі інтервали для оцінок і метрик.
Від модельних даних до валідованих інсайтів
На наступному рівні таблиці йдеться про структурування, керування й поглиблений аналіз даних та моделей.
St (Structured Data) і Go (Data Governance)
Елемент St позначає структуровані дані. Це:
- таблиці з чіткими схемами;
- графові структури;
- організовані представлення, які спрощують доступ і аналіз.
На рівні валідованих інсайтів ключову роль відіграє Go — data governance. Він охоплює:
- правила якості даних;
- політики безпеки та доступу;
- відповідність вимогам комплаєнсу.
Без чіткого управління даними навіть найскладніші моделі втрачають цінність — інсайти не можна вважати надійними чи безпечними.
PC (Principal Component Analysis), Es (Ensemble) та Si (Simulation)
Для роботи з високовимірними даними застосовується елемент PC — метод головних компонент. Він:
- зменшує кількість вимірів;
- зберігає найбільшу частку дисперсії;
- дозволяє спростити дані без критичної втрати інформації.
Щоб підвищити якість прогнозів, використовують Es — ансамблеві моделі. Це системи, де:
- різні моделі «голосують» за результат;
- комбінується сильні сторони окремих алгоритмів;
- зменшується вплив випадкових помилок окремої моделі.
Елемент Si — симуляція — дає змогу створювати гіпотетичні сценарії та:
- моделювати можливі результати;
- тестувати «що, якщо»‑ситуації;
- оцінювати ризики та потенційні стратегії.
Ag (Aggregation), Cl (Clustering) та Dg (Distribution Generation)
Для підсумовування результатів та загальної статистики використовується Ag — агрегація. Це:
- обчислення сум, середніх, кількостей;
- застосування статистичних методів до груп даних.
На основі таких узагальнень можна переходити до Cl — кластеризації. Це:
- пошук природних груп у даних;
- виявлення патернів без наявності міток (unsupervised learning).
Для роботи з розподілами застосовується елемент Dg — генерація розподілів. Він передбачає використання методів:
- оцінки щільності розподілу;
- побудови генеративних моделей;
- створення нових прикладів на основі вивченого розподілу.
Квантний додаток: Qa, Qe, Qo, Qs, Qn
Окремий блок у концепції — квантний «додаток» за межами класичного обчислення. Він показує, як елементи дата-сайєнсу можуть перейматися в квантовий домен.
Qa (Quantum Accessible Memory) і Qe (Quantum Encoding)
Елемент Qa — квантово доступна пам’ять. Його завдання — забезпечити можливість:
- переміщати класичні або квантові дані до квантових схем;
- повертати результати назад у класичні системи.
Далі йде Qe — квантове кодування. Це кодування класичних даних у кубіти за допомогою:
- амплітудного кодування;
- кодування в базисі;
- кутового (angle) кодування.
Qo (Quantum Modeling), Qs (Quantum States) та Qn (Quantum Evaluation)
Елемент Qo — квантове моделювання — поєднує кубіти та класичні техніки для створення квантових алгоритмів машинного навчання.
Qs — це робота з квантовими синтетичними станами:
- створення нових квантових станів;
- використання їх для тестування й симуляцій.
Завершує цей блок Qn — оцінка квантових систем. Він включає вимірювання:
- точності квантових прогнозів;
- «вірності» (fidelity) станів;
- втрат (loss) у квантових моделях.
Навіщо дата-сайєнсу своя «періодична таблиця»
Структурування методів у вигляді періодичної таблиці перетворює дата-сайєнс з «набору модних термінів» на карту, якою можна користуватися:
- для аналізу рішень і демо — видно, які елементи застосовано, як вони пов’язані та що може бути відсутнім;
- для проєктування системи — можна послідовно вибудувати ETL, моделювання, оцінювання й керування даними;
- для навчання й комунікації — легше пояснювати, на якому рівні зрілості перебувають дані й які операції над ними виконуються.
Коли кожен елемент має чітке місце й роль, дата-сайєнс перетворюється на структурований ландшафт, яким можна впевнено навігувати — як під час оцінки сторонніх продуктів, так і при створенні власних аналітичних рішень.
Джерело
Data Science Periodic Table Explained: ML, ETL, Analytics & Workflow — IBM Technology


