Найпотужніший сьогодні суперкомп’ютер Frontier Національної лабораторії Оук-Ріджа ледве може пропрацювати день без апаратних збоїв. Це призводить до того, що машина не може вийти онлайн та працювати на всю свою потужність.
Frontier від ORNL — це перша в система, розроблена для забезпечення максимальної продуктивності до 1685 FP64 ExaFLOPS. Для цього використовуються 64-ядерні процесори AMD EPYC Trento, графічні процесори Instinct MI250X і з’єднання HPE Slingshot з потужністю 21 МВт. HPE створила систему та використала архітектуру Cray EX, розроблену для масштабованих програм, насамперед для надшвидких суперкомп’ютерів.
Хоча на папері суперкомп’ютер Frontier виглядає надзвичайно добре, схоже, що проблеми з апаратним забезпеченням продовжують переслідувати машину, щоб вона не виходила в режим онлайн і не була доступною для дослідників, що вимагає продуктивності близько 1 FP64 ExaFLOPS.
«У вас будуть невдачі в такому масштабі. Середній час між відмовами в системі такого розміру становить години, а не дні», — сказав Джастін Вітт, програмний директор Oak Ridge Leadership Computing Facility (OLCF), в інтерв’ю InsideHPC.
Чутки про потенційні апаратні збої Frontier ходять вже досить довго. Деякі говорили, що в системі виникли проблеми з підключенням Slingshot. Інші вказали, що обчислювальні графічні процесори AMD Instinct MI250X не були такими надійними, як очікувалося цього року.
Вітт не підтвердив, що система має якісь особливі проблеми з Instinct або Slingshot, але він наголосив, що машина страждає від численних апаратних проблем.
«Багато проблем зосереджено навколо цих графічних процесорів, але це не більшість проблем, які ми бачимо, — сказав керівник OLCF. – Це досить хороший розподіл серед звичайних винуватців поломок деталей, які були великою частиною цього. Я не думаю, що на даний момент ми сильно занепокоєні продукцією AMD».
Суперкомп’ютер Frontier Національної лабораторії Оук-Ріджа — далеко не єдина система, яка використовує архітектуру Cray EX від HPE із з’єднаннями Slingshot, процесори EPYC від AMD і обчислювальні графічні процесори Instinct від AMD.
Наприклад, фінський суперкомп’ютер Lumi (обчислювальні графічні процесори Cray EX, EPYC Milan, Instinct MI250X) забезпечує максимальну продуктивність 550 петафлопс і офіційно визнаний третім найпотужнішим суперкомп’ютером у світі. Можливо, проблема актуальна з масштабом машини, яка використовує в цілому 60 мільйонів деталей.
Лише час покаже, чи суперкомп’ютер Frontier, який спочатку обіцяли запустити в 2022 році, стане доступним для дослідників з 2023 року. Наразі він офіційно ще не розгорнутий.