Самый мощный сегодня суперкомпьютер Frontier Национальной лаборатории Оук-Риджа с трудом может проработать день без аппаратных сбоев. Это приводит к тому, что машина не может выйти в Интернет и работать на всю свою мощность.
Frontier от ORNL – это первая в система, разработанная для обеспечения максимальной производительности до 1685 FP64 ExaFLOPS. Для этого используются 64-ядерные процессоры AMD EPYC Trento, графические процессоры Instinct MI250X и соединение HPE Slingshot с мощностью 21 МВт. HPE создала систему и использовала архитектуру Cray EX, разработанную для масштабируемых программ, в первую очередь для сверхбыстрых суперкомпьютеров.
Хотя на бумаге суперкомпьютер Frontier выглядит очень хорошо, похоже, что проблемы с аппаратным обеспечением продолжают преследовать машину, чтобы она не выходила в режим онлайн и не была доступна исследователям, требующим производительности около 1 FP64 ExaFLOPS.
«У вас будут неудачи в таком масштабе. Среднее время между отказами в системе такого размера составляет часы, а не дни», – сказал Джастин Витт, программный директор Oak Ridge Leadership Computing Facility (OLCF), в интервью InsideHPC.
Слухи о потенциальных аппаратных сбоях Frontier ходят уже достаточно долго. Некоторые говорили, что в системе возникли проблемы с подключением Slingshot. Другие указали, что вычислительные графические процессоры AMD Instinct MI250X не были столь надежными, как ожидалось в этом году.Витт не подтвердил, что система испытывает какие-то особые проблемы с Instinct или Slingshot, но он подчеркнул, что машина страдает от многочисленных аппаратных проблем.
«Многие проблемы сосредоточены вокруг этих графических процессоров, но это не большинство проблем, которые мы видим, — сказал руководитель OLCF. – Это достаточно хорошее распределение среди обычных виновников поломок деталей, которые были большой частью этого. Я не думаю, что сейчас мы сильно обеспокоены продукцией AMD».
Суперкомпьютер Frontier Национальной лаборатории Оук-Риджа – далеко не единственная система, использующая архитектуру Cray EX от HPE с соединениями Slingshot, процессоры EPYC от AMD и вычислительные графические процессоры Instinct от AMD.
К примеру, финский суперкомпьютер Lumi (вычислительные графические процессоры Cray EX, EPYC Milan, Instinct MI250X) обеспечивает максимальную производительность 550 петафлопс и официально признан третьим мощным суперкомпьютером в мире. Возможно, проблема актуальна с масштабом машины, использующей в общей сложности 60 миллионов деталей.
Лишь время покажет, станет ли суперкомпьютер Frontier, который изначально обещали запустить в 2022 году, доступным для исследователей с 2023 года. Пока он официально еще не развернут.