Пятница, 3 мая, 2024

Самый быстрый в мире суперкомпьютер и дня не может работать без сбоев

Самый мощный сегодня суперкомпьютер Frontier Национальной лаборатории Оук-Риджа с трудом может проработать день без аппаратных сбоев. Это приводит к тому, что машина не может выйти в Интернет и работать на всю свою мощность.

Frontier от ORNL – это первая в система, разработанная для обеспечения максимальной производительности до 1685 FP64 ExaFLOPS. Для этого используются 64-ядерные процессоры AMD EPYC Trento, графические процессоры Instinct MI250X и соединение HPE Slingshot с мощностью 21 МВт. HPE создала систему и использовала архитектуру Cray EX, разработанную для масштабируемых программ, в первую очередь для сверхбыстрых суперкомпьютеров.

Хотя на бумаге суперкомпьютер Frontier выглядит очень хорошо, похоже, что проблемы с аппаратным обеспечением продолжают преследовать машину, чтобы она не выходила в режим онлайн и не была доступна исследователям, требующим производительности около 1 FP64 ExaFLOPS.

«У вас будут неудачи в таком масштабе. Среднее время между отказами в системе такого размера составляет часы, а не дни», – сказал Джастин Витт, программный директор Oak Ridge Leadership Computing Facility (OLCF), в интервью InsideHPC.

Слухи о потенциальных аппаратных сбоях Frontier ходят уже достаточно долго. Некоторые говорили, что в системе возникли проблемы с подключением Slingshot. Другие указали, что вычислительные графические процессоры AMD Instinct MI250X не были столь надежными, как ожидалось в этом году.Витт не подтвердил, что система испытывает какие-то особые проблемы с Instinct или Slingshot, но он подчеркнул, что машина страдает от многочисленных аппаратных проблем.

«Многие проблемы сосредоточены вокруг этих графических процессоров, но это не большинство проблем, которые мы видим, — сказал руководитель OLCF. – Это достаточно хорошее распределение среди обычных виновников поломок деталей, которые были большой частью этого. Я не думаю, что сейчас мы сильно обеспокоены продукцией AMD».

Суперкомпьютер Frontier Национальной лаборатории Оук-Риджа – далеко не единственная система, использующая архитектуру Cray EX от HPE с соединениями Slingshot, процессоры EPYC от AMD и вычислительные графические процессоры Instinct от AMD.

К примеру, финский суперкомпьютер Lumi (вычислительные графические процессоры Cray EX, EPYC Milan, Instinct MI250X) обеспечивает максимальную производительность 550 петафлопс и официально признан третьим мощным суперкомпьютером в мире. Возможно, проблема актуальна с масштабом машины, использующей в общей сложности 60 миллионов деталей.

Лишь время покажет, станет ли суперкомпьютер Frontier, который изначально обещали запустить в 2022 году, доступным для исследователей с 2023 года. Пока он официально еще не развернут.

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися