Накануне десяти в восьмой степени операций в секунду

18.01.2021

Источник: СТИМУЛ, 18.01.2021, Алексей Андреев



Помимо компьютерного моделирования главными задачами суперкомпьютерных вычислений становятся искусственный интеллект и анализ больших данных, уверены в Межведомственном суперкомпьютерном центре РАН

Ресурсами Межведомственного суперкомпьютерного центра РАН (МСЦ РАН) пользуются более 120 научно-исследовательских групп. Они выполняют проекты для решения фундаментальных и прикладных задач в самых различных областях. Это здравоохранение, аэрогидродинамика, молекулярная динамика, квантовая химия, исследование свойств материалов, моделирование природно-климатических процессов и многое другое.

«Сто двадцать организаций — кажется, это небольшое количество, потому что мы знаем, что у нас только в Министерстве науки и высшего образования порядка 700 организаций, — отметил в ходе онлайн-презентации достижений МСЦ РАН Борис Шабанов, директор центра с 2015 года, — но это те ведущие школы, которые пришли к нам и освоили эту работу на таком сложном инструменте. За двадцать лет у нас в центре работали более 2100 пользователей, выполнено более четырех миллионов заданий. В настоящее время мы выполняем где-то порядка 150‒200 тысяч заданий в год».

СУПЕРКОМПЬЮТЕР НЕ САМОЦЕЛЬ

Суммарная пиковая производительность вычислительных систем МСЦ РАН, которые разработали и установили в 2012 году и продолжают совершенствовать специалисты национального чемпиона — группы компаний РСК на базе своих высокоплотных и энергоэффективных решений «РСК Торнадо» и RSC PetaStream со 100% жидкостным охлаждением на горячей воде, составляет уже 1,8 Пфлопс. Очередную плановую модернизацию суперкомпьютера МВС-10П ОП2 в МСЦ РАН специалисты РСК провели в течение 2020 года. В результате пиковая производительность этой вычислительной системы выросла более чем в два раза, достигнув 893 Тфлопс. Такого значительного прироста мощности удалось достичь благодаря установке нового вычислительного сегмента, состоящего из 101 вычислительного узла на базе высокопроизводительных серверных процессоров Intel® Xeon® Scalable 2-го поколения (модели Intel® Xeon® Gold 6248R), а также серверных плат Intel® Server Board S2600BPB и твердотельных дисков Intel® SSD. Для высокоскоростной передачи данных между вычислительными узлами используется технология коммутации Intel® Omni-Path. Технологической основой суперкомпьютера МВС-10П ОП2 является универсальное высокоплотное и энергоэффективное решение «РСК Торнадо» со 100% жидкостным охлаждением на горячей воде.

В ноябре 2020 года суперкомпьютер МВС-10П ОП2 впервые попал в мировой рейтинг IO500 самых высокопроизводительных систем хранения данных и занял 18-е место — самое высокое среди трех российских систем в этом списке, все — производства национального чемпиона РСК. Столь хороших результатов удалось достичь благодаря применению уникальной технологии создания масштабируемых распределенных и компонуемых «по требованию» систем хранения данных RSC Storage on-Demand на основе твердотельных дисков Intel® SSD и Intel® Optane SSD с интерфейсами NVMe. Кроме того, в суперкомпьютере МСЦ РАН установлены новые узлы для хранения данных на базе высокоскоростных твердотельных дисков Intel SSD в форм-факторе E1.S (так называемые рулеры).

Четыре кластерные системы МСЦ РАН, созданные РСК, входят в текущую редакцию списка топ-50 самых мощных суперкомпьютеров в России и СНГ, занимая в нем 6-ю, 10-ю, 22-ю и 36-ю позиции. Вычислительные комплексы МСЦ с 2004 года по настоящее время 107 раз входили в топ-50, причем 46 раз — в первую десятку, лидировав в рейтинге в 2005‒2006 и 2008‒2009 годах. Cуперкомпьютеры МСЦ РАН c 2002 по 2016 год 37 раз входили в мировой список Top500 самых высокопроизводительных вычислительных систем, при этом 18 раз — в первую сотню. Вычислительные системы МСЦ РАН с 2007 по 2016 год 23 раза входили в мировой список Green500 самых энергоэффективных суперкомпьютеров, 11 раз — в первую сотню.

«Загрузка ресурсов суперкомпьютеров МСЦ РАН всегда была больше 90 процентов, — отметил Борис Шабанов. — Очередь на запуск задач составляет два-три дня, и это очень важный для нас результат. Мы везде, на любых площадках говорим, что суперкомпьютеры — это необходимый инструмент, их очень мало в России. То есть наука страдает из-за проблем, связанных с недостатком возможностей суперкомпьютерных вычислений».

Как пояснил «Стимулу» старший директор по корпоративным коммуникациям и интегрированному маркетингу ГК РСК Олег Горбачев, важно понимать, что суперкомпьютер не самоцель, а очень мощный современный инструмент для решения самых сложных задач — как в фундаментальной науке, так и для прикладного применения в различных секторах экономики. Как показывает опыт США, Китая, наиболее развитых стран Европы и Японии, активное использование суперкомпьютерных вычислений для моделирования передовых научно-инженерных решений и прогнозирования самых различных процессов очень сильно влияет на повышение конкурентоспособности национальной экономики любой страны. И для России развитие этого направления при активной и плановой поддержке со стороны государства должно стать приоритетом национального развития как минимум на ближайшие пять-десять лет.

ЭНЕРГОЭФФЕКТИВНОСТЬ И ПЕРЕДОВЫЕ СИСТЕМЫ ХРАНЕНИЯ

«Основная задача ГК РСК — постоянно увеличивать эффективность технических средств для суперкомпьютерных систем — эту мысль в ходе онлайн-презентации высказал гендиректор компании Александр Московский. — И одна из ключевых проблем, стоящих перед людьми, которые создают и используют суперкомпьютеры, — это энергоэффективность».

По рейтингам Green500 и Top500 год за годом очевиден кратный прирост энергопотребления во всех сегментах, как для самых небольших систем, так и для лидерских машин. Сейчас среднее энергопотребление Top10 — уже порядка 10 МВт.

«Это очень большая величина, — говорит Александр Московский, — сравнимая с потреблением отрезка шоссе в несколько десятков километров. И один из основных способов повысить энергоэффективность системы — переход от воздушного охлаждения, что было традиционным способом для создания серверов многие годы, к жидкостному охлаждению».

Стоит отметить, что МСЦ РАН является технологическим лидером во всей отрасли, не только в России, но и в мире. Даже в топ-20 систем в рейтинге Top500 сейчас всего лишь 11 систем с жидкостным охлаждением: построить воздушную систему быстрее и проще. О том, как работает жидкостное охлаждение и как РСК удалось стать мировым лидером в этой области, «Стимул» уже писал.

Коэффициент энергоэффективности PUE (Power Usage Effectiveness) для воздушного ЦОД составляет 1,5, это хороший показатель, при этом из 1 МВт подведенной мощности до 350 кВт расходуется на охлаждение, питание чиллеров и тому подобные задачи. Если же перейти на жидкостное охлаждение, то ресурсы можно использовать более эффективно. В том же пакете энергопотребления можно поставить больше серверов и полезного оборудования.

В своем выступлении Александр Московский пояснил, какие преимущества для МСЦ РАН дает жидкостное охлаждение в деньгах и киловатт-часах электроэнергии: «PUE первой системы с жидкостным охлаждением МВС 10П, которая была установлена в МСЦ РАН, — 1,2. Второй, более продвинутый технологический комплекс, МВС 10П ОП, еще более энергоэффективен, его PUE — 1,06… Мы оцениваем, что за восемь лет эксплуатации было сэкономлено порядка 16 миллионов киловатт-часов электроэнергии, по стандартным ценам это около 82 миллионов рублей».

Технологическое лидерство МСЦ РАН определяет не только жидкостное охлаждение, в 2020 году в рамках модернизации суперкомпьютерного центра поставлена система с гиперконвергентной системой хранения. Специалисты РСК уже рассказывали «Стимулу» об этой системе.

В качестве примера Александр Московский привел мировой рейтинг IO500, в котором МСЦ РАН в первый раз вошел в двадцатку самых мощных систем не вычисления, а именно хранения данных: «Этот рейтинг достаточно сложно устроен, это не какая-то одна задача, а несколько задач, результаты которых агрегируются в геометрическое среднее, и получается некий финальный результат. Таким образом, для МСЦ РАН, с учетом 54 клиентов, которых удалось запустить при прогоне этого теста, мы видим достаточно высокую позицию, номер 18 в мировом рейтинге. И это удалось реализовать исключительно за счет того, что в рамках нашего стека программного обеспечения было поддержано переконфигурирование системы по запросу, специалисты РСК перебрали достаточно много различных конфигураций системы хранения данных, чтобы получить наилучшие результаты по оптимизации производительности подсистемы хранения суперкомпьютера».

ОТ НУЛЯ ДО ДВУХ ПЕТАФЛОПС

Борис Шабанов рассказал на презентации об истории и планах стратегического развития МСЦ РАН. «МСЦ РАН занимается развитием суперкомпьютерных технологий и вычислительных ресурсов для нужд российской науки и высшего образования с 1996 года, — отметил он. — Тогда наука находилась в довольно сложной, тяжелой ситуации. Оборудование было в упадке, ничего не покупалось. И вопроса о создании суперкомпьютерного центра вообще, честно говоря, не стояло, речь шла просто о создании рабочих мест для ученых и их оснащении. Наши руководители договорились о том, что надо создать такой центр, то есть предоставлять пользователям услуги, необходимые для проведения научных исследований».

Аналогичные проекты уже развивались в сфере науки и образования в Соединенных Штатах. Европейские проекты тогда еще не стартовали. Россия была второй страной после США, которая начала искать способы привлечь научно-образовательное сообщество к суперкомпьютерной технологии.

«У руля создания центра стояли наши выдающиеся академики. И среди них надо в первую очередь назвать Юрия Сергеевича Осипова, Владимира Евгеньевича Фортова, Евгения Павловича Велихова и Геннадия Ивановича Савина, первого директора и организатора МСЦ. Ныне Геннадий Иванович — научный руководитель нашего центра», — отметил Борис Шабанов.

И вот почти двадцать лет назад, в начале 2001-го, в эксплуатацию была введена кластерная система МВС-1000М, которая стала первым российским суперкомпьютером, преодолевшим терафлопсный рубеж производительности (триллион операций с плавающей запятой в секунду) и вошедшим в первую сотню мирового рейтинга Top500 (64-е место, июнь 2002 года). Сейчас вычислительные ресурсы МСЦ РАН достигли уровня производительности порядка 2 Пфлопс (1 Пфлопс — квадриллион операций с плавающей запятой в секунду, или 1000 терафлопс), то есть выросли более чем в две тысячи раз, позволяя научным коллективам и организациям РАН решать самые сложные задачи математического моделирования и работать с большими данными.

(jpg, 259 Kб)

 

РЕШИТЬ ЗАДАЧУ ОБЪЕДИНЕНИЯ

С самого начала работы суперкомпьютерного центра параллельно создавалась национальная сеть науки и образования. Она развивалась в рамках Российской академии наук, и отвечал за это МСЦ РАН. Другая сеть, сеть университетов, RUNNet, развивалась в Министерстве науки и образования. И вот уже два года, как эти две сети объединены, то есть создана национальная исследовательская компьютерная сеть, она является основой доступа пользователей к ресурсам МСЦ РАН, а также к другим уникальным научным установкам. Это другие центры коллективного пользования, не только суперкомпьютерные, установки Mega Science, которые сейчас будут широко создаваться в стране. Это коллекции, которые сформированы в различных регионах, и, наконец, это ресурсы Национальной электронной библиотеки.

«Но мы изначально ориентировали нашу сеть для сервиса объединения суперкомпьютерных центров, и это одна из наших главных задач сейчас — пытаться все объединить в национальную исследовательскую инфраструктуру, — поясняет Борис Шабанов. — Тем более что для этого есть поручение президента Российской Федерации и мы сейчас работаем над этой проблемой. Здесь очень важно определить принципы, как это делать, какие основные вопросы в первую очередь надо решать».

По мнению директора МСЦ РАН, кроме основных вопросов, то есть территориальной распределенности, поддержки инвестиционной инфраструктуры в регионах, очень важно ориентироваться на разные области использования, разнообразить платформы, на которых создаются эти центры, чтобы дать максимально широкий спектр услуг и качество сервиса пользователям. Обеспечить единую систему доступа, чтобы максимально упростить пользователям доступ к таким ресурсам. И еще крайне важно децентрализованное управление, «федеративное» устройство, то есть центры в регионах должны самостоятельно определять свою политику, самостоятельно развиваться.

(jpg, 474 Kб)

СТРАТЕГИЧЕСКОЕ ПЛАНИРОВАНИЕ

Говоря о стратегии развития центра, Борис Шабанов отметил, что ресурсов не хватает, люди стоят в очереди, и основная задача МСЦ РАН — увеличивать вычислительные мощности. А увеличивая мощности, важно обеспечивать энергоэффективность, параллельность и масштабируемость вычислений. Это главные принципы развития и использования суперкомпьютерных технологий. Другой важный принцип — правильно управлять имеющимися ресурсами и иметь средства мониторинга как для самого оборудования, так и для приложений. Необходимо дать пользователям обратную связь, чтобы они могли эффективно работать со своими приложениями. Часто они просто не знают, что можно найти резервы в своих приложениях и получить в два-четыре раза более высокие показатели производительности для выполнения своих задач.

«Исходя из имеющихся ресурсов мы всегда ориентировались на задачи математического моделирования, — сказал директор МСЦ РАН. — Сейчас, естественно, в полный рост стоят две задачи суперкомпьютерных вычислений — это искусственный интеллект и анализ больших данных. Необходимо обеспечить комплексное решение задач моделирования, искусственного интеллекта и анализа больших данных. Это взаимосвязанные вещи. Часто ученые используют какое-то одно направление, но в комплексных, сложных исследованиях это все взаимосвязано и переплетено».

Кроме того, важный момент — развитие профессионального сообщества пользователей, говорит Борис Шабанов: «Уже двадцать лет прошло, но наше сообщество пользователей не до конца сформировалось. Да, есть конференции, где люди собираются, обсуждают, но чувствуется, что крепких связей в таких коллаборациях по различным областям исследований еще нет. И мы видим свою задачу в создании, поддержке таких коллабораций в разных областях и направлениях использования различных пакетов программ, которые применяются в суперкомпьютерах».

СЛЕДУЮЩИЙ РУБЕЖ — EXASCALE

И в заключение о будущем высокопроизводительных систем в России и мире нашему журналу рассказал гендиректор РСК: «Вероятно, первый большой рубеж, который будет достигнут уже в следующем году, — это появление суперкомпьютеров экзаскельного уровня производительности. Скорее всего первым суперкомпьютером с производительностью десять в восьмой степени операций в секунду станет гетерогенная система, включающая в себя как мощные процессоры, так и GPU-ускорители. Можно ожидать, что продолжится как развитие “традиционных” классов решений — обновление поколений микропроцессоров, создание более мощных ускорителей, так и возникновение новых, специализированных архитектур. Например, на основе процессоров ARM или RISCV. Кстати, самый мощный суперкомпьютер в мире, номер один в рейтинге Top500 за ноябрь 2020 года, построен на чипах A64FX с набором инструкций на основе ARM».

Назвал гендиректор РСК и одну из ключевых проблем: «В России, увы, научные и исследовательские организации покупают суперкомпьютерные системы в рамках тех весьма ограниченных бюджетов на оборудование, которыми они располагают. В результате высокопроизводительные вычисления развиваются довольно медленно, что может привести к существенному отставанию всего сектора исследований и разработок. В настоящее время только две российские системы входят в мировой рейтинг Top500 — одна система работает в банке, другая — в университете. Так же было и в 2003 году, но тогда суперкомпьютер, установленный в Российской академии наук, был мощнее системы, установленной в финансовой организации. Несомненно, целевые усилия государства на уровне создания национальной программы развития суперкомпьютерных центров с реальным бюджетом на срок от пяти лет могли бы помочь улучшить ситуацию в этой области».

 

 



©РАН 2024