Неделимые петабайты
16.07.2018
В Институте
вычислительных технологий СО РАН считают: без единой системы передачи, хранения
и обработки Big Data в Сибирском отделении невозможно развитие исследований на
современном уровне.
Общая коммуникационная сеть институтов Сибирского отделения формировалась с
1990-х годов по инициативе председателя СО РАН академика Валентина Афанасьевича
Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН
задачу информатизировать научную и организационную деятельность Отделения и
институтов. «Это, в принципе, была первая в России мощная корпоративная сеть,
которая и сегодня остается самой крупной в рамках Академии наук», — отметил
заместитель директора ИВТ СО РАН кандидат физико-математических наук Андрей
Васильевич Юрченко. — Ее участниками являются около 65 организаций в 11
городах, а до происшедших в ходе реформы РАН укрупнений в сети работало более
100 научных учреждений».
Перемены сказались не только на количестве пользователей этой сети. До
реформы она получала поддержку в размере около 50 миллионов рублей ежегодно от
Сибирского отделения РАН как одна из его целевых программ, которые
распределялись координаторам деятельности сети в 11 городах для ее содержания и
развития. Эта сумма включала в себя также закупку всех каналов выхода в
Интернет в Новосибирске и остальных десяти городах. Затем финансирование
проекта перешло в ФАНО России, где применили оригинальную методику исчисления
размеров финансирования на объекты научной инфраструктуры — не по потребностям,
а по объемам внешних заявок. «Сумма поддержки колебалась от 14 до 22 миллионов
рублей для ИВТ, и дополнительно было выделено около 7 миллионов рублей для
Иркутска, где аналогичную сеть содержит Институт динамики систем и теории
управления им. В. М. Матросова СО РАН», — конкретизировал А. Юрченко. Однако в
2018 году никакой финансовой поддержки деятельности по содержанию сети и каналов
связи получено не было, и ИВТ СО РАН совместно с партнерами в других научных
центрах Сибири самостоятельно несли это бремя.

После упразднения в нынешнем году ФАНО новое Министерство науки и высшего
образования РФ еще никак не обозначило свою позицию по финансированию
информационных систем: как оптимистично предполагает Андрей Юрченко, «там до
нас просто еще не дошли руки». При этом одной из функций министерства, в
соответствии с указом президента РФ и утвержденным положением о министерстве, является
«оказание государственных услуг и управление государственным имуществом в сфере
научной, научно-технической и инновационной деятельности, включая деятельность
национальной исследовательской компьютерной сети нового поколения и
информационное обеспечение научной, научно-технической и инновационной
деятельности», поэтому замдиректора ИВТ надеется на восстановление целевого
федерального финансирования.
Обеспечение же поддержки общей сети до конца 2018 года стало предметом
обсуждения на межинститутских совещаниях. «Переговоры идут в следующем ключе:
да, закупка каналов выхода в Интернет стала прерогативой каждого института по
отдельности. Однако единую внутреннюю систему работы с данными было бы крайне
неэффективно разрушить, разделить на обособленные замкнутые сегменты, — отметил
А.В. Юрченко. — Сеть, построенная в Новосибирске, по-прежнему полностью
находится на обеспечении ИВТ СО РАН. Это кабельные каналы, соединяющие все
научные институты между собой и с центральным узлом в нашем здании на проспекте
Академика Лаврентьева, 6. Мы гарантируем бесперебойную работу всей системы при
любых условиях, но необходима юридически проработанная консолидация усилий».
Другими профильными организациями новосибирского Академгородка, с которыми
происходит интенсивный обмен данными, ученый назвал Новосибирский
государственный университет, Институт вычислительной математики и
математической геофизики СО РАН и его Сибирский суперкомпьютерный центр. В
создании систем работы с Big Data ИВТ является не монополистом, но наиболее
мощной и де-факто головной организацией в Сибирском отделении.
Но насколько современными выглядят технологии информационного обмена по
обособленным каналам в эпоху развития всё более совершенных и емких облачных
систем? «Можно говорить не просто о внутренней сети передачи данных, а о
своеобразном замкнутом контуре их обращения, — уточнил Андрей Юрченко. — Данные
генерируются, хранятся и обрабатываются (анализируются) в пределах локальных
телекоммуникационных и вычислительных ресурсов, а также систем хранения и
обработки. При этом задействуются и облачные технологии: в ИВТ СО РАН работает
частное облако для хранения научной информации, развиваются сервисы по
организации их обработки. Если же сравнивать с внешними “облаками”, то ключевое
преимущество локализованного цикла в том, что объемы данных здесь циркулируют
очень большие, для их передачи нужны высокоскоростные каналы, а внутри сети они
есть (от 1 до 10 Гбит/с)».
«Недавно мы провели анализ и выяснили, что внешний трафик институтов в разы
меньше объемов информации, идущей к ним и от них по внутренней сети, — дополнил
А.В. Юрченко. — Это происходит прежде всего из-за интенсификации работы с
большими данными. Big Data становятся основой научной деятельности, и их
начинают генерировать и обрабатывать практически все: биологи, физики, геологи
и многие другие. В последнее время быстро нарастают запросы наших медиков — они
работают уже с терабайтами». Замдиректора ИВТ не исключил, что Big Data,
высокопроизводительная обработка и анализ данных станут актуальными также для
экономистов и гуманитариев: речь идет не только о статистике, но и о
картографической информации разного содержания, а также о распознавании и
сравнении многих тысяч визуальных образов — например, археологических находок.
«Я знаю, в частности, как сравнительный анализ данных аэрофотосъемки помог
историкам здесь, в СО РАН, обнаруживать скрытые объекты, следы дорог и городищ
минувших времен», — конкретизировал заместитель директора ИВТ СО РАН.

Возможно, крупнейшим академическим институтам более логично создавать
собственные системы работы с Big Data? Ведь данные экономического профиля вряд
ли потребуются физикам-ядерщикам, а анализ тысяч снимков земной поверхности —
генетикам. «Да, тот же ФИЦ “Институт цитологии и генетики СО РАН” — учреждение,
достаточно крупное, чтобы позволить себе организацию собственного хранилища
данных, — отреагировал Андрей Юрченко. — Но даже такому институту-гиганту
непросто удовлетворить быстро нарастающие потребности: мне известно, что ФИЦ
ИЦиГ уже в следующем году будет нуждаться в не менее чем 2,5 петабайтах
пространства для долговременного хранения своих данных, а таких ресурсов там
нет, и не предвидится».
Аналогичная проблема, по словам А. Юрченко, есть и у Института ядерной
физики им. Г.И. Будкера СО РАН, где заявляют о необходимости иметь хранилища в
сотни петабайтов для данных с сенсоров различных ускорителей. «Мы сторонники
разумной централизации и понимаем, что совсем необязательно все ресурсы
сваливать в одну кучу, — отметил замдиректора ИВТ. — Однако эффективное
управление данными и вычислениями — непростая научно-техническая задача,
поручать решение которой целесообразно специалистам, каковых нужно держать
вместе, чтобы они постоянно варились в одном котле, работали как одна
профессиональная команда. Про эффективность использования общих каналов связи
знают все, это основа деятельности операторов Интернета: самим иметь гигабитный
канал, но продавать двадцати пользователям стомегабитные каналы. Мы это четко
видим на нашем консолидированном канале: по сумме пиковых скоростей для общего
пользования требуется не менее 5 Гбит/с, однако 1,2 Гбит/с хватает с запасом,
поскольку пики потребления у разных организаций приходятся на разное время —
возникает экономия».
Другой пример. Когда у отдельного института есть возможность взять,
например, канал на 100 Мбит/с, то это будет максимальная скорость, на которой
он сможет общаться. Если таких институтов пять, и они объединят свои
коммуникационные ресурсы, то суммарная пропускная способность консолидированного
канала будет 500 Мбит/с, и тогда, за счет неравномерности трафика, отдельный
институт сможет передавать и принимать данные на существенно более высокой, чем
100 Мбит/с, скорости — вплоть до 500 Мбит/с в часы единоличного потребления.
И еще о цифрах. По словам Андрея Юрченко, в хранилище ИВТ только данных по
дистанционному мониторингу земной поверхности (не очень быстро растущих)
сосредоточено более 400 терабайт. Емкость предназначенных для них систем
хранения — полтора петабайта, но в ближайшее время в эксплуатацию будут введены
новые мощности потенциалом в 2,5 Пб. Для институтов, специализирующихся по
конкретным областям знания, такие объемы являются практически недостижимыми —
даже для крупнейших.
«Информационно-телекоммуникационная система Сибирского отделения строилась
и совершенствовалась десятилетиями, — резюмировал научный руководитель ИВТ
академик Юрий Иванович Шокин. — В Новосибирском научном центре создана мощная и
организованная информационно-вычислительная среда. Она опирается на телекоммуникационные
ресурсы ИВТ и всё больше востребована. И эта востребованность растет буквально
с каждым днем. Поэтому наша задача — “наращивать мускулатуру“ упреждающими
темпами, для чего в программу развития научной инфраструктуры “Академгородка
2.0“ внесен проект создания Сибирского национального центра
высокопроизводительных вычислений, обработки и хранения данных (СНЦ ВВОД).
Заинтересованность в нем есть практически у всех институтов, и со временем она
будет только расти».
Фото и рисунок
предоставлены ИВТ СО РАН
НАУКА В СИБИРИ,16 июля 2018
Андрей Соболевский