Неделимые петабайты
16.07.2018
Источник: НАУКА В СИБИРИ, 16.07.2018
Андрей Соболевский
В Институте
вычислительных технологий СО РАН считают: без единой системы передачи, хранения
и обработки Big Data в Сибирском отделении невозможно развитие исследований на
современном уровне.
Общая
коммуникационная сеть институтов Сибирского отделения формировалась с 1990-х
годов по инициативе председателя СО РАН академика Валентина Афанасьевича
Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН
задачу информатизировать научную и организационную деятельность Отделения и
институтов. «Это, в принципе, была первая в России мощная корпоративная сеть,
которая и сегодня остается самой крупной в рамках Академии наук», — отметил
заместитель директора ИВТ СО РАН кандидат физико-математических наук Андрей
Васильевич Юрченко. — Ее участниками являются около 65 организаций в 11
городах, а до происшедших в ходе реформы РАН укрупнений в сети работало более
100 научных учреждений».
Перемены сказались не
только на количестве пользователей этой сети. До реформы она получала поддержку
в размере около 50 миллионов рублей ежегодно от Сибирского отделения РАН как одна
из его целевых программ, которые распределялись координаторам деятельности сети
в 11 городах для ее содержания и развития. Эта сумма включала в себя также
закупку всех каналов выхода в Интернет в Новосибирске и остальных десяти
городах. Затем финансирование проекта перешло в ФАНО России, где применили
оригинальную методику исчисления размеров финансирования на объекты научной
инфраструктуры — не по потребностям, а по объемам внешних заявок. «Сумма
поддержки колебалась от 14 до 22 миллионов рублей для ИВТ, и дополнительно было
выделено около 7 миллионов рублей для Иркутска, где аналогичную сеть содержит
Институт динамики систем и теории управления им. В. М. Матросова СО РАН», —
конкретизировал А. Юрченко. Однако в 2018 году никакой финансовой поддержки
деятельности по содержанию сети и каналов связи получено не было, и ИВТ СО РАН
совместно с партнерами в других научных центрах Сибири самостоятельно несли это
бремя.
После упразднения в
нынешнем году ФАНО новое Министерство науки и высшего образования РФ еще никак
не обозначило свою позицию по финансированию информационных систем: как
оптимистично предполагает Андрей Юрченко, «там до нас просто еще не дошли
руки». При этом одной из функций министерства, в соответствии с указом
президента РФ и утвержденным положением о министерстве, является «оказание государственных
услуг и управление государственным имуществом в сфере научной,
научно-технической и инновационной деятельности, включая деятельность
национальной исследовательской компьютерной сети нового поколения и информационное
обеспечение научной, научно-технической и инновационной деятельности», поэтому
замдиректора ИВТ надеется на восстановление целевого федерального
финансирования.
Обеспечение же
поддержки общей сети до конца 2018 года стало предметом обсуждения на межинститутских
совещаниях. «Переговоры идут в следующем ключе: да, закупка каналов выхода в
Интернет стала прерогативой каждого института по отдельности. Однако единую
внутреннюю систему работы с данными было бы крайне неэффективно разрушить,
разделить на обособленные замкнутые сегменты, — отметил А.В. Юрченко. — Сеть,
построенная в Новосибирске, по-прежнему полностью находится на обеспечении ИВТ
СО РАН. Это кабельные каналы, соединяющие все научные институты между собой и с
центральным узлом в нашем здании на проспекте Академика Лаврентьева, 6. Мы
гарантируем бесперебойную работу всей системы при любых условиях, но необходима
юридически проработанная консолидация усилий». Другими профильными
организациями новосибирского Академгородка, с которыми происходит интенсивный обмен
данными, ученый назвал Новосибирский государственный университет, Институт
вычислительной математики и математической геофизики СО РАН и его Сибирский
суперкомпьютерный центр. В создании систем работы с Big Data ИВТ является не
монополистом, но наиболее мощной и де-факто головной организацией в Сибирском
отделении.
Но насколько
современными выглядят технологии информационного обмена по обособленным каналам
в эпоху развития всё более совершенных и емких облачных систем? «Можно говорить
не просто о внутренней сети передачи данных, а о своеобразном замкнутом контуре
их обращения, — уточнил Андрей Юрченко. — Данные генерируются, хранятся и
обрабатываются (анализируются) в пределах локальных телекоммуникационных и
вычислительных ресурсов, а также систем хранения и обработки. При этом
задействуются и облачные технологии: в ИВТ СО РАН работает частное облако для
хранения научной информации, развиваются сервисы по организации их обработки.
Если же сравнивать с внешними “облаками”, то ключевое преимущество
локализованного цикла в том, что объемы данных здесь циркулируют очень большие,
для их передачи нужны высокоскоростные каналы, а внутри сети они есть (от 1 до
10 Гбит/с)».
«Недавно мы провели
анализ и выяснили, что внешний трафик институтов в разы меньше объемов
информации, идущей к ним и от них по внутренней сети, — дополнил А.В. Юрченко.
— Это происходит прежде всего из-за интенсификации работы с большими данными.
Big Data становятся основой научной деятельности, и их начинают генерировать и
обрабатывать практически все: биологи, физики, геологи и многие другие. В
последнее время быстро нарастают запросы наших медиков — они работают уже с
терабайтами». Замдиректора ИВТ не исключил, что Big Data, высокопроизводительная
обработка и анализ данных станут актуальными также для экономистов и
гуманитариев: речь идет не только о статистике, но и о картографической
информации разного содержания, а также о распознавании и сравнении многих тысяч
визуальных образов — например, археологических находок. «Я знаю, в частности,
как сравнительный анализ данных аэрофотосъемки помог историкам здесь, в СО РАН,
обнаруживать скрытые объекты, следы дорог и городищ минувших времен», —
конкретизировал заместитель директора ИВТ СО РАН.
Возможно, крупнейшим
академическим институтам более логично создавать собственные системы работы с
Big Data? Ведь данные экономического профиля вряд ли потребуются
физикам-ядерщикам, а анализ тысяч снимков земной поверхности — генетикам. «Да,
тот же ФИЦ “Институт цитологии и генетики СО РАН” — учреждение, достаточно
крупное, чтобы позволить себе организацию собственного хранилища данных, —
отреагировал Андрей Юрченко. — Но даже такому институту-гиганту непросто
удовлетворить быстро нарастающие потребности: мне известно, что ФИЦ ИЦиГ уже в
следующем году будет нуждаться в не менее чем 2,5 петабайтах пространства для
долговременного хранения своих данных, а таких ресурсов там нет, и не
предвидится».
Аналогичная проблема,
по словам А. Юрченко, есть и у Института ядерной физики им. Г.И. Будкера СО
РАН, где заявляют о необходимости иметь хранилища в сотни петабайтов для данных
с сенсоров различных ускорителей. «Мы сторонники разумной централизации и
понимаем, что совсем необязательно все ресурсы сваливать в одну кучу, — отметил
замдиректора ИВТ. — Однако эффективное управление данными и вычислениями —
непростая научно-техническая задача, поручать решение которой целесообразно
специалистам, каковых нужно держать вместе, чтобы они постоянно варились в
одном котле, работали как одна профессиональная команда. Про эффективность
использования общих каналов связи знают все, это основа деятельности операторов
Интернета: самим иметь гигабитный канал, но продавать двадцати пользователям
стомегабитные каналы. Мы это четко видим на нашем консолидированном канале: по
сумме пиковых скоростей для общего пользования требуется не менее 5 Гбит/с,
однако 1,2 Гбит/с хватает с запасом, поскольку пики потребления у разных
организаций приходятся на разное время — возникает экономия».
Другой пример. Когда
у отдельного института есть возможность взять, например, канал на 100 Мбит/с,
то это будет максимальная скорость, на которой он сможет общаться. Если таких
институтов пять, и они объединят свои коммуникационные ресурсы, то суммарная
пропускная способность консолидированного канала будет 500 Мбит/с, и тогда, за
счет неравномерности трафика, отдельный институт сможет передавать и принимать
данные на существенно более высокой, чем 100 Мбит/с, скорости — вплоть до 500
Мбит/с в часы единоличного потребления.
И еще о цифрах. По
словам Андрея Юрченко, в хранилище ИВТ только данных по дистанционному
мониторингу земной поверхности (не очень быстро растущих) сосредоточено более
400 терабайт. Емкость предназначенных для них систем хранения — полтора
петабайта, но в ближайшее время в эксплуатацию будут введены новые мощности
потенциалом в 2,5 Пб. Для институтов, специализирующихся по конкретным областям
знания, такие объемы являются практически недостижимыми — даже для
крупнейших.
«Информационно-телекоммуникационная
система Сибирского отделения строилась и совершенствовалась десятилетиями, —
резюмировал научный руководитель ИВТ академик Юрий Иванович Шокин. — В
Новосибирском научном центре создана мощная и организованная
информационно-вычислительная среда. Она опирается на телекоммуникационные
ресурсы ИВТ и всё больше востребована. И эта востребованность растет буквально
с каждым днем. Поэтому наша задача — “наращивать мускулатуру“ упреждающими
темпами, для чего в программу развития научной инфраструктуры “Академгородка
2.0“ внесен проект создания Сибирского национального центра
высокопроизводительных вычислений, обработки и хранения данных (СНЦ ВВОД).
Заинтересованность в нем есть практически у всех институтов, и со временем она
будет только расти».