http://93.174.130.82/digest/showdnews.aspx?id=2e9cef4d-7dfb-47c0-96eb-b28f92e8dd1e&print=1
© 2024 Российская академия наук

Неделимые петабайты

16.07.2018

Источник: НАУКА В СИБИРИ, 16.07.2018 Андрей Соболевский



В Институте вычислительных технологий СО РАН считают: без единой системы передачи, хранения и обработки Big Data в Сибирском отделении невозможно развитие исследований на современном уровне.

Общая коммуникационная сеть институтов Сибирского отделения формировалась с 1990-х годов по инициативе председателя СО РАН академика Валентина Афанасьевича Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН задачу информатизировать научную и организационную деятельность Отделения и институтов. «Это, в принципе, была первая в России мощная корпоративная сеть, которая и сегодня остается самой крупной в рамках Академии наук», — отметил заместитель директора ИВТ СО РАН кандидат физико-математических наук Андрей Васильевич Юрченко. — Ее участниками являются около 65 организаций в 11 городах, а до происшедших в ходе реформы РАН укрупнений в сети работало более 100 научных учреждений».

Перемены сказались не только на количестве пользователей этой сети. До реформы она получала поддержку в размере около 50 миллионов рублей ежегодно от Сибирского отделения РАН как одна из его целевых программ, которые распределялись координаторам деятельности сети в 11 городах для ее содержания и развития. Эта сумма включала в себя также закупку всех каналов выхода в Интернет в Новосибирске и остальных десяти городах. Затем финансирование проекта перешло в ФАНО России, где применили оригинальную методику исчисления размеров финансирования на объекты научной инфраструктуры — не по потребностям, а по объемам внешних заявок. «Сумма поддержки колебалась от 14 до 22 миллионов рублей для ИВТ, и дополнительно было выделено около 7 миллионов рублей для Иркутска, где аналогичную сеть содержит Институт динамики систем и теории управления им. В. М. Матросова СО РАН», — конкретизировал А. Юрченко. Однако в 2018 году никакой финансовой поддержки деятельности по содержанию сети и каналов связи получено не было, и ИВТ СО РАН совместно с партнерами в других научных центрах Сибири самостоятельно несли это бремя.

После упразднения в нынешнем году ФАНО новое Министерство науки и высшего образования РФ еще никак не обозначило свою позицию по финансированию информационных систем: как оптимистично предполагает Андрей Юрченко, «там до нас просто еще не дошли руки». При этом одной из функций министерства, в соответствии с указом президента РФ и утвержденным положением о министерстве, является «оказание государственных услуг и управление государственным имуществом в сфере научной, научно-технической и инновационной деятельности, включая деятельность национальной исследовательской компьютерной сети нового поколения и информационное обеспечение научной, научно-технической и инновационной деятельности», поэтому замдиректора ИВТ надеется на восстановление целевого федерального финансирования.

Обеспечение же поддержки общей сети до конца 2018 года стало предметом обсуждения на межинститутских совещаниях. «Переговоры идут в следующем ключе: да, закупка каналов выхода в Интернет стала прерогативой каждого института по отдельности. Однако единую внутреннюю систему работы с данными было бы крайне неэффективно разрушить, разделить на обособленные замкнутые сегменты, — отметил А.В. Юрченко. — Сеть, построенная в Новосибирске, по-прежнему полностью находится на обеспечении ИВТ СО РАН. Это кабельные каналы, соединяющие все научные институты между собой и с центральным узлом в нашем здании на проспекте Академика Лаврентьева, 6. Мы гарантируем бесперебойную работу всей системы при любых условиях, но необходима юридически проработанная консолидация усилий». Другими профильными организациями новосибирского Академгородка, с которыми происходит интенсивный обмен данными, ученый назвал Новосибирский государственный университет, Институт вычислительной математики и математической геофизики СО РАН и его Сибирский суперкомпьютерный центр. В создании систем работы с Big Data ИВТ является не монополистом, но наиболее мощной и де-факто головной организацией в Сибирском отделении.

Но насколько современными выглядят технологии информационного обмена по обособленным каналам в эпоху развития всё более совершенных и емких облачных систем? «Можно говорить не просто о внутренней сети передачи данных, а о своеобразном замкнутом контуре их обращения, — уточнил Андрей Юрченко. — Данные генерируются, хранятся и обрабатываются (анализируются) в пределах локальных телекоммуникационных и вычислительных ресурсов, а также систем хранения и обработки. При этом задействуются и облачные технологии: в ИВТ СО РАН работает частное облако для хранения научной информации, развиваются сервисы по организации их обработки. Если же сравнивать с внешними “облаками”, то ключевое преимущество локализованного цикла в том, что объемы данных здесь циркулируют очень большие, для их передачи нужны высокоскоростные каналы, а внутри сети они есть (от 1 до 10 Гбит/с)».

«Недавно мы провели анализ и выяснили, что внешний трафик институтов в разы меньше объемов информации, идущей к ним и от них по внутренней сети, — дополнил А.В. Юрченко. — Это происходит прежде всего из-за интенсификации работы с большими данными. Big Data становятся основой научной деятельности, и их начинают генерировать и обрабатывать практически все: биологи, физики, геологи и многие другие. В последнее время быстро нарастают запросы наших медиков — они работают уже с терабайтами». Замдиректора ИВТ не исключил, что Big Data, высокопроизводительная обработка и анализ данных станут актуальными также для экономистов и гуманитариев: речь идет не только о статистике, но и о картографической информации разного содержания, а также о распознавании и сравнении многих тысяч визуальных образов — например, археологических находок. «Я знаю, в частности, как сравнительный анализ данных аэрофотосъемки помог историкам здесь, в СО РАН, обнаруживать скрытые объекты, следы дорог и городищ минувших времен», — конкретизировал заместитель директора ИВТ СО РАН.

Возможно, крупнейшим академическим институтам более логично создавать собственные системы работы с Big Data? Ведь данные экономического профиля вряд ли потребуются физикам-ядерщикам, а анализ тысяч снимков земной поверхности — генетикам. «Да, тот же ФИЦ “Институт цитологии и генетики СО РАН” — учреждение, достаточно крупное, чтобы позволить себе организацию собственного хранилища данных, — отреагировал Андрей Юрченко. — Но даже такому институту-гиганту непросто удовлетворить быстро нарастающие потребности: мне известно, что ФИЦ ИЦиГ уже в следующем году будет нуждаться в не менее чем 2,5 петабайтах пространства для долговременного хранения своих данных, а таких ресурсов там нет, и не предвидится».

Аналогичная проблема, по словам А. Юрченко, есть и у Института ядерной физики им. Г.И. Будкера СО РАН, где заявляют о необходимости иметь хранилища в сотни петабайтов для данных с сенсоров различных ускорителей. «Мы сторонники разумной централизации и понимаем, что совсем необязательно все ресурсы сваливать в одну кучу, — отметил замдиректора ИВТ. — Однако эффективное управление данными и вычислениями — непростая научно-техническая задача, поручать решение которой целесообразно специалистам, каковых нужно держать вместе, чтобы они постоянно варились в одном котле, работали как одна профессиональная команда. Про эффективность использования общих каналов связи знают все, это основа деятельности операторов Интернета: самим иметь гигабитный канал, но продавать двадцати пользователям стомегабитные каналы. Мы это четко видим на нашем консолидированном канале: по сумме пиковых скоростей для общего пользования требуется не менее 5 Гбит/с, однако 1,2 Гбит/с хватает с запасом, поскольку пики потребления у разных организаций приходятся на разное время — возникает экономия».

Другой пример. Когда у отдельного института есть возможность взять, например, канал на 100 Мбит/с, то это будет максимальная скорость, на которой он сможет общаться. Если таких институтов пять, и они объединят свои коммуникационные ресурсы, то суммарная пропускная способность консолидированного канала будет 500 Мбит/с, и тогда, за счет неравномерности трафика, отдельный институт сможет передавать и принимать данные на существенно более высокой, чем 100 Мбит/с, скорости — вплоть до 500 Мбит/с в часы единоличного потребления.

И еще о цифрах. По словам Андрея Юрченко, в хранилище ИВТ только данных по дистанционному мониторингу земной поверхности (не очень быстро растущих) сосредоточено более 400 терабайт. Емкость предназначенных для них систем хранения — полтора петабайта, но в ближайшее время в эксплуатацию будут введены новые мощности потенциалом в 2,5 Пб. Для институтов, специализирующихся по конкретным областям знания, такие объемы являются практически недостижимыми — даже для крупнейших.

«Информационно-телекоммуникационная система Сибирского отделения строилась и совершенствовалась десятилетиями, — резюмировал научный руководитель ИВТ академик Юрий Иванович Шокин. — В Новосибирском научном центре создана мощная и организованная информационно-вычислительная среда. Она опирается на телекоммуникационные ресурсы ИВТ и всё больше востребована. И эта востребованность растет буквально с каждым днем. Поэтому наша задача — “наращивать мускулатуру“ упреждающими темпами, для чего в программу развития научной инфраструктуры “Академгородка 2.0“ внесен проект создания Сибирского национального центра высокопроизводительных вычислений, обработки и хранения данных (СНЦ ВВОД). Заинтересованность в нем есть практически у всех институтов, и со временем она будет только расти».