«МЫ СОЗДАЕМ ПЛАТФОРМУ, КОТОРАЯ ПОМОГАЕТ УЧЕНЫМ»
08.10.2018
Источник: ИНДИКАТОР, 08.10.18
Можно
ли использовать блокчейн для рецензирования, что в РАН подразумевают под
«цифровизацией науки», как будет развиваться Российский индекс научного
цитирования (РИНЦ), как гонка за количеством цитирований разрушает научный мир,
и как с помощью грантов можно предсказывать будущее, читайте в репортаже
Indicator.Ru с форума «Цифровая наука — мировые тренды и „большие данные“ в
российском контексте», который организовали президиум РАН и компания Digital
Science Россия.
Форум
проходит в Москве уже второй раз, и в этом году его принимало здание президиума
Российской академии наук. С докладами на форуме выступили вице-президент РАН
Алексей Хохлов, заместитель министра науки и высшего образования РФ Марина
Боровская, генеральный директор Digital Science в России Игорь Осипов, а также
лидеры российских компаний, занимающихся оценкой качества научных исследований
и цифровой наукой, видные зарубежные лидеры цифровой инфраструктуры и научные
издатели.
Приветственные
речи начались с того, что наука уже сегодня немыслима без цифровых технологий.
Со-организатор форума вице-президент РАН Алексей Хохлов даже вспомнил, что
раньше научные статьи приходилось набирать на машинке, а лично поговорить с
коллегой с другого конца света можно было разве что на конференции раз в
полгода. Сегодня личное присутствие не так важно — для общения есть Skype,
ответить на сообщение в электронной почте можно хоть из леса, а научные журналы
лишь ставят (или не ставят) на статьях знак качества, ведь опубликовать
информацию и сделать ее общедоступной может каждый.
Марина
Боровская, заместитель министра науки и высшего образования, отметила важность
цифровых хранилищ для научных коллекций, назвав оцифровку данных «попыткой
систематизировать свой чердак», подразумевая, видимо, не только заросшие пылью
институтские хранилища, но и голову. На открытии звучало много модных слов:
цифровая инфраструктура, блокчейн, big data, цифровизация… Посмотрим, что за
этими словами стоит. Денис Секиринский, представлявший научный блок
Администрации президента РФ, кратко поприветствовал всех и предложил не тратить
время и начать работу.
Фантазии
на конференции без галстуков
Штефан
фон Хольцбринк, владелец компании Holtzbrinck Publishing Group (которой
принадлежат многие издательские дома, в том числе Nature, Springer, Scientific
American, Macmillan, Die Zeit, и другие), говорил об открытости и объединении
усилий в науке как единственном способе угнаться за стремительным прогрессом и
сотнями тысяч ежегодных публикаций. Наука становится все более
интернациональной, однако часто «максимальная открытость науки» и другие
громкие слова становятся лишь «красивым фасадом, за которым ничего нет».
«Россия
— очень обширная страна, и ее наука — очень обширная тема, — заявил он,
отмечая, что сложно выбрать, что сказать за 15 минут, выделенных на каждое
выступление. — Но если вы говорите на конференции о науке и исследованиях более
15 минут, то 30% аудитории еще продолжат вас слушать, 50% потеряют нить
повествования, а еще 20% погрузятся в эротические фантазии». Это не помешало
ему начать издалека — с Клары Цеткин (которая была родом из его родного
Штутгарта) и Берлинской стены, вспомнив всю историю взаимоотношений России и
Германии за последние 100 лет, пока существует издательство, основанное в 1948
году его отцом, Георгом фон Хольцбринком.
Клонил
он к тому, что Германии надо сохранять дух сотрудничества, когда ей на пятки в
конкурентной борьбе наступают США и Китай. Но одиночкам в этой гонке не уйти
вперед, множество проблем требуют совместных решений, и, если удастся
объединиться с Россией, плюсы могли бы ощутить обе страны. «Большие
американские компании — Amazon, Google и Facebook — каждая вкладывают в
исследования в пять раз больше денег, чем Общество имени Макса Планка, поэтому
с точки зрения России и Европы объединение усилий было бы очень полезно для
развития науки. Будущим будет управлять не одна страна, не одна компания, иначе
как мы можем быть уверены, что прогресс и процветание наступили для всех», —
считает он. И в этом будущем залогом успеха станут новые инструменты для лучшей
экспертизы научных статей, прозрачность науки и открытость полученных данных.
Немного
открытости в саму конференцию предложил внести со-организатор форума Игорь Осипов,
основатель и CEO Digital Science Russia, президент эндаумент фонда
Дальневосточного федерального университета (ДВФУ). Встреча проходила в
буквальном смысле в узком кругу — за круглым столом под лепными потолками
Александринского дворца собрались выступающие и приглашенные гости,
руководители РАН, университетов, крупных международных и российских компаний,
научное и профильное государственное сообщество. «Давайте сделаем эту конференцию
максимально неформальной, — предложил Осипов, аргументируя это тем, что
экосистема digital science существенно меняет мир, уплощает пирамиду знаний,
позволяет увидеть всю картину исследований — от грантов до публикаций и
патентов — и трансформирует иерархию. — Представим, что это заседание одной
кафедры, и все мы делимся идеями». И тут же предложил участникам избавиться от
галстуков — символа формальности. Два или три человека последовали его примеру,
остальные оглянулись на соседей по круглому столу и оставили галстуки на месте.
Любовь
к цифре и рейтинг, который нужен вчера
Дэниэл
Хук, приглашенный профессор квантовой физики Имперского колледжа Лондона, генеральный
директор холдинга Digital Science и член Совета директоров ассоциации ORCID, не
упустил возможности поиронизировать над всеобщей одержимостью индексами и
рейтингами. «40,137 — таков был импакт-фактор Nature несколько лет назад, —
начал он. — Мы любим такие цифры, потому что их легко считать, и они выглядят
научно», — заявил он. Однако эта видимость бывает обманчива, так как цифрами
трудно измерить вещи вроде эффективности изучения того, как расширяется
Вселенная. Поэтому гонка за одними цитированиями разрушительна и для науки, и
для системы ее оценивания. Что можно с этим сделать? — Улучшать существующие
методы оценивания эффективности и придумывать новые. Так, в Dimensions
предлагают рассматривать и анализировать исследования с точки зрения
привлеченных и реализованных грантов. Это указывает на тренды в науке и даже
позволяет делать предсказания, где нужно ожидать рост и грядущих открытий, а
также как развитие одних областей будет подстегивать другие.
Роман
Гуринович, основатель и CEO sci.AI, рассказал о применении мега-big data в
науке на примере одной из самых горячих тем современной биологии и медицины —
болезни Альцгеймера. На эту тему выходят тысячи статей, и знание рассеяно по
ним: где-то описаны молекулярные механизмы, где-то — клинические данные, где-то
— информация об отдельных возможных лекарствах. «Потенциальное решение состоит
из двух компонентов: один преобразует естественный язык статей в читаемый
машиной „цифровой“ формат, вторая часть, используя эти структурированные
данные, может принимать вопросы ученого и, соответственно, отвечать на них,
связывая определенные знания», — отметил Гуринович. При этом в биологии важна
не только связь между данными, но и причинность. Поэтому применение мега-big
data в биологии позволяет интерпретировать собственные экспериментальные
результаты или строить модель будущего эксперимента, чтобы не тратить времени
на уже сделанное другими.
Обсуждал
в своем докладе базы данных и заместитель директора ФИАН имени П. Н. Лебедева
РАН Олег Иванов. Он отметил, что «работа с базами данных — это не искусственный
интеллект, а правильное использование своего». И особенно бывают важны «сырые»
данные — результаты различных замеров, вычислений, или куча роликов
энцефалограмм, которые пылятся без дела в архивах институтов, могли бы служить
для уточнения научной информации, проверки добросовестности автора статьи,
тестирования новых методов аналитики. Базы данных позволяют вывести отчетность
на следующий уровень, при помощи самоидентификации и сопоставления информации,
не заполняя везде одно и то же (это можно было бы сделать, если соединить много
баз данных, хотя и не сливая их в одно глобальное хранилище). Однако здесь, как
выяснилось уже в обсуждении с участниками, глава проблема не в том, где хранить
такие массивы информации, а в том, что институты часто сами не знают, какие
данные хранятся в их недрах. Пока что нужно разбираться в завалах накопленных
«сырых» данных и начинать сдавать вместе с отчетностью новые.
Кроме
того, после подтверждения данных и результатов исследований в научном сообществе
институты, ученых, страны, направления можно рейтинговать — и, конечно, для
всех этих рейтингов понадобятся свои подходы. «Когда у вас возникает какая-то
задача, вам надо оперативно, быстро сделать рейтинг под нее. Как правило, этот
рейтинг нужен еще вчера, это типичная ситуация, которая накладывает некоторые
ограничения», — с улыбкой отметил Олег Иванов. Правда, открытый доступ ко всем
материалам статьи, включая сырые данные, часто противоречит издательской
политике, поскольку так могут быть потеряны или не учтены цитирования и
упоминания — но эти юридические вопросы еще только предстоит решить.
Токенизация
науки и опыт Юга России
Йорис
ван Россум, основатель международных проектов Blockchain for Peer Review и
Peerwith, предложил совместить идентификацию вклада конкретного ученого в базах
данных с блокчейном. Токенизация науки могла бы снабдить все плоды
исследовательской работы цифровой подписью. «Это сделало бы науку более
прозрачной и воспроизводимой, — считает ван Россум. — Но зачем здесь использовать
блокчейн? Это самый важный вопрос. Если мы не используем блокчейн, у нас есть
центральный владелец базы данных. Вся власть, вся информация сконцентрировалась
бы в его руках. Блокчейн позволяет отлеживать информацию, храня ее в самых
разных местах, и следить, что случилось с конкретным ученым». Таким образом,
при помощи блокчейна (в качестве цифровой идентификации) можно делиться
данными, не переживая, что их кто-то присвоит, а также проводить peer review —
рецензирование статей перед публикацией.
После
этого в программу немного неожиданно вписались два доклада от представителей
российских вузов о своих проектах и успехах. Ирина Шевченко, ректор Южного
федерального университета, рассказала о построении инфраструктуры цифровой
науки и создании хранилища, которое объединяет данные научных организаций
региона (Консорциум вузов Юга России), на основе технологий Digital Science.
Другое направление работы в университете — картирование научных областей и
подсчет скорости развития науки при помощи данных Dimensions (которые опираются
на гранты). Например, в биологии за время, пока читался каждый доклад, в мире
выходило примерно 250 статей.
Андрей
Белокопытный, проректор по учебной работе и подготовке кадров высшей
квалификации Донского государственного технического университета, тоже поведал
о создании цифрового образовательного пространства Ростовской области (сейчас в
этом проекте участвуют более 600 образовательных организаций из 43 районов).
Также он сообщил, что ДГТУ изучает применение цифровых технологий в сельском
хозяйстве (учет и контроль температуры, давления, влажности, ветра, расчет
оптимального количества удобрений), работает над проектами по созданию роя роботов,
3D-моделированию в строительстве и синхронизации светофоров для решения
проблемы ростовских пробок. кроме того, в следующем году ДГТУ открывает 25
«цифровых» направлений магистратуры (например, «цифровой бухгалтерский учет»).
Ректор ДГТУ тоже вставил словечко в выступление коллеги: он предложил собраться
с теми же гостями, но с большим количеством ректоров, на площадке южных
университетов, так как обсудить цифровизацию было бы полезно всем
университетам.
После
них выступил Марк Ханнел, основатель проекта Figshare — репозитория, который
позволяет хранить любые приложения к научным статьям в разных форматах, а также
делиться ими. Он отметил, что хранение данных возможно как в «облачном» виде,
так и локально, на серверах университетов. Когда-то сам ученый занимался
стволовыми клетками, потратил выходные на съемку видео к статье, но видео не
приняли в журнал. Это и вдохновило его на создание такой платформы. Сегодня
Figshare работает с университетами и журналами, позволяет хранить изображения,
видео, прочтенные последовательности геномов и так далее в разных местах,
выбирая, сделать файлы общедоступными или нет — в общем, подстраивается под
самые разные нужды. Недавно менее чем за год его компании удалось
систематизировать научные данные 26 университетов в Южной Африке. Благодаря
Figshare данные приобретают свой индекс API, и их принадлежность и цитирования
можно отслеживать, представляя их в качестве отчетности и привлекая финансирование.
«Мы
не рекламируем Sci-Hub»
«Мы
говорим про большие данные. Раз данные большие, и количество ошибок большое.
Есть какой-то процент неполной информации. Для миллиона статей еще можно как-то
справиться, найти людей, которые что-то исправят. Когда мы говорим о сотнях
миллионов, задача становится трудноисполнимой», — поставил перед слушателями
проблему следующий докладчик, основатель РИНЦ Геннадий Еременко. А ведь в год в
российских журналах выходит два миллиона публикаций. Понятно, что оценивать
эффективность науки, основываясь на количестве таких разноуровневых публикаций,
нельзя. А ведь для национальных и региональных индексов собрать информацию —
лишь 20% успеха. 80% — это структурировать, проанализировать данные и принять
решение. Поэтому ближайшее развитие РИНЦ будет включать следующие пункты:
1)
максимальный охват разных типов публикаций, отдельные поисковые формы для
диссертаций, статей и так далее;
2)
улучшение качества и точности данных идентификации, ссылок;
3)
создание национальных «полок» для всех публикаций из соседних стран;
4)
интеграция РИНЦ с международными и российскими базами данными;
5)
расширение возможностей системы.
Под
последним пунктом подразумевается расширение работы с ведущими исследователями
в качестве экспертов: увы, искусственный интеллект пока что отличать хорошие
публикации от плохих не научился, а чем меньше привлечено самих ученых мужей,
тем больше мы «теряем культуру экспертной оценки». Правда, пока не до конца
понятно, по каким критериям выбирать достойных экспертов (а ведь у нас с
экспертизой и рецензированием научных журналов проблем немало). Ближе к
завершению выступления Еременко сообщил, что РИНЦ договорился с крупнейшими
международными платформами, включая Dimensions от Digital Science, о размещении
публикаций российских издателей в цифровом виде. Детали проекта появятся в
ближайшее время.
Алексей
Лутай, руководитель аналитических проектов РФФИ, посвятил свой доклад вполне академическому
исследованию популярности российских статей на основании скачиваний в Sci-Hub и
данных альтернативных метрик. Пользователи портала производят 500 тысяч
загрузок в день, интересуясь в том числе и российскими переводными журналами
(сегодня их существует 224). По его словам, данные о загрузке публикаций из
Sci-Hub могли стать «дополнительной альтметрикой», уменьшая «серую зону»
публикаций, о судьбе которых после их выпуска ничего не известно. Используя
сразу четыре индекса (статистика скачивали через Sci-Hub, CrossRef— цитирования,
количество читателей в MENDELEY, упоминания в соцсетях от Altmetric), можно
полнее учесть влияние публикации на научный мир. Докладчик время от времени
поглядывал на фон Хольцбринка, видимо, сам испугавшись производимого эффекта, а
под конец даже добавил: «Нет, мы не рекламируем Sci-Hub, вы не подумайте».
«Вместо
цифровизации обсуждаем науку»
Глава
Центра моделирования данных Сколковского института науки и технологий профессор
Максим Федоров сделал доклад о применении «больших данных» для прогнозирования
и анализа развития прорывных направлений науки. Он обсудил примеры подобных
исследований в области точного земледелия, полимерных композитов (в частности,
арамидов — по заказу АО «Оргсинтез»), использования эффекта Капицы (скачка
температуры на границе сред в разных агрегатных состояниях) и охлаждения новых
суперкомпьютерных и радиоэлектронных систем.
«Я
считаю, что доклад, который прочитал Максим Федоров, идет вразрез с мнением
физических наук, его вывод не соответствует действительности», — оспорила
применение эффекта Капицы заместитель академика-секретаря отделения физических
наук РАН Наталья Истомина. Ее вопросы и комментарии обрушились на докладчиков
по всем фронтам в качестве претензий и к научной точке зрения, и к
статистической оценке. Так, в физике не всегда рост количества статей отражает
развитие науки, ведь известны случаи с «исчезновением» публикаций, когда их
изымали и засекречивали. И это только свидетельствует в пользу актуальности
темы. Грантовая же поддержка часто больше отражает политику, чем естественное
развитие науки. К ректорам университетов (пренебрежительно названных «простите,
ЮФУ») был и другой вопрос: странно создавать какую-то новую локальную сеть,
когда наука международна.
«Это
наука, обсуждаем науку. Вместо цифровизации обсуждаем науку», — посетовал
проректор ДГТУ. Но Максим Федоров нашел, что ответить: при обсуждении эффекта
Капицы «речь шла о границах не твердых, а аморфных сред, где фононная теория не
очень хорошо работает»; статистика — не панацея, никто не заменит человеческое
участие в оценивали науки, но она привлекает внимание к интересным трендам.
Разгорелась небольшая, но интенсивная дискуссия, смутившая иностранных гостей,
слушавших эти споры через переводчика. Кажется, в какой-то момент они утратили
нить повествования и стали растерянно водить глазами. Как в кулуарах
признавались ван Россум и Ханнел, такая суровая критика сразу на двух уровнях
(научном и статистическом) не характерна для западных конференций: британские
исследователи не очень любят спорить прилюдно и скорее оставят мнение при себе.
Однако критика и ответы на нее не переросли в ссору: конференция закончилась
под обмен любезностями.
«Я
бы хотел контекстуализировать наш разговор — сказал в заключение Игорь Осипов.
— Dimensions был разработан совместно с огромным сообществом экспертов, в том
числе российских, которые приняли активное участие в создании платформы задолго
до ее официального запуска в 2018 году. Мы не хотим предложить еще один индекс,
мы создали платформу, которая помогает ученым видеть науку во всех срезах,
связях и в режиме реального времени и на разных языках. О российских научных
журналах и путях участия Российских издателей в Dimension уже говорил Геннадий
Еременко. Со своей стороны, считаю, что крайне важно, чтобы наша страна была в
правильном ключе представлена на мировой арене, а российские данные
контролировались российскими участниками платформы, в том числе с возможностью
локализации в России».