От «Яндекса» до белков
14.02.2012
Источник: Газета,
Алексей Тимошенко
Лауреат президентской премии Андрей Райгородский обещает сократить количество спама
Лауреат премии президента России для молодых ученых Андрей Райгородский возглавляет кафедру дискретной математики амбициозного факультета инноваций и высоких технологий Московского физико-технического института. Он также является профессором МГУ и главой исследовательского центра компании «Яндекс». «Только, пожалуйста, не пишите, что это Райгородский придумал поиск «Яндекса»! — просит он. — Мы немного улучшили поиск, а не создали его с нуля». В интервью «МН» лауреат рассказал о том, как фундаментальные математические проблемы помогают улучшать работу поисковика «Яндекс», какие задачи ученые решают почти сто лет, и о том, что общего между живой клеткой и московскими пробками на дорогах.
— Ваша работа, понятно, не сводится к оптимизации поиска в интернете?
— Даже в «Яндексе» мы ведем как прикладные, так и теоретические исследования. В частности, мы создаем модели веба, так называемые веб-графы. А вообще я занимаюсь теорией графов и дискретной математикой, в частности комбинаторикой.
Райгородский берет мел и рисует на доске несколько точек.
— Это сайты. Вот, к примеру, сайт номер один — пусть будет «Яндекс». Вот сайт номер два — МФТИ. Номер три — мой собственный; я ссылаюсь на первый и второй, — здесь ученый проводит две стрелки, соединяя точки друг с другом, — а МФТИ и «Яндекс» ссылаются друг на друга. Вся эта система из точек и стрелочек и есть граф, от греческого «рисунок», как «графика»; объект очень простой с виду и в то же время фундаментальный. Наша задача — создать такой веб-граф, который будет максимально соответствовать реальности.
— Рано или поздно проблема спама будет решена? То есть поисковые системы смогут искать действительно человеческие сайты, а не многократно скопированные тексты?
— Конечно, это еще и вечное противостояние брони и снаряда. Мы пытаемся делать более адекватный поиск, спамеры пытаются наши алгоритмы обмануть; об окончательном решении тут говорить не приходится. Но мы придумываем новые способы борьбы с черным SEO.
— Например?
— Подробно рассказать про новые методы не могу, это же секрет «Яндекса». Но вот один из простых методов: можно анализировать число определенных букв или слогов на странице, это очень простой показатель, который часть спама отсекает.
— И это, как я понимаю, уже не совсем графы, то есть вам важны не только ссылки со страницы и на нее?
— У нас занимаются и машинной обработкой текста, и много чем еще — правда, это уже без моего участия.
— А есть ли среди них такие, которые были бы понятны и не математикам? Или пусть уже решенные, но объясняющие, почему такой вроде бы простой объект, как граф, так долго изучается?
— Пожалуйста: задача о четырех красках. Есть карта мира, нам ее надо раскрасить в разные цвета четырьмя красками, и очевидным образом соседние страны надо красить в разные цвета. Вопрос: для любой ли карты задача решаема? То есть может ли быть такая конфигурация стран, при которой две соседние неизбежно будут одного цвета? Эту задачу решали почти сто лет, а ее решение в итоге заняло десятки страниц, сложнейшая теорема, между прочим.
— И каков ответ?
— Можно раскрасить.
— В чем, кроме чистой математики, состоит ваша работа? То есть чем еще приходится заниматься, кроме доказательства теорем?
— Мы ставим эксперименты.
— Какие могут быть опыты в математике?
— Мы меняем модель веба и смотрим, будет ли она соответствовать реальности. Или меняем настройки поисковой машины и проверяем, как это повлияло на качество поиска.
— То есть это снова моделирование, и для занятия этим, получается, кроме специальных знаний требуется только компьютер?
— Нет. Лишь некоторые простые вещи можно смоделировать с использованием простого ноутбука. Если мы говорим об изменении механики поиска или больших расчетах, то приходится переходить к расчетам на кластерах, то есть практически суперкомпьютерах. В «Яндексе» все это есть, но со стороны выглядит все точно так же — сидят люди за компьютерами, что-то делают.
— Насколько радикально при этом меняется поиск? То есть вам приходится переделывать все заново или это скорее тонкая настройка?
— Изменить все радикально, переписать с нуля — это фактически уже невозможно. Вероятно, сейчас алгоритмы далеко не идеальны, но мы не можем взять и создать все сначала, слишком уж сложная задача. А вот немного улучшать вполне реально.
— Какие еще у фундаментальных математических результатов могут быть практические приложения?
— Это лучшее моделирование белок-белковых взаимодействий, например. Или городское планирование. Мы этим не занимаемся просто в силу того, что нельзя делать все сразу, хотя это все очень интересно. И главным нашим достижением я считаю создание школы.
— Школа анализа данных, проект «Яндекса»?
— Нет, я не про школу анализа данных, хотя я там действительно преподаю. Речь идет о научной школе, самовоспроизводящейся группе людей, которая занимается современной и интересной математикой, которая в свою очередь помогает решать и вполне конкретные задачи. Это и в Физтехе, и в «Яндексе». И премия, я думаю, конечно, должна рассматриваться как премия нашей группе в целом.
Поиск жизни в интернете
Search Engine Optimisation (SEO) — оптимизация страниц под поисковые машины, совокупность приемов, позволяющих сделать сайт более заметным для «Яндекса» или Google. Честные методы включают в себя, например, задание подробных описаний для иллюстраций: картинку с видимой поисковику аннотацией «тройной стеклопакет в разрезе» по запросу «окна» найти проще, чем безликий 0034.png. А типичный пример грязного приема — создать сотню мусорных страниц со ссылками на раскручиваемый сайт или, хуже того, при помощи специальной программы или нанятых за минимальную плату школьников разместить множество ссылок на различных форумах и в гостевых книгах. Одна из задач, которую можно решить созданием моделей веб-графа, — различение массового упоминания блогосферой действительно важного события от попытки безвестного предпринимателя повысить в рейтинге свой сайт.