MatrixNet от Яндекс: как работает, преимущества и недостатки

MatrixNet

MatrixNet (Матрикснет) – это алгоритм машинного обучения, разработанный поисковой системой Яндекс для построения формулы ранжирования сайтов с учетом их авторитетности и формирования результатов выдачи. Внедрен алгоритм в 2009 году.

Особенностью данного метода машинного обучения является то, что это самообучающаяся система, учитывающая любые изменения факторов ранжирования и, как итог, вносящая коррективы в принципы своей работы.

Как работает Матрикснет?

В компании Яндекс есть большой штат людей, которые лично смотрят сайты, попадающие в индекс, и дают им оценки. Таких сотрудников называют асессорами. Они смотрят поисковый запрос и сайт, найденный по нему, после чего оценивают, насколько он удобный для пользователей, релевантный и так далее. Вообще к основным оценочным критериям со стороны асессоров можно отнести:

  • Ресурс отвечает всем критериям, его контент релевантный запросу.
  • Контент релевантный запросу.
  • Контент сайта удовлетворяет ожидания посетителей.
  • Контент веб-ресурса частично отвечает запросу пользователя.
  • Контент нерелевантный запросу или материалы являются спамом.

Выписка учебных оценок должна быть максимально правильной, чтобы затем алгоритм MatrixNet имел возможность объективно и корректно оценивать и ранжировать другие сайты, которые еще не успели оценить асессоры или которые они вообще не оценят.

База данных поисковой системы регулярно пополняется новыми страницами или наоборот из нее удаляются несуществующие и ненужные документы. Но для корректного обновления индекса машине нужно прописать правила, по которым она будет работать.

Ранее релевантные страницы включали в индекс исключительно аналитики, но в наши дни сайты создаются немыслимыми темпами и люди просто бы не успевали проверять все страницы, которые находят роботы, если бы не был создан алгоритм машинного обучения.

Как ранжируются сайты с помощью Матрикснет?

Поисковику ежедневно приходится обрабатывать миллионы запросов, находить огромные объемы информации, определять релевантность и упорядочивать их так, чтобы выше всех остальных в результатах выдачи отображались самые полезные страницы.

Для проверки параметров каждой страницы по отдельности требуется огромное количество серверов, способных обработать информацию максимально быстро. В ином случае потребуется немыслимое количество времени. Такой поиск пользователям не нужен, потому что результата им придется ждать несколько дней, а то и недель. Ни тот, ни другой вариант не подходит для решения проблемы.

Благодаря алгоритму MatrixNet Яндекс способен проверять сотни факторов ранжирования чрезвычайно быстро, при этом нет необходимости привлекать дополнительные вычислительные мощности.

Поиск обеспечивает одновременной работой нескольких тысяч серверов. Каждый отдельно взятый сервер отвечает за свою часть индекса и составляет рейтинг самых полезных результатов, где оказываются страницы с наиболее релевантным запросам пользователей контентом.

Затем множество списков объединяются в один общий, после чего документы, находящиеся в данном списке, выставляются по своему рейтингу с применением сложнейшей формулы ранжирования, составленной алгоритмом на основе не одной сотни факторов и их комбинаций: поведение пользователей, ссылочный профиль и многое другое.

Вот таким образом Яндекс определяет самые релевантные страницы и выставляет их сверху результатов выдачи, благодаря чему интернет-пользователь быстро находит информацию, отвечающую его вопросу в поиске.

При этом машинное обучение не стоит на месте. В процессе любой выдачи MatrixNet чему-то обучается, что позволяет ему в последующие разы выдавать для интернет-пользователей все более релевантную информацию.

Если объяснить по простому. То чтобы экономить свои ресурсы и быстро ранжировать документы, применяется Матрикснет. Сложные формулы ранжирования не могут работать на больших объемах данных. Поэтому чтобы определить самые релевантные результаты. Поисковая система сначала определяет 1000 результатов, по первоначальным данным, так называемым FastRank - быстрые ранги. Это самые легкие факторы ранжирования, которые уже записаны к документам и поисковой системе не составляет труда определить эти результаты.

На втором этапе из этих 1000 результатов, поиск уже определяет и рассчитывает лучших 100 документ, по наиболее весомым и сложным факторам. А из этих 100 документов, уже выводит 30 результатов по другим еще более сложным факторам.

И к 30 лучшим результатам поиска уже применяется сложная формула Матрикснет и расставляет их в приоритете полезности для людей.

Формула эта постоянна меняется в зависимости от запроса. А обучается и подстраивается эта формула, благодаря оценкам асессоров.

Плюсы и минусы Матрикснет

В отличие от программ, используемых другими поисковыми машинами, MatrixNet от Яндекса способен формировать сложные формулы ранжирования с изобилием коэффициентов в них, влияющих на расчет авторитетности сайта. Вот почему вебмастеру, продвигающему свой проект, важно знать, как поисковик относится к ресурсу:

  • алгоритмом рассматриваются географические, демографические и социальные критерии;
  • для пользователя в приоритете выдача результатов, отвечающих его интересам;
  • если сайт посвящен узкой тематике, расчет его значимости может производиться по другой формуле;
  • формула регулярно дополняется новыми величинами и изменяется в зависимости от внедрения новых или усовершенствования старых факторов.

Но есть у данного машинного обучения и побочные эффекты. К недостаткам Матрикснет можно отнести то, что иногда алгоритм может хорошо оценить сайт с кривым контентом и он появится в выдаче.

Можно отметить и трудности в раскрутке молодых веб-ресурсов. Расчет авторитетности сайта очень сильно зависит от того, как давно был создан сайт. Еще один минус – в выдачу иногда попадают одностраничные или мелкие проекты без текстового контента, тогда пользователям труднее отыскать реально полезную информацию.

Заключение

Машинное обучение MatrixNet постоянно самообучается помимо того, что ей помогают асессоры. Аналитики предоставляют для алгоритма список релевантных, по их мнению, веб-сайтов, после чего он изучает их и затем самостоятельно выбирает тематические ресурсы.

Несмотря на то, что система еще несовершенна, поиск информации в Яндексе для рядовых пользователей за последние годы сделал огромный шаг вперед, стал удобнее, быстрее и, самое главное, точнее. И большой прогресс наблюдается именно после реализации Матрикснет.

Александр Овсянников ака Интернет Мажор
Занимаюсь продвижением и заработком на сайтах с 2009 года.
Добавить комментарий