Яндекс новый алгоритм. Перспективы и прогноз

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Писал недавно аналогичную статью про и решил, что осветить прошлое отечественного поисковика тоже необходимо для полноты картины. Рамблер не предлагать:)

Изначально с 1990 года по 1996 компания под необычным названием «Аркадия» занималась разработкой программных продуктов, тесно связанных с поиском по словам. Первым шагом на пути к созданию поисковой системы, такой, какой мы её знаем сейчас, было создание автоматического классификатора изобретений, весом 10 мб. Благодаря полученным в Аркадии наработкам – старт Яндекса был впечатляющим.

Далекое прошлое: все алгоритмы Яндекса с 1997 года

  • 23 сентября 1997 год – Официальный день рождения компании «Яндекс». Со старта поисковик уже мог учитывать морфологию, расстояние между словами и оценивать релевантность документа к введенному запросу.
  • Ноябрь 1997 года – Пользователи могут получать релевантные ответы на естественно-языковые запросы. Типа «где купить», «куда сходить» и так далее.
  • 1998 год – Яндекс добавил возможность «найти похожий документ» по времени изменения и в диапазоне дат.
  • 1999 год – Становится возможен поиск по разным категориям: зоны текста, категории, изображения. В этот же год добавили понятие «индекс цитирования». В поиске появляется фильтр, нацеленный на избежание порнографии и мата.
  • 2000 год – Яндекс охватывает новые области. В частности «Яндекс.Новости». Теперь тексты ранжируются по степени важности.
  • 2001 год – Объем данных в индексе поисковика превысил 1 терабайт.
  • 2002 год – SEO начинает активно возвышать сайты в поиске. Два основных способа: обмен ссылками и размещение ссылок в каталогах.
  • 2003 год – Популярность обмена ссылками зашкаливает. Появляются автоматические сервисы для обмена бэками. Тенденция сохраняется весь 2004 год.
  • Начало 2005 года – Продвижение с помощью линкаторов (сервисов для автоматической накрутки ссылок) переступает все пределы. В топе результатов поиска появляются абсолютно не релевантные страницы.

    Продвинуть можно было любой сайт по любому запросу без особых трудностей – начали появляться различные приколы. В то время по запросу «враг народа» можно была найти сайт президента РФ Владимира Владимировича. А запрос геморрой показывал русскоязычную версию сайта Microsoft.

  • Конец 2005 года – Логично предположить, «Яндекс» начал истреблять линкаторы. Так называемый «Непот-фильтр» аннулировал вес ссылок с сайтов, занимающихся линко-торговлей.
  • 2006 год – На смену обмену ссылками пришли биржи, на которых можно было приобрести бэклинк с разных площадок (типа досок объявлений).
  • 2007 год – Ссылки стали товаром. И было предсказуемо создание крупной биржи для покупки/продажи ссылок в различных режимах, на разных ресурсах и тд. В те годы, подобный бизнес мог приносить очень неплохой ежемесячный доход. А значит, и заниматься этим стали все подряд. Основной работой в SEO стала покупка бэклинков. В этот же год вышла новая формула ранжирования, по которой по высокочастотным, однословным запросам в ТОП выходили в основном главные страницы сайтов.

Время перемен в Яндекс: история обновлений с 2007 по 2009

  • 20 декабря 2007 года – Обновление алгоритма ранжирования. Первые попытки борьбы со спамом. Из результатов поиска исключаются ресурсы, которые сильно злоупотребляли наращиванием ссылочного профиля.
  • 17 января 2008 года – «8 SP1». Первый алгоритм «Яндекса», который удостоился собственного имени, хоть и не очень понятного. С этого момента верхушку поиска занимают старые, авторитетные сайты. Появляется понятие «трастранк», степень доверия к сайту. Кстати, теперь «Яндекс» обещает называть все свои алгоритмы названием городов.
  • 19 марта 2008 года – Фильтрация, нацеленная на борьбу с покупными ссылками, ужесточается. Большинство сайтов, которые покупали бэклинки, проседают в позициях. Но, ко всеобщему удивлению, от принятых мер поисковая выдача стала только хуже, поэтому все вернулось на свои места.
  • 16 мая 2008 года – «Магадан». Поисковик научился читать транслитерацию, переводы и аббревиатуры. Стал доступен поиск по зарубежным сайтам. Смягчилась фильтрация отбора документов. Вдвое увеличилось количество факторов ранжирования. Почти сразу вышел «Магадан 2.0». Добавлены новые факторы, которые учли уникальность контента и стали классифицировать запросы на коммерческие/некоммерческие и геозависимые/геоНЕзависимые.
  • 12 сентября 2008 года – «Находка». Повысился вес внутренних страниц. Теперь по среднечастотным и по некоторым высокочастотным запросам можно встретить в поиске не только главные страницы. Усиливается борьба с клоакингами (сайты, созданные для манипулирования трафиком. Черный SEO метод). Расширен словарь связей.
  • 10 апреля 2009 года – «Арзамас». Улучшается распознавание опечаток в запросах. Выдача становится . Теперь поисковик учитывает регион пользователя. Появился термин «региональное продвижение». Выявлено 19 основных регионов.
  • 28 сентября 2009 года. Фильтр 17. По словам Яндекса, фильтр работает с 2006 года. Но ранее его присутствие было не столь ярко выражено. Фильтр нацелен на борьбу с некачественными сайтами, например, созданными и заполненными автоматически.
  • 10 ноября 2009 года –«Снежинск». Теперь по высокочастотным однословным запросам лидерами поиска стали информационные сайты, вытеснив коммерческие. Официальное рождение «Матрикснет», нового метода машинного обучения. Теперь все запросы, характеризующие сайты, стали связаны между собой. Первые слухи о поведенческих факторах.

    SEO становится все сложнее.

  • 18 декабря 2009 года – АГС 30. Теперь фильтр стал умнее. Он начал исключать из индекса не только неуникальные сайты, но и ресурсы, не несущие никакой пользы.
  • 22 декабря 2009 года – «Конаково». В поддержку Арзамасу число регионов увеличилось с 19 до 1250.

Изменение алгоритмов Яндекса: наши дни

  • 20 января 2010 года – Анти-портянки. Яндекс ввел фильтр за огромные тексты, перенасыщенные ключевыми словами.
  • 6 августа 2010 года – «Обнинск». Была расширена формула ранжирования, что в первую очередь повлияло на геонезависимые запросы. Алгоритм также негативно повлиял на продвижение некачественными ссылками. Еще в 2010 году подтвердились слухи о поведенческих факторах.
  • 15 декабря 2010 года – «Краснодар». Два крупных нововведения. Первым стала технология «Спектр», которая отвечала на неоднозначные запросы пользователя, разбавляя выдачу разными ответами. Классический пример неоднозначного запроса “Наполеон” – что хотел пользователь? Торт? Полководец? Музыкальная группа? Так вот спектр был создан, чтобы удовлетворить все возможные потребности по неоднозначным запросам. Вторым нововведением стала индексация соц. сети “ВКонтакте”. Теперь можно через поисковую строку можно найти профили пользователей из соцсети.
  • Май 2011 года – Многие сайты потеряли позиции из-за волны ручной пессимизации за накрутку поведенческих факторов.
  • 17 августа 2011 года – «Рейкьявик». Усовершенствование персонализации. Добавление « », теперь, вводя в поисковую строку какую-либо формулу, пользователь сразу получал ответ.
  • 13 сентября 2011 года – «Ты спамный». Фильтр за переспамленный текст. Понижались тексты, которые имели низкий показатель поведенческих факторов.
  • 12 декабря 2012 год –«Калининград». Главная идея сделать полностью персональный поиск. Теперь пользователю предлагались подсказки, основанные на его предыдущей истории. Помимо Калининграда в течение года улучшился поиск по контенту в соцсетях. По неоднозначным запросам появились подсказки, чтобы уточнить, чего хотел пользователь. Немного позже подсказки стали учитывать предыдущие запросы пользователя. В сниппеты стали добавлять профили в социальных сетях. Яндекс начал сотрудничать с Твиттером. После того как открыл Яндексу свою базу данных, скорость индексации сайта с регулярными твиттами заметно улучшилась. Еще понизились сайты с pop-up элементами, которые маскировались под системные сообщения и сигналы социальных сетей.
  • Февраль 2013 года – Яндекс начал отмечать сайты, зараженные вирусами или содержащие вредоносный код.
  • 13 мая 2013 года – К адресу в сниппете сайтов добавили ближайшую станцию метро и время работы организации.
  • 16 мая 2013 года – Платформа «Острова». Принципиальное изменение формата поисковика. Яндекс планировал сделать так, чтобы пользователь мог решать свои проблемы не заходя на конкретный сайт, а сразу в поисковике. Например, заказать/купить/вызвать и так далее. Почему-то дата релиза все время откладывалась.
  • 6 ноября 2013 года – АГС 40. Очередное ужесточение АГС фильтра. Отныне фильтр полностью автоматический.
  • 2014 год. Отныне АГС фильтр не выкидывал страницы из индекса, а обнулял тИЦ. Активная борьба со ссылками. Анонс безссылочной формулы ранжирования для ряда коммерческих тематик в Москве. Очередная волна пессимизации за накрутку ПФ. Волна пессимизации за агрессивную рекламу.
  • 15 апреля 2015 года – Анонс «Минусинск». На «Неделе байнета» Яндекс анонсировал новый алгоритм, направленный на борьбу со ссылочным спамом. На удивление, перед тем как применить санкции к сайтам, Яндекс разослал предупреждения, что весьма несвойственно поисковику.
  • 15 мая – 23 июня 2015 года. За этот короткий промежуток времени прошло три волны, понижающих сайты за ссылочный спам.

Новые алгоритмы поиска Яндекса

2 февраля 2016 года – «Владивосток». Яндекс запустил новый алгоритм, оценивающий «мобилопригодность». Теперь в мобильной выдаче одним из значимых факторов ранжирования является адаптированность сайта под мобильные устройства.

Продолжение следует

Как бы ни усложняли жизнь SEO специалистам, все мы пользуемся поиском. И за последние годы поисковая выдача сильно преобразилась. Причем в лучшую сторону. Надеюсь, Яндекс и дальше будет выдумывать оригинальные способы, ограничивающие возможности воздействовать на результаты поиска. Так работать только интересней.

Яндекс запустил новый алгоритм ранжирования - «Королев». Теперь поисковая система сопоставляет смыслы поискового запроса и страницы. Это очень удобно для пользователей. Однако что новый алгоритм означает для оптимизаторов и владельцев сайтов, как изменится продвижение и стоит ли ждать изменения трафика.

Как никогда весь «сеошный» мир ждал запуска нового алгоритма ранжирования, анонсированного на 22 августа 2017 года. Ещё бы, подобные анонсы – вещь для Яндекса абсолютно нетипичная, обычно они предпочитают не распространяться о своих планах, и сообщают об очередном релизе алгоритма ранжирования постфактум.

22 августа 2017 года Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв» (с 2008-го года новые алгоритмы ранжирования в Яндексе называют в честь городов). Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц - это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Область применения нового алгоритма практически не затрагивает традиционные сеошные сферы интересов, в первую очередь к которым можно отнести коммерческую выдачу. «Королёв» оказался логическим продолжением алгоритма «Палех» и призван обслуживать длинный хвост микрочастотных запросов, как правило, задаваемых на естественном языке. Особенностью таких запросов является то, что релевантные им документы могут не содержать многих из слов, входящих в запрос. Это ставит в тупик традиционные алгоритмы ранжирования, основанные на текстовой релевантности.

Решение найдено в виде использования нейросетей, которые обучаются в том числе и на поведении пользователей. Поэтому новый алгоритм Яндекса работает на основе нейронной сети. Он обучается на примерах запросов пользователей, и подбирает ответы исходя из смысла текста на странице. Это означает, в частности, что он будет гораздо эффективнее работать с нестандартными запросами, когда пользователи сами не уверены, как называется то, что они хотят найти. Здесь многое упирается в вычислительные мощности.

Вообще подобный подход к решению задачи ранжирования длинного микрочастотного хвоста запросов не нов. Еще в 2015-м году стало известно о технологии, применяемой поисковой системой Google для поиска ответов на многословные запросы, заданные на естественном языке – RankBrain. Эта технология, так же основанная на машинном обучении, позволяет распознавать наиболее значимые слова в запросах, и анализировать контекст, в котором осуществляется поиск. Что позволяет находить релевантные документы, которые не содержат всех слов запроса.

Кроме того, алгоритм работает и с картинками. Он анализирует содержание изображения и подбирает необходимый вариант, исходя из него, а не только из описания в тегах или окружающего его текста.

Впрочем, длинный хвост микрочастотных многословных запросов на естественном языке вполне может быть интересен «выжигателям» информационной семантики – создателям так называемых инфосайтов «на все случаи жизни». В общем-то, они и так стараются под как можно большее количество известных им запросов, которые удается заполучить с помощью различных методов сбора семантики, организовать точное вхождение в свои тексты. Там же, где точных вхождений не будет, т.е. для запросов, которые не всосал «семантический пылесос» создателей инфосайтов или для которых им не удалось обеспечить точных вхождений в контент, и начинается вотчина «Королёва», который призван искать соответствия между запросами и ответами в том случае, когда между ними мало пересечений по ключевым словам. В таких случаях «Королёв» несомненно повысит требования к качеству контента, и реально интересные читабельные статьи будут еще больше выигрывать у сборников вхождений ключевых фраз, разбавленных водой, т.к. именно в таких статьях могут содержаться полезные для нового алгоритма сигналы. Ну, а всем остальным сеошникам действительно можно расслабиться – очередная порка откладывается. Жертв и разрушений нет.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел - семантические векторы.

Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Чем он отличается от «Палеха»?

Основным отличием нового алгоритма, помимо улучшения технической реализации, является возможность распознавать схожие «смыслы» по всему документу, а не только по заголовку (Title), который появляется в окне браузера.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком - а не только их заголовки. Это позволяет выйти на новый уровень понимания смысла.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования.

Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Эффект «Королёва»

Умение понимать смысл особенно полезно при обработке редких и необычных запросов - когда люди пытаются описать своими словами свойства того или иного объекта и ожидают, что поиск подскажет его название.


Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ - один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 000 документов.

Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу.

Так можно установить дополнительные смысловые связи.

Люди учат машины

Использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.

Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, - то есть страница хорошо отвечает на его запрос. Это положительный пример.

Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.Статистика, которая используется для обучения алгоритма, обезличена

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования.

Толока

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса - так называемые асессоры. Но чем больше оценок, тем лучше - поэтому Яндекс привлек к этому всех желающих и запустили сервис Яндекс.Толока . Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются - сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат - миллионы пользователей Яндекса. Любой запрос - это анонимный сигнал, который помогает машине всё лучше понимать людей. Новый поиск - это поиск, который мы делаем вместе.

2 ноября 2016 года Яндекс обьявил о введении нового алгоритма поискового ранжирования «Палех». Теперь вебмастерам придется подстраиваться и под его требования.

Напомню, что алгоритмы поискового продвижения, как это следует из их названия, предназначены для выстраивания очередности в поисковой выдаче по определенному запросу. А это очень важно для нас, вебмастеров, т.к. кому нужен сайт, расположенный в выдаче на 50 месте и более – его никто не найдет и туда никто не придет.

Обычно начинающим вебмастерам советуют делать упор на низкочастотные запросы, где гораздо легче пробиться в ТОП и с гораздо меньшими временными и денежными затратами. Вот как раз на такие запросы и ориентирован Палех.

Причем он ориентирован не просто на низкочастотные запросы, а — на очень-очень низкочастотные и даже уникальные запросы. А такие запросы опытных сеошников, как правило, мало интересуют, что дает нам шанс привлечь на свои сайты больше посетителей.

Суть Палеха заключается в том, что теперь ранжирование идет не только по точным ключевым фразам (их очень трудно угадать), но и по схожим по смыслу.

Для решения этой задачи Яндекс обратился к нейронным сетям, которые не программируются в обычном смысле этого слова, а самообучаются. Благодаря самообучению такие сети и способны улавливать смысл поисковых фраз и искать похожие. Подробнее об этом почитайте на его блоге, посвященной Палеху.

В результате Яндекс получил возможность активнее ранжировать фразы из т.н. «длинного хвоста»; тем, кто забыл, что это, напомню.

Что такое «длинный хвост»

В 2004 году шеф-редактор журнала «Wired» Крис Андерсон провел исследование продаж товара (любого товара). Его интересовал вопрос: что в наибольшей степени приносит прибыль – наиболее популярные сегодня товары (т.н. бестселлеры) или товары, выбывшие из списка бестселлеров и перешедшие в разряд ширпотреба (рестселлеры).

Оказалось, что прибыль от обеих групп товаров примерно одинаковая: бестселлеры дают очень большую прибыль в первый период своего появления, потом, с появлением других бестселлеров – более новых, первые переходят в разряд рестселлеров, но продолжают приносить прибыль – до момента снятия с продажи примерно такую же, как и в период их бестселлерства.

Если расположить все эти данные на графике, то получится примерно такая картина:

Эта теория была применена к разным областям человеческой деятельности, в том числе и к SEO. И дала превосходные показатели: оказалось, что по запросам, составляющими «длинный хвост», переходят до половины пользователей Интернета.

Представьте, что вы живете в Череповце и желаете купить стол. Вы будете писать в адресной строке запрос «мебель» или же «купить двухтумбовый письменный стол в Череповце недорого»?

Запрос «мебель» относится к топовым, а наш длиннющий запрос – к длинному хвосту. Чем больше слов употребляется в запросе, тем быстрее он окажется в самых низкочастотных. Обычно считают, что запросы с число слов более двух- трех относятся к низкочастотным, если слов еще больше — это типичный длинный хвост.

Отличный пример приведен на картинке:

Рис.2

По статистике Яндекса из 280 миллионов ежедневных запросов примерно 100 миллионов – запросы из области длинного хвоста. И на такое количество запросов надо как-то реагировать, он и отреагировал – Палехом.

Почему Палех?

Картинки с «длинным хвостом» изображают по-разному, обычно используя изображения животных: крыс, ящериц и т.д. Вот например, динозавр:

Рис.3

Но поскольку сейчас у нас в стране угар патриотизма, то Яндексу надо было найти что-то такое, чего нет ни у кого, а только у русских. Он и нашел – жар-птицу:

Рис.4

Жар-птица часто изображается на палехских миниатюрах, отсюда и «Палех», понятно?

Но изображение и название – дел десятое, нам-то, вебмастерам, что делать и чего ждать?

Берем курс на Палех

Сразу скажу, ждать от «Палеха» уже особенно нечего: он уже два месяца используется Яндексом и успел отранжировать сайты. Поэтому, если у вас за последнее время как-то изменились позиции сайта, то это его рук дело. Яндекс только обьявил 2 ноября, а так алгоритм уже действует.

Коснулся он прежде всего тех сайтов, где много контента. Если контент был хороший, то сайт начал дополнительно ранжироваться по новым ключевикам – по самым что ни на есть низкочастотным запросам. А если Яндекс посчитал его плохим…

Естественно, Яндекс на хороших, так называемых трастовых, сайтах и контент считает хорошим. А как попасть в трастовые сайты? – Это долго и дорого. Самый быстрый путь ведет через . Там есть бесплатная регистрация, но сразу скажу, что у вас, новичков, шансов мало. И есть – 14.500 рублей плюс НДС. Здесь все попроще, но 100%-й гарантии вам никто не даст.

Ну, или пишите, пишите, пишите и при этом очень старайтесь и будет вам траст. Пути к трасту хорошо описаны в Сети, поищите.

VN:F

...И сообщите о ней друзьям:

А еще Вы можете подписаться на рассылку -
у меня в запасе есть много интересных материалов.

Служебная информация о статье:

В статье кратко расматриваются особенности нового алгори тма Яндекса и даются практические советы начинающим вебмастерам

Written by: Sergey Vaulin

Date Published: 11/08/2016


Палех – новый алгоритм Яндекса , 5.0 out of 5 based on 3 ratings

Сегодня был запущен новый алгоритм поиска в Яндексе, который с помощью нейронной сети сопоставляет смысл запросов и вебстраниц - это позволяет Яндексу точнее отвечать на сложные пользовательские запросы и выдавать более релевантные результаты. Как мы писали ранее - алгоритм базируется на категорийном бустинге: то есть способен учитывать так называемые категориальные признаки — признаки, которые принимают одно из конечного количества значений.

Запуск нового алгоритма "Королев"

Презентация нового алгоритма поиска проводилась в Московском планетарии, что как бы намекает на "изменения космического масштаба". Ведущие презентации прямо на сцене нажали на "красную кнопку", ознаменовав тем самым запуск нового алгоритма, название которого - "Королев".

Искусственный интеллект все ближе к человеку

Первый шаг к поиску по смыслу Яндекс сделал в прошлом году, когда был представлен поисковый алгоритм «Палех». В его основе лежит нейронная сеть. Нейросети показывают отличные результаты в задачах, с которыми люди традиционно справлялись лучше машин: скажем, распознавание речи или объектов на изображениях.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы. Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Как работает новый алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком — а не только их заголовков. Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования. Когда вы задаете запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Данная схема позволяет начать подбор документов, соответствующих запросу по смыслу, еще на ранних стадиях ранжирования. В алгоритме «Палех» смысловой анализ - один из завершающих этапов, через который проходят всего 150 документов. В «Королёве» смысловой анализ производится для 200 тысяч документов - в тысячу с лишним раз больше! При этом - «Королёв» не только сравнивает текст веб-страницы с запросом, но и обращает внимание на другие запросы, по которым пользователи переходят на страницу из поиска, что позволяет установить дополнительные смысловые связи между запросами и страницей.

Кто обучает нейронную сеть

Нейронная сеть алгоритма «Королёв» обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают - на какие страницы пользователи переходят по различным запросам и сколько времени проводят на них. Если пользователь открыл веб-страницу и провел на ней много времени - можно предположить, что он получил ответ на свой вопрос - то есть страница хорошо отвечает на его запрос.

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Еще не так давно оценкой поиска занимались только сотрудники Яндекса — асессоры . Но с развитием технологий и проектов - количества асессоров стало катастрофически нехватать. Поэтому Яндекс решил привлечь к этому всех желающих и запустил сервис Яндекс.Толока.

Сейчас в сервисе зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат очень сложные алгоритмы, которые придумывают разработчики, а учат их — миллионы пользователей Яндекса. Любой запрос — это анонимный сигнал, который помогает машине всё лучше понимать людей.

Как Яндекс отправил котов в космос - смотрите в записи презентации из Московского планетария.

Запись презентации Янедкса