Что представляет собой поисковая система. Основные принципы работы поисковых систем в интернете

Зачем маркетологу знать базовые принципы поисковой оптимизации? Все просто: органический трафик — это прекрасный источник входящего потока целевой аудитории для вашего корпоративного сайта и даже лендингов.

Встречайте серию образовательных постов на тему SEO.

Что такое поисковая система?

Поисковая система представляет собой большую базу документов (контента). Поисковые роботы обходят ресурсы и индексируют разный тип контента, именно эти сохраненные документы и ранжируют в поиске.

По факту, Яндекс — это «слепок» Рунета (еще Турция и немного англоязычных сайтов), а Google — мирового интернета.

Поисковый индекс — структура данных, содержащая информацию о документах и расположении в них ключевых слов.

По принципу работы поисковые системы схожи между собой, различия заключаются в формулах ранжирования (упорядочивание сайтов в поисковой выдаче), которые строятся на основе машинного обучения.

Ежедневно миллионы пользователей задают запросы поисковым системам.

«Реферат написать»:

«Купить»:

Но больше всего интересуются…

Как устроена поисковая система?

Чтобы предоставлять пользователям быстрые ответы, архитектуру поиска разделили на 2 части:

  • базовый поиск,
  • метапоиск.

Базовый поиск

Базовый поиск — программа, которая производит поиск по своей части индекса и предоставляет все соответствующие запросу документы.

Метапоиск — программа, которая обрабатывает поисковый запрос, определяет региональность пользователя, и если запрос популярный, то выдает уже готовый вариант выдачи, а если запрос новый, то выбирает базовый поиск и отдает команду на подбор документов, далее методом машинного обучения ранжирует найденные документы и предоставляет пользователю.

Классификация поисковых запросов

Чтобы дать релевантный ответ пользователю, поисковик сначала пытается понять, что ему конкретно нужно. Происходит анализ поискового запроса и параллельный анализ пользователя.

Поисковые запросы анализируются по параметрам:

  • Длина;
  • четкость;
  • популярность;
  • конкурентность;
  • синтаксис;
  • география.

Тип запроса:

  • навигационный;
  • информационный;
  • транзакционный;
  • мультимедийный;
  • общий;
  • служебный.

После разбора и классификации запроса происходит подбор функции ранжирования.

Обозначение типов запросов является конфиденциальной информацией и предложенные варианты — это догадка специалистов по поисковому продвижению.

Если пользователь задает общий запрос, то поисковая система выдает разные типы документов. И стоит понимать, что продвигая коммерческую страницу сайта в ТОП-10 по общему запросу, вы претендуете попасть не на одно из 10 мест, а в число мест
для коммерческих страниц, которое выделяется формулой ранжирования. И следовательно, вероятность вывода в топ по таким запросам ниже.

Машинное обучение МатриксНет — алгоритм, введенный в 2009 году Яндексом, подбирающий функцию ранжирования документов по определенным запросам.

МатриксНет используется не только в поиске Яндекса, но и в научных целях. К примеру, в Европейском Центре ядерных исследований его используют для редких событий в больших объемах данных (ищут бозон Хиггса).

Первичные данные для оценки эффективности формулы ранжирования собирает отдел асессоров. Это специально обученные люди, которые оценивают выборку сайтов по экспериментальной формуле по следующим критериям.

Оценка качества сайта

Витальный — официальный сайт (Сбербанк, LPgenerator). Поисковому запросу соответствует официальный сайт, группы в социальных сетях, информация на авторитетных ресурсах.

Полезный (оценка 5) — сайт, который предоставляет расширенную информацию по запросу.

Пример — запрос: баннерная ткань.

Сайт, соответствующий оценке «полезный», должен содержать информацию:

  • что такое баннерная ткань;
  • технические характеристики;
  • фотографии;
  • виды;
  • прайс-лист;
  • что-то еще.

Примеры запроса в топе:

Релевантный+ (оценка 4) — это оценка означает, что страница соответствует поисковому запросу.

Релевантный- (оценка 3) — страница не точно соответствует поисковому запросу.

Допустим, по запросу «стражи галактики сеансы» выводится страница о фильме без сеансов, страница прошедшего сеанса, страница трейлера на youtube.

Нерелевантный (оценка 2) — страница не соответствует запросу.
Пример: по названию отеля выводится название другого отеля.

Чтобы продвинуть ресурс по общему или информационному запросу, нужно создавать страницу соответствующую оценке «полезный».

Для четких запросов достаточно соответствовать оценке «релевантный+».

Релевантность достигается за счет текстового и ссылочного соответствия страницы поисковым запросам.

Выводы

  1. Не по всем запросам можно продвинуть коммерческую целевую страницу;
  2. Не по всем информационным запросам можно продвинуть коммерческий сайт;
  3. Продвигая общий запрос, создавайте полезную страницу.

Частой причиной, почему сайт не выходит в топ, является несоответствие контента продвигаемой страницы, поисковому запросу.

Об этом поговорим в следующей статье «Чек-лист по базовой оптимизации сайта».

>> Как работают поисковые системы Яндекс и Google

Как работают поисковые системы. Наблюдения и факты.

В данной статье я раскрою все карты относительно того, Яндекс и Google. Я проведу тщательный анализ поисковых систем, и Вы узнаете принцип работы Яндекса и Google, а также какие между ними сходства и различия. Расскажу о таких вещах как сниппет, индексация, выдача результатов и т.д. Вы поймете, как устроены поисковые системы, и каким образом нужно продвигать свой сайт или блог в данных поисковиках.

На момент когда мне в голову пришла мысль создать свой сайт, я даже и не думал о том, как работают поисковые системы, какие в них особенности и в чем сходства и различия. На тот момент меня больше волновал вопрос, как создать сайт , чтобы в нем писать свои статьи. Я думаю многие веб-дизайнеры вначале, не задумываются над тем, как лучше наполнить свой сайт или блог контентом, чтобы он был интересен и поисковым системам и посетителям.

На этот вопрос ведется много дискуссий и каждый дает свою оценку этому вопросу. Лично я только после того, как моему сайту исполнилось полгода, я начал задаваться вопросом касательно того, как мне лучше продвигать свой сайт в поисковых системах и что для этого нужно. И чем дальше я углублялся в данный вопрос, тем дальше я уходил в лес и тем больше я понимал, что поисковая система - это большая система, которая складывается из большого количества факторов, по которым, по их мнению, все сайты и блоги должны находиться в Топе поисковой выдаче.

Я думаю изучать работу поисковых систем нужно, но не углубляться в глубь, так как на своем опыте понял одну вещь - не зависимо, на сколько глубоко Вы тестируете поисковые системы и сколько раз вы это будете делать - результат будет разный, так как поисковые системы постоянно придумывают что-то новое и неординарное и порой такое, что обычному веб-дизайнеру даже и не снилось. Наверное, только сами работники своих поисковых систем знают, как они работают и что нужно делать для того, чтобы попасть к ним в ТОП .

Но, основные понятия, по которым пока придержуются поисковые системы, я думаю нужно знать каждому, особенно новичку и сейчас я дам Вам те самые основные понятия, по которым по моим наблюдениям работают поисковые системы. Я дам Вам статистику и рекомендации, которые способны улучшить позиции сайта или блога в поисковиках. Вам останется, только прочитать мои наблюдения относительно работ поисковых систем и переварить эту информацию, сделав свое заключение.

Итак, вот основные факторы, по которым работают поисковые системы Яндекс и Google.

Как работают поисковые системы Яндекс и Google.

Для всех молодых и только созданных сайтов и блогов возникает один и тот же вопрос: как мне ускорить индексацию моего сайта или блога? Этот вопрос возникал и у меня и мой сайт очень долго не хотел индексироваться поисковыми системами Яндекс и Google. Это теперь я знаю, как можно ускорить индексацию молодого блога или сайта. Так вот, над этим вопросом я бился почти 2 месяца, прежде чем мой сайт проиндексировался поисковыми системами полностью.

Так вот, как же работают поисковые системы и как они индексируют страницы сайта.

Многие веб-мастера знают, что скорость индексации сайта в Яндекс и Google разная. Самая быстрая индексация страниц сайта в Google и это доказанный факт, который я сам проверил на своем сайте. Ну а самая медленная индексация, соответственно у Яндекса. Почему так, а не иначе, я не знаю, но думаю Яндексу еще нужно работать над этим фактором.

Здесь что я хочу еще сказать, так это то, что каждая поисковая система имеет свои понятия относительно качества информации на сайтах и отталкиваясь от этого наблюдения и возникают расхождения по времени и скорости индексирования. Например, один сайт может в Google индексироваться практически моментально, а в Яндексе может даже и не проиндексироваться вообще и на оборот. Это подтверждает тот факт, что все поисковые системы работают поразному и порой продвигаться по каждой из них очень сложно и поэтому многие веб-мастера продвигаются по одной поисковой системе или в нескольких.

На сегодняшний момент основными поисковыми системами являются Яндекс и Google, а все остальные - это лишь пешки в большом царстве. Поэтому, получить индексацию сайта в данных поисковых системах - это получить хороший приток новых посетителей.

2. Сниппет.

Сниппет - это отрывок или кусок текста, который находится на странице сайта и выдается поисковиками в поисковой выдаче пользователям интернета ниже названия страницы или тега . Вот как выглядит сниппет в Google и Яндексе.

Сниппет в Яндексе:

Сниппет в Google:

Как видите на скриншотах, что сниппет у них одинаковый, только различия в расположении элементов (описаний) сайта в выдаче.

Существует такой тег для сниппета, как мета-тег «Description». В этом теге веб-мастера и прописуют тот текст, который они хотят видеть в выдаче поисковых систем. Но, данный тег не всегда учитывают поисковые системы. Это в первую очередь относится к Яндексу. Он может взять от туда описание, а может и не взять, а взять данный сниппет из самого текста страницы сайта. Никто не знает, почему он перебирает, но все же прописуют для Яндекса в мета-теге «Description» свой сниппет.

В Google все проще, если есть на сайте данный тег то Google, в первую очередь, берет описание именно с него. Это уже доказано не один раз. Поэтому, для тех, кто хочет продвигаться в Google, смело можете заполнять данный мета-тег «Description». Лично я не пользуюсь данным тегом, а надеюсь на то, что поисковые системы выберут в моей статье наиболее подходящий сниппет по каждому запросу. Я думаю, это будет более, естественней и привлекательней.

Я вывел для себя такую закономерность что поисковые системы берут сниппет на сайте если нет мета-тега «Description» по первой ключевой фразе и поэтому я стараюсь в самом начале каждой статьи писать ключевую фразу , под которую данная страница заточена и сделать околоссылочный текст. Это работает одинаково и в Яндексе и в Google. Поэтому, Вы можете сами выбирать, где Вам писать сниппет для поисковых систем.

Но, в ваших интересах сделать его привлекательным и информативным для пользователей интернета. Например, возьмем тот факт, что Ваш сайт по какому нибудь запросу находится на 10 месте, а не на первом, но большинство посетителей зайдет именно на Ваш сайт и этот фактор, во-первых: приведет больше посетителей на Ваш сайт, во-вторых: Ваш сайт поисковые системы подымут выше в поисковой выдаче, и сможете получить еще больше посетителей. Поэтому уделите сниппету особое внимание.

3. Выдача результатов.

Что хочу сказать по этому пункту так это то, что я недавно провел свой анализ по своему сайту и сделал для себя некоторые выводы. Выдача в поисковых системах Яндекс и Google разная. Да именно разная. Почему я так считаю, спросите Вы? Недавно, как я уже говорил, я сделал анализ выдачи в этих двух поисковых систем и понял, что более результатов выдает, как не странно, именно Google. Почему я так решил?

У меня есть счетчик посещаемости от Liveinternet и в нем есть такая статистика, по каким запросам находили посетители мой сайт. Я брал эти запросы и проверял в Яндексе и Google и увидел, что Яндекс дает мне больше посетителей, но половину из них заходят на мой сайт по нерелевантным запросам. То есть они заходят на мой сайт, видят, что там нет ответа на их вопрос, и сразу покидают сайт.

Яндекс берет ключевую фразу по каждой странице сайта и распыляет по всем запросам, причем половину слов в этих запросах нет на сайте. В итоге посетитель получает не релевантную страницу, что в итоге сказывается на поведенческом факторе , который сейчас набирает силу. То есть Яндекс берет Ваш запрос и раскидывает по своей базе, потом наблюдает и делает выводы по каким запросам нужно продвигать данную страницу сайта.

Мое мнение, Яндекс просто не знает, как лучше выдать релевантный запрос пользователю интернета. И эта безграмотность данной поисковой системы, хоть и дает больше посетителей, но губит сайты плохими поведенческими факторами.

В Google на мой взгляд, противоположная ситуация. Google дает меньше посетителей на сайт, но результаты более релевантны и соответственно посетители ведут себя на сайте лучше, в плане поведенческих факторов. То есть Google выдает результат более в строгих рамках и все запросы имеют прямое отношение к той информации, которая действительно находится на сайте.

В заключении я хочу подвести итоги данной статьи. На мой взгляд, у Яндекса есть проблемы по многим факторам, кроме посещаемости, но если так пойдет и дальше, то Google в скором времени обгонит Яндекс во всем и будет поисковой системой №1 в русскоязычном сегменте. Я сделал свои наблюдения, и Вы вправе не соглашаться со мной, но я для себя сделал именно такие выводы. Возможно, завтра все поменяется, и я изменю свое мнение касательно работы поисковых систем Яндекс и Google.

На этом все и я думаю Вы выяснили основные моменты того, как работают поисковые системы Яндекс и Google. Жду с нетерпением ваши комментарии на данную тему. Мне интересно ваше мнение и ваши наблюдения.

В последние годы сервисы от «Гугл» и «Яндекс» прочно вошли в нашу жизнь. В этой связи многие наверняка задаются вопросом, что такое поисковая система? Говоря простыми словами, это программная система, предназначенная для поиска информации в World Wide Web. Результаты его обычно представлены в виде списка, часто называемом страницами результатов поиска (SERP). Информация может представлять собой сочетание веб-страниц, изображений и других типов файлов. Некоторые поисковые системы также содержат информацию, доступную в базах данных или открытых каталогах.

В отличие от веб-каталогов, которые поддерживаются только собственными редакторами, поисковики также содержат информацию в режиме реального времени, запуская алгоритм на веб-искателе.

История возникновения

Сами по себе поисковые системы появились ранее всемирной сети - в декабре 1990 года. Первый такой сервис назывался Archie, и он искал по командам содержимое файлов FTP.

Что такое поисковая система в Интернете? До сентября 1993 года World Wide Web была полностью проиндексирована вручную. Существовал список веб-серверов, отредактированный Тимом Бернерс-Ли, который был размещен на веб-сервере CERN. По мере того, как все большее количество серверов выходили в интернет, вышеуказанный сервис не мог успевать обрабатывать такое количество информации.

Одной из первых поисковых систем, основанных на поиске в сети, была WebCrawler, которая вышла в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать любое слово на любой веб-странице. Такой алгоритм с тех пор стал стандартом для всех основных поисковых систем. Это было также первое решение, широко известное публике. Также в 1994 году был запущен сервис Lycos, который впоследствии стал крупным коммерческим проектом.

Вскоре после этого появилось много поисковых машин, и их популярность значительно выросла. К ним можно отнести Magellan, Excite, Infoseek, Inktomi, Northern Light и AltaVista. Yahoo! был одним из самых популярных способов отыскания интересующих веб-страниц, но его алгоритм поиска работал в своем собственном веб-каталоге, а не в полнотекстовых копиях страниц. Искатели информации также могли просматривать каталог, а не выполнять поиск по ключевым словам.

Новый виток развития

Компания Google приняла идею продажи поисковых запросов в 1998 году, начиная с небольшой компании goto.com. Этот шаг оказал значительное влияние на бизнес SEO, который со временем стал одним из самых прибыльных занятий в Интернете.

Примерно в 2000 году поисковая система «Гугл» стала широко известна. Компания добилась лучших результатов для многих поисков с помощью инноваций под названием PageRank. Этот итерационный алгоритм оценивает веб-страницы на основе их связей с другими сайтами и страницами, исходя из предпосылки, что хорошие или желанные источники часто упоминаются другими. Google также поддерживал минималистский интерфейс для своей поисковой системы. Напротив, многие из конкурентов встроили поисковую систему в веб-портал. На самом деле «Гугл» стала настолько популярной, что появились мошеннические движки, такие как Mystery Seeker. Сегодня существует масса региональных версий этого сервиса, в частности, поисковая система Google.ru, рассчитанная на русскоязычных пользователей.

Как работают эти сервисы?

Как же происходит ранжирование и выдача результатов? Что такое поисковые системы с точки зрения алгоритма действий? Они получают информацию через веб-сканирование с сайта на сайт. Робот или «паук» проверяет стандартное имя файла robots.txt, адресованное ему, перед отправкой определенной информации для индексации. При этом основное внимание уделяется многим факторам, а именно заголовкам, содержимому страницы, JavaScript, каскадным таблицам стилей (CSS), а также стандартной разметке HTML информационного содержимого или метаданным в метатегах HTML.

Индексирование означает связывание слов и других определяемых токенов, найденных на веб-страницах, с их доменными именами и полями на основе HTML. Ассоциации создаются в общедоступной базе данных, доступной для запросов веб-поиска. Запрос от пользователя может быть одним словом. Индекс помогает найти информацию, относящуюся к запросу как можно быстрее.

Некоторые из методов индексирования и кэширования - это коммерческие секреты, тогда как веб-сканирование - это простой процесс посещения всех сайтов на систематической основе.

Между посещениями робота кэшированная версия страницы (часть или весь контент, необходимый для ее отображения), хранящийся в рабочей памяти поисковой системы, быстро отправляется запрашивающему пользователю. Если визит просрочен, поисковик может просто действовать как веб-прокси. В этом случае страница может отличаться от индексов поиска. На кэшированном источнике отображается версия, слова которой были проиндексированы, поэтому он может быть полезен в том случае, если фактическая страница была утеряна.

Высокоуровневая архитектура

Обычно пользователь вводит запрос в поисковую систему в виде нескольких ключевых слов. У индекса уже есть имена сайтов, содержащих данные ключевые слова, и они мгновенно отображаются. Реальная загрузочная нагрузка заключается в создании веб-страниц, которые являются списком результатов поиска. Каждая страница во всем списке должна быть оценена в соответствии с информацией в индексах.

В этом случае верхний элемент результата требует поиска, реконструкции и разметки фрагментов, показывающих контекст из сопоставленных ключевых слов. Это лишь часть обработки каждой веб-страницы в результатах поиска, а дальнейшие страницы (рядом с ней) требуют большей части этой последующей обработки.

Помимо простого отыскания ключевых слов, поисковые системы предлагают свои собственные GUI- или управляемые командами операторы и параметры поиска для того, чтобы уточнить результаты.

Они обеспечивают необходимые элементы управления для пользователя с помощью цикла обратной связи, путем фильтрации и взвешивания при уточнении искомых данных с учетом начальных страниц первых результатов поиска. Например, с 2007 года Google.com позволила отфильтровать полученный список по дате, нажав «Показать инструменты поиска» в крайнем левом столбце на странице исходных результатов, а затем выбрав нужный диапазон дат.

Варьирование запросов

Большинство поисковых систем поддерживают использование логических операторов AND, OR и NOT, чтобы помочь конечным пользователям уточнить запрос. Некоторые операторы предназначены для литералов, которые позволяют пользователю уточнять и расширять условия поиска. Робот ищет слова или фразы точно так же, как и введенные команды. Некоторые поисковые системы предоставляют расширенную функцию отыскания, которая позволяет пользователям определять расстояние между ключевыми словами.

Существует также основанный на концепции поиск, в котором исследование предполагает использование статистического анализа на страницах, содержащих слова или фразы, которые вы ищете. Кроме того, запросы на естественном языке позволяют пользователю вводить вопрос в том же виде, который он задал бы человеку (самый характерный пример - ask.com).

Полезность поисковой системы зависит от релевантности набора результатов, который она выдает. Это могут быть миллионы веб-страниц, которые содержат определенное слово или фразу, но некоторые из них могут быть более релевантными, популярными или авторитетными, чем другие. В большинстве поисковых систем используются методы ранжирования, чтобы обеспечить наилучшие результаты.

Каким образом поисковик решает, какие страницы являются лучшими совпадениями с запросом, и в каком порядке должны отображаться найденные источники, сильно варьируется от одного робота к другому. Эти методы также со временем меняются по мере изменения использования Интернета и развитием новых технологий.

Что такое поисковая система: разновидности

Существует два основных типа поисковой системы. Первая - система предопределенных и иерархически упорядоченных ключевых слов, которыми люди массово ее запрограммировали. Вторая - это система, которая генерирует «инвертированный индекс», анализируя найденные тексты.

Большинство поисковых систем - коммерческие сервисы, поддерживаемые доходами от рекламы, и, таким образом, некоторые из них позволяют рекламодателям иметь рейтинг в отображаемых результатах за определенную плату. Сервисы, которые не принимают деньги за ранжирование, зарабатывают деньги, запуская контекстные объявления рядом с отображенными сайтами. На сегодняшний день продвижение в поисковых системах является одним из наиболее прибыльных заработков в сети.

Какие сервисы распространены наиболее всего?

Google - самая популярная поисковая система в мире с долей рынка 80,52% по состоянию на март 2017 года.

  • Google - 80,52%
  • Bing - 6,92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Поисковые системы России и стран Восточной Азии

В России и некоторых странах Восточной Азии Google - не самый популярный сервис. Среди российских пользователей поисковая система «Яндекс» лидирует по популярности (61,9%) по сравнению с Google (28,3%). В Китае Baidu является самым популярным сервисом. Поисковый портал Южной Кореи - Naver используется для 70% процентов онлайн-поиска в стране. Также Yahoo! в Японии и Тайвани является наиболее популярным средством для отыскания нужных данных.

Другие известные русские поисковые системы - «Мейл» и «Рамблер». С началом развития рунета они пользовались широкой популярностью, но в настоящее время сильно сдали свои позиции.

Ограничения и критерии поиска

Несмотря на то, что поисковые системы запрограммированы на ранжирование веб-сайтов на основе некоторой их популярности и релевантности, эмпирические исследования указывают на различные политические, экономические и социальные критерии отбора информации, которую они предоставляют. Эти предубеждения могут быть прямым результатом экономических (например, компании, которые рекламируют поисковую систему, могут также стать более популярными в результатах обычного поиска) и политических процессов (например, удаление результатов поиска в соответствии с местными законами). Так, Google не будет отображать некоторые неонацистские сайты во Франции и Германии, где отрицание Холокоста является незаконным.

Христианские, исламские и еврейские поисковые системы

Глобальный рост Интернета и электронных средств массовой информации в мусульманском мире за последнее десятилетие побудил исламских приверженцев на Ближнем Востоке и Азиатском субконтиненте попытаться создать собственные поисковые системы и отфильтрованные порталы, которые позволят пользователям выполнять безопасный поиск.

Такие сервисы содержат фильтры, которые дополнительно классифицируют веб-сайты как «халяль» или «харам» на основе современного экспертного толкования «Закона Ислама».

Портал ImHalal появился в сети в сентябре 2011 года, а Halalgoogling - в июле 2013 года. Они используют фильтры харам, базируясь на алгоритмах от Google и Bing.

Другие, ориентированные на религию поисковые системы - это Jewgle (еврейская версия Google), а также христианская SeekFind.org. Они фильтрует сайты, которые отрицают или унижают их веру.

В интернете, на различных сайтах пользователю предлагается большой объем разной информации. Для получения необходимых сведений, поиска ответов на вопросы созданы поисковые системы. Услышав это словосочетание, многие думают о Google, «Яндексе». Однако поисковых систем в интернете намного больше.

Что такое поисковая система

Поисковой системой принято считать программное обеспечение, которое состоит из базы данных документов. Пользователям предоставляется специальный интерфейс, который позволяет вводить нужные запросы и получать ссылки с подходящей информацией. На первые позиции в результатах поиска выходят всегда документы, максимально соответствующие тому, что ищет конкретный человек.

Поисковая выдача, которая формируется в соответствии с введенным запросом, обычно содержит разные типы результатов. В ней могут присутствовать интернет-страницы, видео- и аудиофайлы, картинки, pdf-файлы, конкретные товары (если поиск осуществляется по интернет-магазину).

Классификация поисковых систем

Существующие поисковые системы классифицируются на несколько видов. В первую очередь стоит назвать традиционные поисковики. У таких поисковых систем принципы работы ориентированы на поиск информации на огромном количестве существующих сайтов. Поисковые системы еще бывают на отдельных интернет-ресурсах:

  • в интернет-магазинах (для поиска нужных товаров);
  • на форумах и блогах (для поиска сообщений);
  • на информационных сайтах (для поиска статей на нужную тематику или новостей) и т. д.

Поисковые системы еще подразделяют с учетом географического признака. В такой классификации есть 3 группы поисковиков:

  1. Глобальные. Поиск ведется по всему миру. Лидером в этой группе является поисковик Google. Ранее существовали такие поисковые системы, как Inktomi, AltaVista и др.
  2. Региональные. Поиск осуществляется по стране или группе стран, которых объединяет один язык. Региональные поисковики широко распространены. Их пример в России - «Яндекс», Rambler.
  3. Местные. Поиск ведется в конкретном городе. Пример такой поисковой системы - «Томск.ру».

Составляющие элементы поисковиков

В любом поисковике можно выделить 3 составляющих элемента, определяющих принципы работы поисковой системы:

  • робота (индексатора, спайдера, краулера);
  • базу данных;
  • обработчика запросов.

Робот - это специальная программа, предназначение которой заключается в формировании базы данных. В базе данных хранится и сортируется вся собираемая информация. Обработчик запросов, называемый также клиентом, работает с пользовательскими запросами. Он имеет доступ к базе данных. Не всегда клиент располагают на одном компьютере. Обработчик запросов бывает разнесен по нескольким физически не связанным электронно-вычислительным машинам.

Все существующие системы работают по единому принципу. Рассмотрим, к примеру, функционирование традиционных поисковиков, предназначенных для интернета. Функционирование робота схоже с действиями обычного пользователя. Эта программа периодически обходит все сайты, добавляет новые страницы и интернет-ресурсы в базу данных. Данный процесс именуется индексацией.

Когда пользователь в интернете в поисковую строку вводит определенный запрос, работать начинает клиент. Программа обращается к существующей базе данных и по ключевым словам формирует выдачу. Ссылки поисковая система предоставляет пользователю в определенной последовательности. Они сортируются по мере соответствия запросу, т. е. учитывается релевантность.

У каждого поисковика свой способ определения релевантности. Если пользователь отправит конкретный запрос в разные системы, то он получит не совсем одинаковые выдачи. Алгоритм определения релевантности хранится в секрете.

Подробнее о релевантности

Если говорить простыми словами, то релевантностью называется соответствие введенного в поиск слова или сочетания слов конкретным ссылкам в выдаче. На позиции документов в списке влияет несколько нюансов:

  1. Наличие слов, введенных в поиск, в документах. Этот нюанс очевиден. Если в документе есть слова из введенного пользователем запроса, то это значит, что данный документ соответствует условиям поиска.
  2. Частота вхождения слов. Чем чаще употребляются ключевые слова в документе, тем он будет выше в списке выдачи. Однако не все так просто. Слишком частое употребление слов может быть признаком некачественного контента для поисковой машины.

Алгоритм определения релевантности достаточно сложен. Несколько лет назад в выдачу могли попадать ссылки, содержащие нужные ключевые слова, но при этом не соответствующие им по содержанию. В настоящее время принципы работы поисковых систем усложнены. Теперь роботы могут анализировать полностью весь текст. В работу поисковиков заложен учет огромного количества различных факторов. Благодаря этому выдача формируется из наиболее качественных, релевантных ссылок.

Как правильно формулировать запросы

Еще в школе нас учили правильно задавать вопросы. От этого зависит то, какие ответы мы будем получать. Однако это правило не нужно соблюдать при использовании поисковых систем. Для современных поисковиков не играет никакой роли то, в каком числе или падеже пишет человек свой запрос. В любом случае выдача будет включать в себя одинаковые результаты.

Четкая формулировка вопроса поисковым системам не нужна. Пользователю нужно только правильно подбирать ключевые слова. Рассмотрим пример. Нам нужно найти текст песни «День без тебя», которую исполняет известная женская поп-группа «Виа-Гра». При обращении в поисковую систему необязательно называть группу, указывать, что это песня. Достаточно написать «день без тебя текст». Соблюдать регистры, знаки препинания не требуется. Эти нюансы не учитываются поисковиками.

Ведущей поисковой системой в мире является Google. Она была основана в 1998 году. Система очень популярна, что подтверждается аналитическими сведениями. Около 70 % запросов, поступающих в интернет, обрабатывает именно Google. База поисковика огромна. Проиндексировано более 60 триллионов различных документов. Google привлекает пользователей простым интерфейсом. На главной странице расположены логотип и строка поиска. Эта особенность позволяет назвать Google одним из самых минималистичных поисковиков.

На втором месте в рейтинге популярных поисковых систем находится Bing. Она появилась в том же году, что и Google. Создателем этого поисковика является известная международная корпорация Microsoft. Более низкие позиции в рейтинге занимают Baidu, Yahoo!, AOL, Excite, Ask.

Что популярно в России

Среди поисковых систем в России наибольшей популярностью пользуется «Яндекс». Этот сервис появился в 1997 году. Первое время им занималась российская компания CompTek International. Немного позднее появилась компания «Яндекс», которая продолжила заниматься поисковой системой. Поисковик за годы существования завоевал огромную популярность. В нем возможен поиск на нескольких языках - на русском, белорусском, украинском, татарском, казахском, английском, немецком, французском, турецком.

Из статистических сведений известно, что «Яндекс» интересен более 50% пользователей рунета. Более 40 % людей предпочитают Google. Примерно 3% пользователей остановили свой выбор на Mail.ru - русскоязычном интернет-портале.

Защищенные поисковики

Обычные поисковые системы, являющиеся привычными для нас, не совсем подходят детям. Юные пользователи интернета могут случайно найти какие-нибудь материалы для взрослых, информацию, способную навредить психике. По этой причине были созданы специальные защищенные поисковые системы. В их базах хранится только безопасный контент для детей.

Пример одного такого поисковика - «Спутник.Дети». Этот сервис является довольно молодым. Его создала компания «Ростелеком» в 2014 году. Главная страница поисковика ярко и интересно оформлена. На ней представлен широкий перечень отечественных и зарубежных мультфильмов для детей разных возрастов. Дополнительно на главной странице размещены познавательные ссылки, относящиеся к нескольким рубрикам - «Спорт», «Хочу все знать», «Сделай сам», «Игры», «Технологии», «Школьное», «Природа».

Другой пример защищенной детской поисковой системы - Agakids.ru. Это абсолютно безопасный ресурс. Как работает поисковая система? Робот настроен таким образом, что он обходит только те сайты, которые относятся к детской тематике или являются полезными для родителей. В базу поисковой машины попадают ресурсы с мультфильмами, книгами, учебной литературой, играми, раскрасками. Родители, используя Agakids.ru, могут для себя находить сайты по воспитанию, здоровью детей.

В заключение стоит отметить, что поисковики - это сложные системы. Перед ними стоит множество проблем - проблемы спама, определения релевантности документов, отсеивания некачественного контента, анализа документов, не содержащих текстовой информации. По этой причине в работу поисковых систем интернета разработчики внедряют новые подходы, алгоритмы, являющиеся коммерческой тайной.