Группировка семантического ядра. Кластеризация запросов — правильная группировка ключевых слов семантического ядра

Мнения экспертов

Топвизор - один из самых динамичных инструментов на рынке поискового продвижения. Развиваясь поступательно, команда регулярно наращивает число полезных сервисов для SEO-специалистов.

Один из наиболее интересных модулей - быстрая кластеризация поисковых запросов по принципу схожести SERP’ов.

В Топвизор наша компания перешла не по какой-либо рекомендации. Мы тестировали разные сервисы мониторинга позиций, и подкупила отзывчивость разработчика.

Приятно, когда твои предложения внедряют и делают жизнь и работу легче. И спустя время эта способность выслушать и внедрить не исчезла. Это очень круто!

Давно искал удобный сервис проверки позиций, перепробовал массу! То одно не нравилось, то другое... В Топвизоре все можно настроить под себя, а дополнительные возможности радуют еще больше.

Однозначно мастхэв! Надеюсь, что будет и дальнейшее развитие!

Мы перепробовали множество сервисов-конкурентов и выбрали именно Топвизор за качество. А также за точность и скорость проверки позиций. Теперь все новые инструменты тестируем и внедряем в свой рабочий процесс.

Особенно радует отзывчивость команды сервиса и оперативная реализация идей и пожеланий пользователей.

Когда в очередной раз на Маке я не смог открыть KeyCollector, меня спас Топвизор. Здесь я быстро получил ряд данных по сематнике для одного важного исследования. Также, при необходимости я использую Топвизор для проверки позиций сайтов клиентов, очень удобно.

Создатели сервиса знакомы с потребностями рынка, поэтому делают все возможное для автоматизации множества задач, иногда не очень популярных. Приятный и удобный сервис.

Обязательно должен быть в арсенале оптимизаторов.

Для человека, который построил себе репутацию на семантике, крайне важно всегда получать точные данные; это касается и кластеризации, и съема позиций, и аналитики. Топвизор с первых дней задал высокий уровень работы относительно рынка и каждый день подтверждает своё лидерство.

Помимо удобства и точности инструментов сервиса, хочу отметить отзывчивую работу службы поддержки и руководства!

Меня Топвизор поразил своей продуманностью и многофункциональностью. Столько мелочей учтено заранее. Я часто работаю с интерфейсами самых разных SEO-сервисов, много тестирую, но подобного уровня удобства для пользователя пока не видела больше нигде.

Впечатляет подробная Справка, доброжелательность и оперативность саппорта.

Очень удобно в нем работать – снимать и расширять сем. ядро, делать кластеризацию, контролировать позиции как сайтов, так и страниц в соцсетях и видео, каналов на Youtube, следить за конкурентами, анализировать оптимизацию своего сайта. Цены, как оказалось, очень даже доступные для работы. Из этого сервиса мне точно уходить не хочется.

Топвизором пользуюсь давно - с первых недель существования - с 2013 года. И честно говоря, просто решил протестировать еще один сервис для проверки позиций, т.к. текущий на тот момент постоянно падал и тех.поддержка не отвечала совсем.

А поддержка Топвизора отвечала за 2 минуты даже в твиттере и, что очень порадовало, многие мои предложения по улучшению исполнялись чуть ли не в тот же день.

На момент написания отзыва у меня примерно 270 закрытых тикетов и многие фишки появились с моей легкой руки. Казалось бы, причем тут поддержка в сервисе по проверке позиций? Как оказалось - самая главная часть. потому что любой глюк, любую оплошность исправляют быстро и если лишнего сняли со счета - компенсируют. А что со стабильностью? тоже все отлично (ну за исключением выкатки новых фич). За 3 с лишним года с Топвизором я загружал туда сотню различных проектов с семантическими ядрами от 10 до 5000 запросов и не было почти ни одного раза, чтобы проект не снялся вовремя или что-то случилось с данными.

Топвизор - стабильный и быстрый сервис для работы с семантикой, который делает если не все, то почти все: вордстат, адвордс, подсказки, группировка и кластеризация запросов, отличная и понятная аналитика, интеграция с вебмастером, метрикой, GA. Кроме этого есть куча и маленькая тележка сопутствующих сервисов вроде мониторинг изменений на сайте или бид-менеджер для контекста. Все эти фичи я использую на полную катушку почти в каждом новом проекте.

Если вы выбираете сервис для мониторинга позиций и других задач по SEO, рекомендую присмотреться к Топвизору.

Это целый комплекс полезных инструментов: от проверки позиций со сбором сниппетов и снимков поисковой выдачи до подробного технического анализа сайта. От подбора слов, сбора поисковых подсказок до группировки по релевантности и кластеризации тремя разными методами.

Умеет работать и интегрироваться с Яндекс.Метрикой, Я.Вебмастером, Google Analytics и Google Search Console. Настоящий сервис поисковой аналитики.

Топвизор постоянно и динамично развивается, регулярно появляются новые инструменты и расширяется текущий функционал. Интерфейс удобный, интуитивно понятный и очень хорошо продуманный разработчиками сервиса. Уделите особое внимание подробным справочным материалам по инструментам и возможностям Топвизора. Уверен, что даже у новичков не возникнет проблем и вопросов с работой после прочтения.

Начали использовать Топвизор в сентябре 2014 года, как дублирующий сервис для внутренних инструментов мониторинга и аналитики. Со временем и развитием проекта часть функционала внутренних штук полностью отрабатывается не на нашей стороне.

Используем только модуль позиций, получаем статистику по удобному API, с которым отлично дружит и Power BI/Query для визуализаций готовых отчетов по параметрам количества и динамики запросов в ТОП-3..100+ за нужный период времени.

Удобно, что сервис пользуется документооборотом по безналу через Диадок, а готовые счета за неделю до расчётной даты экономят кучу времени. У Топвизора есть самое важное, что может быть в клиентском сервисе, кроме работы технических вещей - крутая поддержка. Реакция на запросы в течении 5-10 минут, видимое желание помочь и разобраться в проблеме и улучшить функционал. Так у городов России в статистике появились разные цвета на графиках, а в справке - пару дополнительных скриншотов.

В этом посте мы расскажем полный алгоритм сбора семантического ядра преимущественно для информационного сайта, но данный подход можно применять и для коммерческих сайтов.

Первоначальная семантика и создание структуры сайта

Подготовка слов для парсинга и первоначальная структура сайта

Перед тем как начать парсить слова, нам надо знать их. Поэтому нам надо составить первоначальную структуру нашего сайта и начальные слова для парсинга (их еще называют маркерами).

Первоначальную структуру и слова вы можете посмотреть:

1. Используя логику, слова из головы (если вы понимаете в теме).
2. У своих конкурентов, которых вы проанализировали при выборе ниш или введя ваш основной запрос.
3. Из википедии. Обычно это выглядит вот так:

4. Смотрим wordstat по вашим основным запросам и правую колонку.
5. Другие тематические книги и справочники.

Например, тема нашего сайта – болезни сердца. Понятно, что у нас в структуре обязательно должны быть все болезни сердца.

Вам не обойтись без медицинского справочника. Я бы не стал смотреть конкурентов, потому что у них могут быть представлены не все заболевания, скорее всего они не успели их охватить.

И ваши начальные слова для парсинга будут именно все болезни сердца, а уже исходя из ключей, которые мы напарсим, вы будете строить структуру сайта, когда начнете их группировать.

К тому же вы можете взять все препараты для лечения сердца, как расширение темы и т.д. Вы смотрите википедию, рубрики у конкурентов на сайте, wordstat, думаете логически и таким способом находите еще маркерные слова, которые будете парсить.

Структура сайта

Вы можете смотреть конкурентов для общего ознакомления, но не всегда вы должны делать структуру как у них. Вы должны исходить в большей степени из логики вашей целевой аудитории, они же вводят запросы, которые вы парсите у поисковиков.

Например, как поступить? Перечислить все болезни сердца, а от них уже вести симптомы, лечение. Или все-таки сделать рубрики симптомы, лечение, а от них уже вести болезни. Эти вопросы обычно решаются при группировке ключевых слов исходя из данных поисковых систем. Но не всегда, иногда вам придется делать выбор самостоятельно и решать, как сделать структуру наилучшей, потому что запросы могут пересекаться.

Вы должны всегда помнить, что структура создается на протяжении всего сбора семантики и иногда в первоначальном виде она состоит из нескольких рубрик, а уже при дальнейшей группировке и сборе она расширяется, так как вы начинаете видеть запросы и логику. А иногда вы сможете её составить и сразу не парся ключевые слова, потому что знаете хорошо тематику или она отлично представлена у конкурентов. Никакой системы по составлению структуры сайта нет, можно сказать это лично ваше творчество.

Структура может быть вашей индивидуальной (отличающейся от конкурентов), но обязательно она должна быть удобной для людей, отвечать их логике, а значит логике и поисковых систем и такой, чтобы можно было охватить все тематические слова в вашей нише. Она должна быть лучшей и удобной!

Думайте наперед. Бывает такое что берете нишу, а потом вам охота ее расширить, и вы начинаете менять структуру всего сайта. А созданную структуру на сайте, очень сложно и муторно менять. В идеале вам надо будет поменять урлы вложения и все это переклеить на самом сайте. Короче, это жесть какая нудная и очень ответственная работа, так что сразу определяйтесь окончательно по мужски, что и как у вас должно быть!

Если вы очень плохо знакомы с тематикой создаваемого сайта и не знаете, как будет строиться структура, не знаете какие начальные слова для парсинга взять, то 1 и 2 этап сбора вы можете менять местами. То есть сначала пропарсить конкурентов (как их парсить разберем ниже), посмотреть их ключи, на основе этого составить структуру и начальные слова для парсинга, а потом уже парсить wordstat, подсказки и т.д.

Для составления структуры я использую майнд менеджер — Xmind . Он бесплатен и в нем есть все основное.

Простенькая структура выглядит вот так:


Это структура коммерческого сайта. Обычно в информационных сайтах нет пересечений и всяких фильтров карточек товаров. Но и эта структура не сложная, составлялась для клиента, чтобы он понял. Обычно мои структуры состоят из множество стрелок и пересечений, комментариев — в такой структуре могу разобраться только я сам.

Можно ли создавать семантику по ходу наполнения сайта?

Если семантика легкая, вы уверены в теме и знаете её, то можно делать семантику параллельно с наполнением сайта. Но первоначальную структуру надо накидать обязательно. Я сам иногда такое практикую в очень узких нишах или в очень широких, чтобы не тратить много времени на сбор семантики, а сразу запускать сайт, но всё-таки не советовал бы так делать. Вероятность ошибок очень большая, если у вас нет опыта. Все-таки легче, когда вся семантика готова, вся структура готова и все разгруппировано и понятно. К тому же в готовой семантике вы видите каким ключам надо уделить первостепенное внимание, которые не имеют конкуренцию и принесут больше посетителей.

Еще здесь надо отталкивать от размера сайта, если ниша широкая, то нет смысла собирать семантику, лучше ее делать по ходу, потому что на сбор семантике может уйти месяц и более.

Так вот мы накидали первоначально структуру или не накидали, решили идти вторым этапом. У нас есть список начальных слов или фраз нашей тематики, которые мы можем начать парсить.

Парсинг и работа в keycollector

Для парсинга конечно же использую keycollector . Я не буду останавливаться на настройке keycollectora, вы можете почитать хелп этой программы или найти статьи по настройке в интернете, их очень много и там все подробно расписано.

При выборе источников парсинга стоит рассчитывать свои трудозатраты и их эффективность. Например, если вы будете парсить базу Пастухова или MOAB, то вы закапаетесь в куче мусорных запросов, которые надо будет отсеивать, а это время. И по моему мнению, это того не стоит, чтобы найти парочку каких-то запросиков. На тему баз есть очень интересное исследование от RushAnalytics, конечно же они там хвалят себя, но если на это не обращать внимание, весьма интересные данные по процентам плохих ключевых слов http://www.rush-analytics.ru/blog/analytica-istochnikov-semantiki

На первом этапе я парщу wordstat, adwords, их подсказки и использую базу ключевых слов Букварикс (десктопная версия бесплатна). Так же раньше просматривал подсказки из Youtube вручную. Но недавно keycollector добавил возможность их парсить, и это прелестно. Если вы полный извращенец, то можете сюда добавить другие базы ключевых слов.

Запускаете парсинг и понеслось.

Чистка семантического ядра для информационного сайта

Мы спарсили запросы и у нас получился список различных слов. В нем конечно же присутствуют нужные слова, а так же и мусорные – пустые, не тематические, не актуальные и т.д. Поэтому их надо почистить.

Ненужные слова я не удаляю, а перемещаю их в группы, потому что:

  1. Они в дальнейшем могут стать пищей для размышления и приобрести актуальность.
  2. Исключаем вероятность случайного удаления слов.
  3. При парсинге или добавление новых фраз, они не будут добавляться, если поставить галочку.


Я иногда забывал её ставить, поэтому настраиваю парсинг в одной группе и парсю ключи только в ней, чтобы сбор не дублировался:


Вы можете работать так или так, кому как удобно.

Сбор частотностей

Собираем у всех слов через direct, базовую частотность [W] и точную [“!W”].


Все что не собралось, дособираем через wordstat.

Чистка однословников и не формат

Фильтруем по однословникам, смотрим их и убираем не нужные. Есть такие однословники по которым нет смысла продвигаться, они не однозначные или дублируют другой однословный запрос.


Например, у нас тематика — болезни сердца. По слову “сердце” нет смысла продвигаться, не понятно, что человек имеет ввиду — это слишком широкий и неоднозначный запрос.

Так же смотрим, по каким словам не собралась частотность – это либо в словах содержатся спец символы, либо слов в запросе более 7. Переносим их в неформат. Малая вероятность что такие запросы вводят люди.

Чистка по общей и точной частотности

Все слова с общей частотностью [W] от 0 до 1 убираем.

Так же убираю и все от 0 до 1 по точной частотностью [”!W”].

Разношу их по разным группам.

В дальнейшем в этих словах можно найти нормальные логические ключевые слова. Если ядро маленькое, то можно сразу вручную все слова с нулевой частотностью пересмотреть и оставить, которые как вам кажется вводят люди. Это поможет охватить тематику полностью и возможно, по таким словам будут переходить люди. Но естественно эти слова надо использовать в последнюю очередь, потому что по ним большого трафика точно не будет.

Значение от 0 до 1 тоже берется исходя от тематики, если ключевых слов много, то можно фильтровать и от 0 до 10. То есть все зависит от широты вашей тематики и ваших предпочтений.

Чистка по полноте охвата

Теория здесь такова: например, есть слово – “форум”, его базовая частотность составляет 8 136 416, а точная частотность 24 377, как видим отличие более чем в 300 раз. Поэтому можно предположить, что данный запрос пустой, он включает очень много хвостов.

Поэтому, по всем словам, я рассчитываю, такое KEI:

Точная частотность / Базовая частотность * 100% = полнота охвата

Чем меньше процент, тем больше вероятность что слово пустое.

В KeyCollector эта формула выглядит вот так:

YandexWordstatQuotePointFreq / (YandexWordstatBaseFreq+0.01) * 100

Здесь тоже все зависит от тематики и количества фраз в ядре, поэтому можно убирать полноту охвата меньше 5%. А где ядро большое то можно не брать и 10-30%.

Чистка по неявным дублям

Чтобы почистить неявные дубли, нам необходимо по ним собрать частотность Adwords и ориентироваться по ней, потому что она учитывает порядок слов. Экономим ресурсы, поэтому будем собирать этот показатель не у всего ядра, а только у дублей.


Таким способом мы нашли и отметили все не явные дубли. Закрываем вкладку — Анализ неявных дублей. Они у нас отметились в рабочей группе. Теперь отобразим только их, потому что съем параметров происходит только тех фраз, которые у нас показаны в группе на данный момент. И только потом запускаем парсинг.


Ждем, когда Adwords снимет показатели и заходим в анализ неявных дублей.


Выставляем вот такие параметры умной групповой отметки и нажимаем – выполнить умную проверку. Таким способом у нас в группе дублей не отметятся только самые высокочастотные запросы по Adwords.

Все дубли лучше конечно еще пробежаться и глянуть вручную, вдруг там что-то выставилось не так. Особенно уделить внимание группам, где нет показателей частотности, там дубли отмечаются случайно.

Все что вы отмечаете в анализе неявных группах, это проставляется и в рабочей группе. Так что после завершения анализа, просто закрываете вкладку и переносите все отмеченные неявные дубли в соответствующую папку.

Чистка по стоп словам

Стоп слова я тоже делю на группы. Отдельно заношу города. Они могут пригодится в дальнейшем, если мы надумаем делать каталог организаций.

Отдельно заношу слова содержащие в себе слова фото, видео. Вдруг они когда-нибудь пригодятся.

А так же, “витальные запросы”, например википедия, отношу сюда и форум, а так же в мед теме сюда могут относится – малышева, комаров и т.д.

Все так же зависит от тематики. Можно еще делать отдельно и коммерческие запросы – цена, купить, магазин.

Получается вот такой список групп по стоп словам:

Чистка накрученных слов

Это касается конкурентных тематик, их частенько накручивают конкуренты, чтобы ввести вас в заблуждение. Поэтому необходимо собрать сезонность и отсеять все слова с медианой равной 0.

А так же, можно глянуть соотношение базовой частотности к средней, большая разница может тоже указывать на накрутку запроса.

Но надо понимать, что эти показатели могут говорить и о том, что это новые слова по которым только недавно появилась статистика или они просто сезонные.

Чистка по гео

Обычно проверка по гео для информационных сайтов не требуется, но на всякий случай распишу этот момент.

Если есть сомнения, что часть запросов геозависимые, то лучше это проверить через сбор Rookee, он хоть бывает и ошибается, но намного реже чем проверка этого параметра по Яндексу. Потом после сбора Rookee стоит проверить все слова вручную, которые указались как геозависимые.

Ручная чистка

Теперь наше ядро стало в несколько раз меньше. Пересматриваем его в ручную и убираем ненужные фразы.

На выходе получаем вот такие группы нашего ядра:

Желтый — стоит покопаться, можно найти слова на будущее.

Оранжевый — могут пригодиться, если будем расширять сайт новыми сервисами.

Красный — не пригодятся.

Анализ конкуренции запросов для информационных сайтов

Собрав запросы и почистив их теперь нам надо проверить их конкуренцию, чтобы понимать в дальнейшем — какими запросами надо заниматься в первую очередь.

Конкуренция по количеству документов, title, главных страниц

Это все легко снимается через KEI в KeyCollector.


Получаем данные по каждому запросу, сколько документов найдено в поисковой системе, в нашем пример в Яндексе. Сколько главных страниц в выдаче по этому запросу и вхождений запроса в заголовок.

В интернете можно встретить различные формулы расчета этих показателей, даже вроде в свежем установленном KeyCollector по стандарту встроена какая-то формула расчета KEI. Но я им не следую, потому что надо понимать что каждый из этих факторов имеет разный вес. Например, самый главный, это наличие главных страниц в выдаче, потом уже заголовки и количество документов. Навряд ли эту важность факторов, как то можно учесть в формуле и если все-таки можно то без математика не обойтись, но тогда уже эта формула не сможет вписаться в возможности KeyCollector.

Конкуренция по биржам ссылок

Здесь уже интереснее. У каждой биржи свои алгоритмы расчета конкуренции и можно предположить, что они учитывают не только наличие главных страниц в выдаче, но и возраст страниц, ссылочную массу и другие параметры. В основном эти биржи конечно же рассчитаны на коммерческие запросы, но все равно более менее какие то выводы можно сделать и по информационным запросам.

Собираем данные по биржам и выводим средние показатели и уже ориентируемся по ним.


Я обычно собираю по 2-3 биржам. Главное чтобы все запросы были собраны по одним и тем же биржам и выведено среднее число только по ним. А не так, что какие то запросы собрали одними биржами, а другие другими и вывели среднее.

Для более наглядного вида можно применить формулу KEI, которая покажет стоимость одного посетителя исходя из параметров бирж:

KEI = AverageBudget / (AverageTraffic +0.01)

Средний бюджет по биржам делить на средний прогноз трафика по биржам, получаем стоимость одного посетителя исходя из данных бирж.

Конкуренция по мутаген

Его нет в keycollector, но это не помеха. Без проблем все слова можно выгрузить в Excel, а потом прогнать через KeyCollector.

Чем же лучше Keyso? У него больше база по сравнению с конкурентами. Она у него чистая, нет фраз которые дублируются и пишутся в разном порядке. Например, вы не найдете там таких повторяющихся ключей “диабет 1 типа”, “1 типа диабет”.

Так же Keyso умеет палить сайты с одним счетчиком Adsense, Analytics, Leadia и др. Вы можете увидеть какие еще есть сайты, у владельца анализируемого сайта. Да, и вообще по поиску сайтов конкурентов, считаю это лучшее решение.

Как работать с Keyso?

Берем один любой сайт своего конкурента, лучше конечно побольше, но не особо критично. Потому что мы будем работать в две итерации.Вводим его в поле. Жмакаем — анализировать.

Получаем информацию по сайту, нам здесь интересны конкуренты, жмем открыть всех.


У нас открываются все конкуренты.


Это все сайты, у которых хоть как-то пересекаются ключевые слова с нашим анализируемым сайтом. Здесь будет youtube.com, otvet.mail.ru и т.д., то есть крупные порталы, которые пишут обо всем подряд. Нам они не нужны, нам нужны сайты чисто только по нашей тематике. Поэтому мы их фильтруем по следующим критериям.

Похожесть – процент общих ключей от общего числа данного домена.

Тематичность – количество ключей нашего анализируемого сайта в ключах домена конкурента.

Поэтому пересечение этих параметров уберет общие сайты.

Ставим тематичность 10, похожесть 4 и смотрим, что у нас получится.

Получилось 37 конкурентов. Но все равно еще их проверим вручную, выгрузим в Excel и если надо уберем не нужные.


Теперь переходим на вкладку групповой отчет и вводим всех наших конкурентов, которых мы нашли выше. Жмем – анализировать.

Получаем список ключевых слов этих всех сайтов. Но мы еще полностью не раскрыли тематику. Поэтому мы переходим в конкуренты группы.

И теперь мы получаем всех конкурентов, тех всех сайтов которые мы ввели. Их в несколько раз больше и здесь так же много общетематических. Фильтруем их по похожести, допустим 30.

Получаем 841 конкурента.


Здесь мы можем посмотреть, сколько страниц у этого сайта, трафика и сделать выводы, какой же конкурент самый эффективный.

Экспортируем всех их в Excel. Перебираем руками и оставляем только конкурентов нашей ниши, можно отметить самых эффективных товарищей, чтобы потом оценить их и глянуть какие у них есть фишки на сайт, запросы дающие много трафика.

Теперь мы опять заходим в групповой отчет и добавляем уже всех найденных конкурентов и получаем список ключевых слов.

Здесь мы можем список сразу фильтрануть по “!wordstat” Больше 10.


Вот они наши запросы, теперь мы можем их добавить в KeyCollector и указать, чтобы не добавлялись фразы, которые есть уже в любой другой группе KeyCollector.

В сегодняшнем выпуске На Доске про семантику и структуризацию ключевых слов для сайта.

О том, что такое кластеризация семантического ядра. Зачем нужно кластеризировать и как это можно сделать.

Про это рассказывает Олег Шестаков , основатель Rush Analytics .

Видео получилось довольно таки объемным. В нем основные нюансы связанные с кластеризацией.

Переходим к просмотру видео:

Фото с доски:

Важно : Если у вас есть вопросы, то смело задавайте их в комментариях. Олег с удовольствием на них ответит.

Расшифровка видео

1. Что такое кластеризация?

Кластеризация по методу подобия топов - это группировка ключевых слов на основе анализа выдачи поисковых систем. Как это происходит?

  • Берем два запроса, например, «блеск для губ» и «купить блеск для губ».
  • Собираем для каждого из запросов поисковую выдачу, сохраняем 10 url из каждой выдачи и проверяем, есть ли общие url в обеих выдачах.
  • Если есть хотя бы 3-5 (в зависимости от точности кластеризации, которую мы зададим), то эти запросы группируются.

2. Зачем делать кластеризацию?

Почему тренд кластеризации на рынке уже около полутора лет? Почему это важно и как это поможет?

  • Экономия времени. Кластеризация - замечательная технология, которая поможет сократить рутину при работе с группировкой семантического ядра. Если обычный специалист по семантическому ядру разбирает 100 000 ключевых слов, отделяя их на группы, порядка 2-3 недель (а то и больше, если сложная семантика), то кластеризатор может это разделить в порядке очереди примерно за час.
  • Позволяет избежать ошибки продвигать разные запросы на одну страницу. В Яндексе есть классификаторы, которые оценивают коммерческие запросы. Например, выдача по информационным запросам и коммерческим - совершенно разная. Запросы «блеск для губ» и «купить блеск для губ» никогда не получится продвинуть на одну страницу.

1) По первому запросу («блеск для губ») стоят сайты информационной тематики (irecommend, Википедия). Под этот запрос нужна информационная страница.

2) По второму запросу («купить блеск для губ») — коммерческие ресурсы, известные интернет-магазины. Под этот запрос нужна коммерческая страница.

То есть под разные запросы нужны разные типы страниц. Частая ошибка отимизатора - когда он продвигает все вместе на одну страницу. Получается так, что половина семантического ядра выходит в ТОП-10, а вторая половина никак не может туда попасть. Кластеризатор позволяет избежать таких ошибок.

Для того чтобы так не происходило, нужно изначально правильно сгруппировать запросы по типам страниц по выдаче.

3. Как кластеризация помогает в продвижении?

  • скорость обработки данных,
  • классификация страниц, под которые делается продвижение.

Если структура сайта сгруппирована и внутренняя оптимизация сделана правильно, то это уже половина дела, если мы говорим о российском рынке. Под западные рынки, естественно, потребуются ссылки. По нашему опыту, где-то 50-60% запросов при правильной кластеризации и правильной текстовой оптимизации просто выходит в ТОП без какого-либо внешнего вмешательства. Для интернет-магазинов либо классифайдов (агрегаторов и порталов) в принципе даже не нужны и тексты.

Кластеризация - залог правильного ранжирования. На данный момент нет смысла бороться с ранжированием поисковой системы, а проще подстроиться под это ранжирование, войти в нужные типы страниц и успешно продвигаться. Сменить парадигму продвижения какой-то тематики - скорее нереально, чем реально.

4. Какие есть методы кластеризации? (Hard/Soft)

Soft — это то, что было описано ранее. Берется маркерный запрос какой-то категории интернет-магазина, к нему привязываются другие запросы, сравнивается выдача. «купить блеск для губ», «купить блеск для губ в москве», «купить блеск для губ цены» — они имеют с главным запросом 4-5 связей.

Эти запросы привязываются. На этом проверка заканчивается, получается кластер ключевых слов и его можно продвигать.

Но есть тематики более конкурентные, например, пластиковые окна. Здесь нужно проверить, чтобы все запросы, которые были привязаны к главному, могли быть продвинуты друг с другом.

Нужно сравнить, есть ли в выдаче по этим запросам

одинаковый url. Сравниваем выдачу не только с главным запросом, но и между собой. И группируем только те запросы, которые могут быть связаны между собой.

Для большинства случаев хватает Soft кластеризации. Это интернет-магазины (не очень конкурентные категории), информационные ресурсы.

5. Кластеризация в Rush Analytics

У нас есть модуль кластеризации и 3 типа кластеризации:

  • По Wordstat. Самый простой и менее затратный по времени с точки зрения оптимизатора метод. Идеально подойдет для ситуаций, когда мы не знаем о структуре сайта практически ничего.

1) В Excel загружаете в одну колонку ключевые слова, в другую - частотность по Wordstat, и отправляете на кластеризацию.

2) Мы сортируем весь список по убыванию: наверху получаются самые частотные слова (обычно самые короткие).

3) Алгоритм работает так: мы берем первое слово, пробуем привязать к нему все остальные слова, группируем. Все, что привязалось, вырезаем, делаем сортировку заново и опять повторяем эту итерацию.

4) Из списка ключевых слов мы получаем набор кластеров.

По маркерам

Подходит для сайтов, где структура определена. Очень хорошо работает в e-commerce (например, интернет-магазины).

1) Мы знаем маркерный запрос (основной запрос страницы или несколько запросов, под которые она продвигается).

2) Мы берем список ключевых слов, в колонке справа единицами отмечаем маркерные запросы, и нулями - все остальные запросы.

3) Мы берем маркерное ключевое слово и пытаемся привязать к нему остальные ключевые слова и сгруппировать в кластеры. Здесь важно, что в этом алгоритме маркерные слова, которые мы пометили единичками, никогда не будут связаны между собой. Мы не будем пытаться их привязать.

Комбинированная кластеризация

Этот алгоритм совмещает в себе два предыдущих

1) Мы загружаем ключевые слова, отмечаем «маркер/не маркер» и частотность.

2) Привязываем к маркерным запросам все слова, которые мы можем привязать.

3) Берем ключевые слова, которые остались не привязанными, и группируем их между собой по Wordstat.

4) Все остальное откинется в «некластеризованные».

5) В итоге - структура, которую мы уже знаем. Также получится автоматическая кластеризация всех остальных ключевых слов, что поможет нам расширить структуру. Все эти типы кластеризации есть в Rush Analytics .

Какие еще есть инструменты на рынке?

Из достойных, кроме Rush Analytics, можно выделить сервис JustMagic, где есть и Hard и Soft кластеризация. Сервис разработал Алексей Чекушин.

Это все, что вам нужно знать о кластеризации, чтобы начать работу по группировке ключевых слов.

Используйте кластеризацию и экономьте свое время. К тому же, люди часто ошибаются, процент ошибок оптимизатора — порядка 15%. Доверьте рутину роботам - не нужно разбирать это руками.

Привет, дорогие друзья! С наступившим Новым Годом вас, надеюсь, вы уже отошли от праздников и настроились на боевой лад. У меня для вас новогодний подарок сегодня — очень крутой практический пост. Пост не мой, но более чем достоин появиться на страницах этого блога.

Обзор составлен крутым чуваком по имени Дмитрий Мирошниченко. Дима живет в Волгограде, работает руководителем проектов в местной веб-студии, которая занимается развитием и продвижением собственных проектов. А еще Дима — кандидат наук, а это вам не хухры-мухры!

Всё что написано ниже является моей точкой зрения и основано на моём жизненном опыте. Я не претендую на истину в последней инстанции. Если вы видите какие-то процессы иначе и знаете, как можно решить поставленную задачу эффективнее, крайне желательно не сдерживать себя и написать об этом в комментарии.

Итак, задача: составить семантическое ядро для сайта. Что означает слово «семантическое»? Вот что нам сообщает Википедия. Сема́нтика (от др. -греч. σημαντικός - обозначающий) - раздел лингвистики (в частности, семиотики), изучающий смысловое значение единиц языка. То есть нам нужно выделить смысловые направления для структуры сайта.

Как обычно решается эта задача?

  1. Парсим запросы (вордстат , различные базы, подсказки, сервисы типа спайвордс и семраш , открытые счётчики статистики и другие источники)
  2. Отсеиваем мусор и проверяем частотность
  3. Распределяем запросы на группы
  4. На основе групп делаем структуру сайта и распределяем статьи

Первые два пункта успешно решаем с помощью кейколлектора . Тут особых мук выбора не возникает. Кейколлектор действительно удобный инструмент.

Третья задача самая интересная. Её решение мы и будем рассматривать.

Четвёртая задача решается достаточно тривиально, если третья была качественно реализована.

Исходные данные

Информационный сайт дачной тематики. Раздел «кустарники и деревья». Всего было собрано 562 ключа. Это тренировочный набор данных. Мне было важно сравнить результаты работы разных инструментов.

Для раздела информационного сайта были собраны запросы, убран мусор и расставлена частотность «!» по вордстату больше 30. Нужно их распределить по группам.

Распределять запросы можно вручную и автоматом. Вручную распределяем по смыслу. Тут всё понятно. Для автоматической кластеризации есть много способов. Более подробно рассмотрим для каждого инструмента.

Инструменты, облегчающие ручную кластеризацию запросов

Excel, LibreOffice, OpenOffice

Думаю, тут нет смысла подробно описывать, как работать с этими инструментами.

Достоинства

  • высокая точность обработки — руками всё-таки обрабатываем
  • универсальность — можно учитывать кучу параметров
  • в случае с LibreOffice, OpenOffice — бесплатные

Недостатки

  • в случае с Excel — платный
  • низкая скорость работы — при работе с большими объёмами данных
  • нужно делать бекапы

Google документы

Достоинства

  • аналогично предыдущему пункту
  • онлайн сервис — удобный доступ к документу
  • не нужно делать бекапы
  • бесплатный

Недостатки

  • скорость работы всё также низкая

kg.ppc-panel.ru

Онлайн сервис. Загружаешь запросы, фильтруешь, выделяешь группы.

Работает быстро. Функционал достаточный (кроме сохранения проектов), хороший интерфейс.

Достоинства

  • удобный интерфейс
  • быстро работает
  • наглядность
  • не нужно регистрироваться
  • бесплатный
  • онлайн сервис

Недостатки

  • нельзя сохранять проекты можно, только выгружать уже готовые
  • вытекает из предыдущего — если сервис заглючит, то потеряются все наработки
  • нельзя загружать частотности

Keyword Assistant — cоздание структуры будущего сайта

Ещё один онлайн сервис. Аналогичен предыдущему. Уже можно сохранять проекты.

Достоинства

  • проекты сохраняются
  • хороший и понятный интерфейс
  • можно загружать частотности
  • бесплатный
  • онлайн сервис

Недостатки

  • скорость работы повыше, чем при работе с excel, но всё равно сопоставимая
  • для параноиков — непонятно где хранятся ваши данные

Инструменты для автоматической кластеризации запросов

Группировщик ключевых слов для PPC

Десктопная версия со странной логикой поведения. Подробности по ссылке выше (где скачать, можно найти там же).

Краткое описание работы алгоритма кластеризации:

У нас есть некий набор ключевых слов. Перед составлением индекса, скрипт нормализует все словоформы. На следующем этапе скрипт группировки определяет частоты для всего индекса документа и выстраивает рейтинг. Частоты считаются для каждого слова (после нормализации). Если у нас есть «отдых в тунисе» то скрипт считает частоты для «отдых» и «тунис».

На данном этапе – рейтинг слов выстраивается от наиболее частотных к менее частотным. Зачем это нужно? Чтобы создать основные группы. Скажем так, если слово «египет» встречается чаще чем слово «отель» то поисковый запрос (например, [недорогие отели египта]) включающий слово «отель» будет отнесен к группе «египет» а не наоборот.

Итак, мы сгруппировали слова, но довольно примитивно. Далее – нам нужна более точная группировка.

Более точная группировка означает, что внутри каждой группы скрипт создаст подгруппы и распределит слова между ними.
На данном этапе точно также будет выстраиваться рейтинг слов по частоте. При этом рейтинг будет создаваться только внутри группы, основное слово группы (оно же – название группы) не будет принимать участие в рейтинге. Кроме того, рейтинг слов в группе выстраивается по обратной частотности. Т.е. слово с наименьшей частотностью – первым создаст «свою» подгруппу.

Конечно, создать свои подгруппы могут только те слова, которые встречаются не менее N-раз (задается в настройках скрипта, но обычно это не менее 4-5).

Именно такой подход работает очень эффективно, когда основные группы создаются на основе рейтинга от наиболее частотных слов к наименее частотным, а подгруппы – от наименее частотных к наиболее частотным.

На выходе получаем сгруппированный список.

Достоинства

  • пока бесплатный
  • быстро работает

Недостатки

  • десктопная версия
  • как-то криво сохраняется проект
  • как там удалить что-нибудь?
  • крайне странная логика поведения, откуда в системе слова которых там не было? (видно на скрине)
  • алгоритм не учитывает смысла слов, только общий корень — самый существенный недостаток
  • заявлено огранивение в 1000 ключей
  • нельзя загрузить частотность
  • нужно делать бекапы

Rush Analytics

Онлайн сервис кластеризации запросов на основе выдачи ПС. Точнее кластеризация это только одна из возможностей сервиса. Более подробное описание доступно на сайте.

Кратко об алгоритме работы:

Кластеризация – это автоматическая разбивка ключевых слов на группы.
Как работает технология?
Вы загружаете список ключевых слов, выбираете тип кластеризации – система анализирует ранжирование поисковых систем и с помощью нашего алгоритма разбивает ключевые слова на группы, которые будут отлично ранжироваться в поисковых системах. На выходе Вы получаете ключевые слова разбитые на группы.

Можно выставить силу группировки. Выставляется видимо в попугаях. На выходе excel файлики с выбранной силой группировки. На первой вкладке кластеры. На второй всё, что осталось без кластеров.

Плата снимается только для сгруппированных запросов (максимальное количество).

Напомню, всего 562 запроса. Сколько запросов сгруппировалось для каждого варианта видно в таблице ниже.

Получаем максимальное число сгруппированных запросов 359. Неплохо для автомата. Сколько это стоило?

Получаем, что кластеризация 359 запросов обошлась в 552,5 рубля или чуть больше 1,5 рублей за зарос (хотя цифра группировки за запрос мне совершенно не интересна, но для общей картины пусть будет). Тут нужно уточнить, что кластером считается более двух запросов. Сколько групп получилось так и не придумал, как посчитать.

Теперь посмотрим что там по качеству.

Выберем тестовую группу по черешне. Вот список исходных запросов:

как правильно обрезать черешню валерий чкалов черешня черешня бычье сердце черешня дерево черешневый сад черешня ипуть обрезка молодой черешни обрезка черешни черешня сорта сорта черешни

Получилось два кластера для силы группировки 4 и 5:

Для силы группировки 3, кластер обрезки немного расширен:

Очевидно, что результат так себе.

Если бы я делал вручную, то кластер по сортам выглядел бы примерно так:

черешня бычье сердце черешня ипуть валерий чкалов черешня черешня сорта сорта черешни

Так что алгоритмы явно нужно допиливать.

Достоинства

  • онлайн сервис
  • все проекты сохраняются
  • при регистрации выдают 3000 рублей на счёт (на момент публикации, по моему уже прикрыли такую халяву)
  • худо бедно, но учитывается смысл (а не только общий корень) на основе выдачи поисковиков

Недостатки

  • пока в стадии тестирования (на момент публикации уже вроде нет)
  • платный
  • дорого — хорошо если ядро 500 запросов, а если тысячи и сотни тысяч?
  • всё равно нужно доделывать руками, полного автомата не получается

SEMparser — Структуризация семантики для SEO и контекста

Ещё один онлайн кластеризатор на основе выдачи поисковика.

Как работает (взято с сайта):

Как выглядит внутри:

После автоматической кластеризации появляется окно редактирования, где можно подправить ошибки.

Скачивается excel файлик. На первой вкладке запросы и группы с подробностями.

На второй вкладке только группы.

На третьей вкладке какой-то топ тематики.

Так же можно установить силу группировки. Потестил теже цифры: 3, 4 и 5.

Тут нужно уточнить, что кластер из одного запроса это тоже кластер. И он учитывается. Так что формально получается, что сгруппировалось 100% запросов. А вот сколько получилось групп с запросами 2 и более я тоже не придумал как посчитать.

Так же нужно учитывать, что ценообразование немного другое. Деньги снимаются за все запросы, которые есть в документе. Я купил 600 запросов, что обошлось мне в 288 рублей. Получаем стоимость одного запроса 0,48 копеек. После группировки у меня в системе осталось 38 запросов. В итоге группировка тестовой выборки ключей обошлась в примерно в 270 рублей. Что в два раза ниже, чем в предыдущем сервисе.

Посмотрим, что тут с качеством.

Для всех сил группировки получилось — 4 группы:

валерий чкалов черешня (1/170) валерий чкалов черешня (170) черешня ипуть (5/472) черешня ипуть (159) сорта черешни (134) черешня сорта (92) черешня дерево (44) черешневый сад (43) черешня бычье сердце (1/64) черешня бычье сердце (64) обрезка черешни (3/352) обрезка черешни (226) как правильно обрезать черешню (86) обрезка молодой черешни (40)

Тоже видим, что по смыслу не идеально. Нужно дорабатывать руками.

Достоинства

  • онлайн сервис
  • все проекты сохраняются
  • 50 запросов для теста при регистрации
  • худо бедно учитывает смысл
  • дешевле, чем предыдущий вариант

Недостатки

  • платный
  • алгоритм работает не идеально, нужна ручная коррекция

Just Magic — автоматический подбор семантики для SEO и контекстной рекламы

Интересный сервис на мой взгляд. Дизайн сайта: привет консоль.

Что у них заявлено на сайте:

— Собирать семантику для существующих страниц сайта, сразу правильно привязывая запросы к ним.
— Расширять существующую структуру сайта.
— Предлагать тематическую семантику для новых страниц сайта на основании текущего СЯ.
— Создавать семантику для проектируемого сайта.
— И просто кластеризовать запросы. Включая тематическое разбиение.

Можно посмотреть доклад разработчика на ТопЭксперте:

Вот что мне ответили разработчики про то, как там всё устроено:

Мы решаем сугубо утилитарную задачу — определить какие запросы могут продвигаться на одной странице.

Отсюда и метод решения — мы собираем выдачу ПС по каждому запросу и кластеризацию проводим на ее основании.

Фактически, нам необходимо решить достаточно простую задачу — раскидать запросы по совпадению URL в выдаче, попутно позаботившись, чтобы в один кластер не попали принципиально разные типы запросов. Типы мы выделяем такие:
— Коммерческий/информационный.
— «На морду»/"на внутряк".
— Однословный/2+ словный.
— С маркерами типа контента/без них.

«Маркеры типа контента» — это слова запроса, которые ПС использует для выставления требований к контенту на продвигаемой странице. Например — («отзывы», «видео», «скачать», «фото»).

Поскольку задача определена и набор входных данных довольно прост, то и алгоритм не замысловат. В основном алгоритме системы машинное обучение не используется. Центроиды в текущем алгоритме мы де-факто используем (один из запросов является «центром» кластера, а остальные должны иметь определенную меру схожести с ним). Сейчас используется «жадный» алгоритм их (центров) выделения. Но в этом методе есть определенные недостатки, поэтому в следующей версии алгоритма, которая сейчас внедряется, мы в принципе откажемся от понятия запроса-центра кластера.

Машинное обучение мы тоже используем, но в другом месте — автоматическая генерация запросов-маркеров на основании данных Яндекс.Метрики.

Пока попробовать не удалось. Отправил запрос на тестовый доступ. Сказали у них обновление. Основной функционал стоимостью от 30 000 руб/месяц будет доступен в конце января. Для простых смертных с объёмами поменьше в феврале.

Если всё будет работать, как заявляют, то будет очень круто. Посмотрим.

Достоинства

  • хорошие перспективы
  • онлайн сервис

Недостатки

  • пока нет версии для простых смертных, только месячная подписка
  • попробовать так и не удалось
  • как есть — дорого

SEO intellect — Сервис автоматизации SEO работ

Ещё один онлайн сервис по кластеризации. Заявленный функционал:

Сервис автоматизации SEO работ
● кластеризация запросов
● подбор посадочных страниц
● поиск конкурентов
● помощь в оптимизации контента
● заказ оптимизированных текстов

Мне так и не удалось его заставить работать. Нет никакой справки, никаких подсказок...

Достоинства

  • онлайн

Недостатки

  • так и понял как с ним работать
  • платный

Coolakov.ru — Разбивка ключевых запросов

Описание на сайте:

Сервис позволяет автоматически группировать уже собранные запросы. Разбивка запросов на группы производится на основе схожести топ10 Яндекса.

Про особенности алгоритма ничего найти не удалось.

Для моих 562 запросов получилось 305 групп. В группе минимум один запрос. Посмотрим что там с нашей черешней:

Видно, что группы 73 и 189 можно было бы и объединить… Ну и в остальном тоже понятно. Кластеризация, мягко говоря, не идеальная.

Достоинства

  • онлайн сервис
  • бесплатный

Недостатки

  • Как это скачать? Нет никаких кнопок, чтобы скачать. Можно только скопировать текст.
  • Без регистрации можно работать только с 20-00 до 7-00 по Москве. Зарегистрироваться никак нельзя. Вообще.

s:toolz — профессиональный инструмент кластеризации запросов на основе поисковой выдачи

Очередной сервис кластеризации. Особенность в том, что работает не в автоматическом режиме. Это же его и недостаток.

Порядок работы

Заявленный функционал:

Сервис кластеризации запросов предназначен для быстрой автоматизированной группировки больших списков запросов (ключевых слов для продвижения) в кластеры, которые формируются исходя из выдачи поисковых систем и представлений поисковой системы Яндекс о потребности пользователя.

Запросы из одного кластера необходимо продвигать на 1 страницу.

Отправил бриф. Ответили через два дня. Оказывается, у них заявки в ручном режиме обрабатываются. Пишут, что так больше получают обратной связи. В будущем грозятся сделать всё в автомате.

Сама кластеризация, пишут, длилась меньше минуты. Цитата:

На просчет вашей заявки ушло меньше минуты. Самое большое, что приходилось на данный момент обрабатывать — 55к, расчет шел около 3 часов.

Что пишут про алгоритм работы:

Алгоритм группировки разработан свой. Данные — топ 10 яндекса по каждому запросу. Машинное обучение используем, но для другого функционала, который скоро будет представлен.
Есть проблемы с релевантными страницами в отчете. В индекс поисковика не всегда попадает то, что нужно, особенно, если над проектом еще не работал специалист.
В результате приходится дополнительно обрабатывать результат руками, при определенном кол-ве запросов это уже грустно. Задача в процессе решения.

Кластеризация моих 562 запросов обошлась мне в 309 рублей. Имеем 60 копеек за запрос. Скидок не давали. Да я и не просил.

Теперь посмотрим что там с качеством:

обрезка черешни как правильно обрезать черешню обрезка молодой черешни сорта черешни черешнЯ сорта черешнЯ дерево валерий чкалов черешнЯ черешнЯ бычье сердце черешневый сад черешнЯ ипуть

Снова сорта остались без кластеров.

Достоинства

  • коммуникабельность тех поддержки, ответили на все вопросы
  • онлайн сервис

Недостатки

  • работает не в автоматическом режиме, человеческий фактор портит впечатление
  • платный
  • нужна ручная коррекция кластеров

Mc-Castle.ru — Кластеризатор СЯ

И ещё один сервис. Кластеризует тоже, видимо, по словоформе. Никаких поисковиков.

Результат работы:

Что с этим дальше делать я понять не смог. Как мне разбить по кластерам? Как посмотреть какие запросы попали в один кластер? Ну и если разбивка идёт на основе словоформ, то ни о каком объединении по смыслу речи не идёт.

Достоинства

  • онлайн сервис
  • бесплатный
  • не нужно регистрироваться

Недостатки

  • странный интерфейс
  • алгоритм разбивки на основе словоформ

Key Collector

Почти всем известная программа, кто так или иначе сталкивался со сбором ключей.

Группировка это только маленькая часть того, что она умеет.

Запросы можно сгруппировать по составу фраз, по выдаче поисковиков и в комбинированном режиме. Группировка на основе поиска работает кода собраны данные для KEI. На сбор информации для группировки ушло несколько минут. Сама группировка длилась меньше минуты.

Лучшей группировки удалось добиться со следующими параметрами:

В первом случае сгруппировалось 381 фраза или 68% от общего числа. Во втором случае 403 или 72%, что очень хорошо.

Интересующие нас черешни по сортам (ипуть, бычье сердце...) тоже и не попали к сортам. Были выделены в отдельные группы. Что, в общем, и не удивительно.

Остальные запросы сгруппировалась более или менее. В итоге имеем 72% экономии времени (остальное доделывать руками).

Достоинства

  • понятный интерфейс
  • можно подбирать настройки группировки
  • куча других возможностей по работе с ключами
  • демократичная цена
  • отличная тех поддержка

Недостатки

  • десктопная версия
  • нельзя редактировать получившиеся группы в программе — только в excel
  • для работы нужны антигейт, прокси, аккаунты — с онлайн сервисами таких заморочек нет, они берут эти проблемы на себя
  • нужна ручная коррекция кластеров

МегаЛемма — автоматизация составления семантического ядра и кампаний Яндекс.Директ

Десктопная программы для кластеризации.

Сложно просто взять и работать. Юзабилити хромает.

Жму нормализовать. Он мне выдаёт сообщение, что нужно сохранить проект. А автоматически нельзя сохранить проект? Зачем мне нажимать на кнопку, если это может сделать компьютер?

Не очевидно, что нажать, чтобы запустить процесс разбивки на группы. Оказывается это «частотный анализ».

Парсинг 562 запросов на стандартных настройках в 7 потоков и на 7 прокси занял примерно 10 минут. Ещё минут 5 заняла нормализация.

После нормализации снова непонятно как группировать нужные мне слова. Информацию нашёл на 27 странице руководства. И на том спасибо.

Ведь это же основной функционал программы. Разбивать слова на группы. Почему самая нужная информация находится так далеко? Ну и полезно было бы сделать что-то вроде quick start. Для контекста и для сайтов раздельно. Я понял, там есть различия в работе.

Доводить дело до конца по кластеризции своих запросов тут не захотелось. Основная проблема в расстановке акцентов в интерфейсе программы.

Чисто для кластеризации использовать смысла нет. Думаю, вся мощь программы должна проявиться при полной работе с ключами. Начиная с очистки запросов от мусора и создания стоп слов.

Достоинства

  • есть полноценная демоверсия

Недостатки

  • десктопная программа
  • для работы нужны антигейт и прокси — с онлайн сервисами таких заморочек нет, они берут эти проблемы на себя
  • объединяет на основе словоформ, то есть ни о каких смыслах говорить не приходится
  • юзабилити нужно дорабатывать

«Семён-Ядрён» — формирование семантического ядра сайта на основе поисковых систем

Ещё один удалённый сервис. В последнее время много пиарится.

Опять же с сервисом нужно работать через посредников. То есть через людей. Никакой тебе автоматики.

Нужно сначала подать бриф, потом подождать пока с тобой свяжутся. Согласовываешь детали. Затем оплата.

За бесплатно делать группировку не захотели, но сделали скидку в 50%. В итоге группировка 562 запросов мне обошлась в 350 рублей (без скидки просили 700). Сгруппировать один запрос вышло 60 копеек (или 1,2 рубля без скидок)

Опять же проблемы с юзабилити на сайте. Кнопка «подать бриф» маленкая, белая и незаметная на белом же фоне. Не удержался, простите.

Как и на основе чего делают кластеризацию, говорить отказались. Известно, только, что на основе выдачи ПС.

Результат работы прислали через несколько часов. Помимо самих кластеров прислали ещё 100500 параметров и файлов. Хотя я не просил. В принципе полезная информация для анализа. Но логично было бы разделить: хочешь просто кластеризацию — одна цена, хочешь ещё ништяков — другая. Так как разным клиентам нужна разная информация.

Посмотрим, какие кластеры получились:

обрезка черешни как правильно обрезать черешню обрезка молодой черешни черешня ипуть сорта черешни черешня сорта черешня бычье сердце валерий чкалов черешня черешня дерево черешневый сад

Это уже гораздо лучше! Отдельные сорта попали-таки в кластер по сортам! Правда, Валерий Чкалов потерялся.

Достоинства

  • быстро ответили
  • готовы делать скидки
  • онлайн сервис
  • куча различной доп информации, вплоть до заданий копирайтерам (правда пишут, что задания всё же нужно допиливать индивидуально)

Недостатки

  • есть посредник в виде человека
  • по алгоритмам сплошная коммерческая тайна
  • нужна ручная коррекция кластеров

Итоги

Сводную таблицу по функционалу и стоимости можно посмотреть ниже.

Инструмент Стоимость Алгоритм кластеризации Формат Время работы Стоимость группировки всех запросов Стоимость группировки одного запроса
бесплатно на основе выдачи ПС онлайн несколько минут бесплатно бесплатно
платный на основе выдачи ПС онлайн меньше минуты + два дня 309 р. 60 коп.
платный на основе словоформ онлайн меньше минуты бесплатно бесплатно
1 700 р. на основе словоформ + на основе выдачи ПС десктоп несколько минут
3 000 р. на основе словоформ и лемм десктоп несколько минут
платный на основе выдачи ПС онлайн несколько минут + пару часов 350 р.
(700 р. без скидки)
60 коп.
(1,2 р. без скидки)
Ниже представлены сервисы, не вошедшие в основной обзор в рамках данного поста, но были предложены пользователями в комментариях или представителями сервисов.
Topvisor.ru платный на основе выдачи ПС онлайн ~7-8 мин. на 3000 запросов от 30 коп.

В итоге пока не имеем инструмента, который на полном автомате сгруппирует нужные запросы без ошибок.

Наилучшие результаты показали (судил по сортам черешни) Semparser.ru и Seo-case.com. По стоимости получаем 48 копеек против 1,2 рубля соответственно. Разница почти в три раза. Дополнительная стоимость у Seo-case, я так думаю, за счёт бонусной информации. На следующем месте стоит Кей-Коллектор (так как он почти наверняка есть у человека, который занимается запросами).

Самый основательный подход по кластеризации, на мой взгляд, у ребят из Just-magic.org. Так что как только появится возможность, обязательно потестирую.

Как бы то ни было, работа руками лучше, чем любым сервисом и с этим сложно поспорить. Немного дороже, но намного качественнее.

На этом мега обзор заканчивается, дорогие друзья! Я уверен, вам понравилось, поэтому прошу вас оставить свое мнение в комментариях, а если вам есть, что добавить, то тем более отписывайтесь.

До связи друзья!


Дарим 200 лимитов на счет чтобы попробовать!

Кластеризация ключевых слов - это автоматизированное распределение запросов на группы на основе выдачи поисковых систем.

Алгоритм кластеризации Rush Analytics соберет ТОП10 URL выдачи Яндекса или Google по каждому вашему ключевому слову, сравнит результаты для каждого ключевого слова и сгруппирует запросы именно так, как они будут успешно продвигаться в поисковых системах, и как будет удобно и логично создавать страницы на сайте.

В Rush Analytics кластеризацию можно провести двумя методами: Soft и Hard

После обработки запросов, вы получите практически готовую и корректно сформированную, с точки зрения поисковых систем, структуру сайта. А основываясь на данных о частотности по каждой группе ключевых слов, вы сможете легко принять решение о создании дополнительных страниц на сайте.

Ознакомьтесь с видео руководством по функционалу кластеризации

FAQ по кластеризации: самые частые вопросы наших пользователей

Кластеризация – группировка ключевых слов на основе сравнения выдачи поисковых систем. Алгоритм соберет ТОП10 URL по вашим ключевым словам, сравнит результаты для каждого ключевого слова и сгруппирует запросы именно так , как они будут успешно продвигаться в поисковых системах, и как будет удобно и логично создавать страницы на сайте

Вам нужно загрузить в Rush Analytics список ключевых слов и их частотность (любую) или же разметить ключевые слова как главные (маркерные запросы) и все остальные.
Для использования комбинированного алгоритма кластеризации, вам понадобится и частотность и разметка маркеров. Об этом читайте немного ниже.

Точность кластеризации указывает, сколько общих URL должно быть в результатах поиска по двум запросам, чтобы мы объединили эти запросы в группу.
Иными словами - чем больше точность кластеризации (группировки), тем более похожие фразы попадут в одну группу (кластер).
Для большинства тематик будет достаточно точности = 5.

A: В каждой тематике есть свой, необходимый и достаточный порог схожести выдачи, чтобы получить качественное семантическое ядро. Например, при продвижении интернет-магазинов, будет большой проблемой, если при кластеризации запросов ключевые слова "мультиварка Redmond RX500" и "Мультиварка Redmond RX500-1" будут попадать в один кластер - т.к. это разные товары и они должны продвигаться на разные карточки товара. Здесь мы рекомендуем использовать точность = 5

Если трафик на сайт в основном российский и из Яндекса - оптимально делать кластеризацию по Яндексу, выбрав регион по которому продвигается сайт.
Можно использовать и обе поисковые системы, а потом сравнить результаты. Часто результаты очень похожи между поисковыми системами.
Если вы продвигаете сайт под другие рынки - уже сейчас доступна кластеризация для всех регионов и языков мира по выдаче Google.
В скором времени мы добавим функционал выбора страны и города для кластеризации по выдаче Google.com. Если вам интересен этот функционал - голосуйте в нашем сообществе и он появится значительно быстрее - ссылка на голосование

Да, можно. А иногда даже нужно.
Когда можно объединить два кластера в один?
Нередко такие ключевые слова как "купить мультиварки redmond" и "мультиварки redmond цена" могут попадать в разные кластеры из-за низкого качества выдачи в Яндексе и Google по этим запросам.
В таком случае нужно объединить эти кластеры в один и продвигать на страницу мультиварок redmond . Это вполне нормальная ситуация.
Когда нельзя объединять два кластера в один?
Когда в одном кластере информационные запросы, а в другом коммерческие. Например, кластеры "купить мультиварки redmond" и "обзор мультиварок redmond" нельзя объединять т.к. эти запросы должны принципиально продвигаться на разные страницы.
Я сомневаюсь объединять два кластера или нет, что делать?
Мы подробно рассказываем, что делать в таком случае в этом руководстве .

Потому, что слова из вкладки "Некластеризовано" не нашли себе пару для кластера. К сожалению, не все ключевые слова можно сгруппировать - т.к. не все они связаны между собой.
Мы руководствуемся в первую очередь тем, как ключевые слова будут продвигаться (ранжироваться) и группируем их на основе схожести поисковой выдачи.
К примеру: запросы "мобильный телефон" и "мобильные телефоны" должны продвигаться на разные страницы т.к. один запрос информационный, а второй коммерческий и они никогда не продвинутся на одну страницу.
Что делать с некластеризованными запросами?
Если в списке некластеризованных слов вы найдете ценные для вас ключевые слова - их можно в ручную добавить к уже существующим группам (могли не привязаться из-за плохой выдачи) или же создать под эти слова отдельные страницы на сайте.

Перед кластеризацией из списка будут исключены все фразы, содержащие стоп-слова. Т.е. мусорные ключевые слова не будут использоваться в кластеризации и будут отброшены еще до начала сравнения запросов.
Рекомендуем использовать данную опцию, если вы загружаете "грязный" список ключевых слов в проект по кластеризации. Функционал помогает сэкономить бюджет на кластеризацию и решает проблему ручной, утомительной очистки стоп-слов в Excel. Предлагаем воспользоваться готовыми списками стоп-слов по гео-запросам и различным тематикам, или создать свой список стоп-слов.

Пошаговый алгоритм работы с сервисом:

  1. Создание проекта. Чтобы создать проект, необходимо перейти во вкладку кластеризация и нажать "Создать новый проект"


  2. Шаг первый: Поисковая система и регион .
    Здесь необходимо ввести название проекта (обязательное поле). Можно ввести любое название, часто бывает удобно вводить название сайта, чтобы в будущем легко найти нужный проект.

    Далее мы указываем поисковую систему, по данным которой будет выполняться группировка. Можно выбрать или Яндекс или Google.
    Для Google на данный момент доступны все регионы и языки мира.

  3. Шаг второй: Настройки сбора

    Все о наших алгоритмах кластеризации

    Метод кластеризации :
    • Soft-кластеризация: в этом методе кластеризации алгоритм определяет центральные (маркерные) запросы и сравнивает с ними все остальные запросы.Алгоритм отлично подходит для кластеризации ключевых слов для трафиковых проектов: интернет-магазины, информационные сайты, сайты услуг с несильной конкуренцией.
    • Hard-кластеризация: запросы объединяются в группу, только если есть общий для всех запросов набор URL. При этом типе кластеризации группируется меньше ключевых слов, но с очень большой точностью. Идеально подходит для конкурентных высокочастотных запросов.
    Тип - выбор алгоритма кластеризации.

    У нас есть 3 алгоритма кластеризации:

    • Кластеризация с ручными маркерами
    • Кластеризация по Wordstat
    • Комбинированный алгоритм кластеризации (ручные маркеры + Wordstat)

    Работают они по одному и тому же базовому принципу - сравнению подобия ТОПов поисковых систем, но предназначены для решения несколько различных задач.

    Алгоритм с использованием ручных маркеров:

    Данный алгоритм эффективнее всего использовать, когда у вас есть готовая и довольно разветвленная структура сайта (каталога), и вы наперед знаете все маркеры и вам нужно просто понять по каким запросам вы собираетесь продвигать существующие страницы, а задачи расширения структуры сайта не стоит. В таком случае вы берете свои маркеры (названия категорий/страниц), собираете по ним подсказки, размечаете маркеры как 1, собранное облако как 0 и отправляете на кластеризацию. На выходе вы получите готовую семантику для своих категорий, а слова, которые не привязались к вашей структуре останутся некластеризованными.
    Формат загрузки данных: ключевое слово | маркер(1/0) - скачать пример входного файла

    Алгоритм кластеризации по Wordstat

    Этот алгоритм скорее решает обратную алгоритму ручных маркеров задачу: вы еще не знаете структуры своего сайта и не можете выделить маркеры - вы просто собрали Wordstat, подсказки и частотность по подсказкам. Теперь вам нужно структурировать эту семантику, чтобы получить группы запросов под страницы будущего сайта или будущих категорий существующего сайта. В таком случае алгоритм кластеризации по Wordstat подойдет как нельзя лучше, работает он следующим образом.
    Весь список ключевых слов сортируется по убыванию частотности, алгоритм пытается привязать все возможные слова из списка к самому частотному слову и формирует кластер, далее все повторяется итерационно для следующих по частотности ключевых слов.
    Не волнуйтесь за то, что ключевые слова могут при первом проходе алгоритма привязаться к неверному кластеру - мы используем алгоритмы машинного обучения, построенные на бинарных деревьях, чтобы предотвратить это:)
    Формат загрузки данных: ключевое слово | частотность (любая) - скачать пример входного файла

    Комбинированный алгоритм (ручные маркеры + Wordstat) - сочетает подходы двух предыдущих методов.

    Этот алгоритм подходит для задачи одновременного подбора ключевых слов для существующей структуры сайта и ее расширения. Работает он следующим образом: сначала мы пытаемся привязать все возможные запросы к вашим маркерным запросам и формируем готовую структуру, привязанную к вашим маркерам. Далее, все запросы, что не были привязаны к маркерам - сортируются по убыванию частотности и группируются между собой. В результате вы получаете:
    а) Готовую семантику для существующих категорий сайта
    б) Расширение семантики для вашего сайта.
    Мы настоятельно рекомендуем использовать комбинированный алгоритм - он дает наилучший результат.
    Формат загрузки данных: ключевое слово | | маркер(1/0) | частотность - скачать пример входного файла

    Все, что нужно знать про точность кластеризации

    Точность – чем больше точность кластеризации (группировки), тем более похожие фразы попадут в одну группу (кластер).
    Другими словами - данная опция отвечает за то, сколько общих URL нужно в ТОП10 поисковой системы, чтобы ключевые слова попали в один кластер.

    В каждой тематике есть свой, необходимый и достаточный порог схожести выдачи, чтобы получить качественное семантическое ядро. Например при продвижении интернет-магазинов, будет большой проблемой, если при кластеризации запросов ключевые слова "мультиварка Redmond RX500" и "Мультиварка Redmond RX500-1" будут попадать в один кластер - т.к. это разные товары и они должны продвигаться на разные карточки товара. Здесь мы рекомендуем использовать точность = 5
    Для инфо-тематик, например, для сайтов скидок или рецептов, такая точность не нужна - здесь задача получить максимальное количество сгруппированных кластеров для написания статей. Для таких сайтов мы рекомендуем точность 3 или 4. А для сайтов в очень конкурентных тематиках, где борьба за ТОП идет в основном по конкурентным ВЧ запросам - мы рекомендуем использовать повышенную точность кластеризации - 6 или 7, а под некластеризованные запросы создавать отдельные страницы.

    Рекомендуется выбирать варианты 3-6 и по результатам смотреть, какая кластеризация будет обладать достаточной полнотой и точностью для вашей семантики. Чем больше значение точности, тем более мелкие будут группы.

    Другие настройки кластеризации

    Не кластеризовать, если частотность меньше, чем - данная опция позволяет не кластеризовать ключевые слова с частотностью, менее заданной. Это избавит вас от ручной чистки низко популярных запросов – такие слова будут помещены во вкладку «Не кластеризовано».

    Определение релевантных URL для кластеров существующего сайта
    Вам достаточно ввести название нужного домена и наши алгоритмы попытаются определить релевантные URL для полученных кластеров.
    Опция работает следующим образом: если по главному (маркерному) запросу ваш сайт уже в ТОП10 - мы покажем этот URL и выделим его зеленым цветом. Иначе - подберем URL для маркерного запроса с помощью оператора site:.

    ВАЖНО: Релевантные URL подбираются для маркерных (главных) запросов кластера и присваиваются всему кластеру (всем ключевым словам кластера).

  4. Шаг третий: «Ключевые слова и цена» .
    Загружаем файл с запросами.
    Поддерживаемые форматы: xls, xlsx. Формат ввода данных: запрос;маркер или частотность. Для кластеризации по методу Wordstat + Ручные маркеры формат данных: запрос;маркер;частотность.

    Вводим стоп-слова
    Перед кластеризацией из списка будут исключены фразы, содержащие стоп-слова. Функционал помогает сэкономить бюджет на кластеризацию и решает проблему ручной очистки стоп-слов. Функционал особенно полезен, если вы кластеризуете "грязный", предварительно не очищенный список ключевых слов.

    Предлагаем воспользоваться готовыми списками стоп-слов по гео-запросам и различным тематикам, или создать свой список стоп-слов. И не забываем про "Эксперт опции" - по умолчанию применяется символьное соответствие - т.е. частичное вхождение удалит все слово / словосочетание, если вам надо точное соответствие стоп-слову - выбирайте фразовое соответствие .



  5. Нажимаем "Создать новый проект" - все, ваш проект отправлен на кластеризацию!
Теперь можно отслеживать статус проекта во вкладке "Очередь" или же в списке проектов по кластеризации.
На данный момент в Rush Analytics есть 5 статусов:
В очереди – данные еще не собираются, проект ждет своей очереди на сбор данных
Сбор данных – счетчик показывает, сколько ключевых слов обработано
Кластеринг – данные проекта уже собраны, система просчитывает все необходимые метрики, чтобы предоставить вам результат
На паузе – вы можете вручную поставить проект на паузу, если не уверены, что хотите его собирать. Или же, проект может сам встать на паузу т.к. у вас кончились деньги на балансе.
Готов – проект готов - вы можете посмотреть результаты в веб-интерфейсе или скачать в формате XLSX

Выходной файл кластеризации - описание столбцов

Результат кластеризации в формате XLSX выглядит следующим образом:


  • Запросы, выделенные серым цветом – маркерные запросы - указанные вами вручную, или определенные системой
  • Название кластера – берется название маркерного запроса
  • Размер кластера – количество ключевых слов в группе
  • Частотность ключевых слов – та частотность, которую вы задали в шаге «Ключевые слова». В зависимости от того, какую вы взяли частотность – базовую, в кавычках или с восклицательным знаком, результаты кластеризации могут незначительно отличаться
  • Общая частотность кластера – сумма частотностей всех ключевых слов кластера
  • Совпадений ТОПа – количество общих URL в поисковой выдаче по данному запросу с выдачей по эталонному (маркерному) запросу
  • Подсветки – подсветки с выдачи поисковых систем, собранные по вашему ключевому слову
  • Подсветки для кластера - подсветки без дубликатов, по всем словам данного кластера
  • Top URL - самый видимый в выдаче URL конкурента по всем запросам кластера. Здесь мы оцениваем частоту встречаемости URL конкурентов в выдаче по каждому запросу и позицию каждого URL конкурентов в выдаче
  • Релевантный URL - найденный релевантный URL для кластера, если была выбрана опция "Определять релевантные URL
    Опция работает следующим образом: если по главному (маркерному) запросу ваш сайт уже в ТОП10 - мы покажем этот URL и выделим его зеленым цветом. Иначе - подберем URL для маркерного запроса с помощью оператора site:
Примеры готовых файлов после кластеризации можно посмотреть в нашем портфолио