Группировка семантического ядра. Кластеризация поисковых запросов. Способы группировки семантического ядра

В этом посте мы расскажем полный алгоритм сбора семантического ядра преимущественно для информационного сайта, но данный подход можно применять и для коммерческих сайтов.

Первоначальная семантика и создание структуры сайта

Подготовка слов для парсинга и первоначальная структура сайта

Перед тем как начать парсить слова, нам надо знать их. Поэтому нам надо составить первоначальную структуру нашего сайта и начальные слова для парсинга (их еще называют маркерами).

Первоначальную структуру и слова вы можете посмотреть:

1. Используя логику, слова из головы (если вы понимаете в теме).
2. У своих конкурентов, которых вы проанализировали при выборе ниш или введя ваш основной запрос.
3. Из википедии. Обычно это выглядит вот так:

4. Смотрим wordstat по вашим основным запросам и правую колонку.
5. Другие тематические книги и справочники.

Например, тема нашего сайта – болезни сердца. Понятно, что у нас в структуре обязательно должны быть все болезни сердца.

Вам не обойтись без медицинского справочника. Я бы не стал смотреть конкурентов, потому что у них могут быть представлены не все заболевания, скорее всего они не успели их охватить.

И ваши начальные слова для парсинга будут именно все болезни сердца, а уже исходя из ключей, которые мы напарсим, вы будете строить структуру сайта, когда начнете их группировать.

К тому же вы можете взять все препараты для лечения сердца, как расширение темы и т.д. Вы смотрите википедию, рубрики у конкурентов на сайте, wordstat, думаете логически и таким способом находите еще маркерные слова, которые будете парсить.

Структура сайта

Вы можете смотреть конкурентов для общего ознакомления, но не всегда вы должны делать структуру как у них. Вы должны исходить в большей степени из логики вашей целевой аудитории, они же вводят запросы, которые вы парсите у поисковиков.

Например, как поступить? Перечислить все болезни сердца, а от них уже вести симптомы, лечение. Или все-таки сделать рубрики симптомы, лечение, а от них уже вести болезни. Эти вопросы обычно решаются при группировке ключевых слов исходя из данных поисковых систем. Но не всегда, иногда вам придется делать выбор самостоятельно и решать, как сделать структуру наилучшей, потому что запросы могут пересекаться.

Вы должны всегда помнить, что структура создается на протяжении всего сбора семантики и иногда в первоначальном виде она состоит из нескольких рубрик, а уже при дальнейшей группировке и сборе она расширяется, так как вы начинаете видеть запросы и логику. А иногда вы сможете её составить и сразу не парся ключевые слова, потому что знаете хорошо тематику или она отлично представлена у конкурентов. Никакой системы по составлению структуры сайта нет, можно сказать это лично ваше творчество.

Структура может быть вашей индивидуальной (отличающейся от конкурентов), но обязательно она должна быть удобной для людей, отвечать их логике, а значит логике и поисковых систем и такой, чтобы можно было охватить все тематические слова в вашей нише. Она должна быть лучшей и удобной!

Думайте наперед. Бывает такое что берете нишу, а потом вам охота ее расширить, и вы начинаете менять структуру всего сайта. А созданную структуру на сайте, очень сложно и муторно менять. В идеале вам надо будет поменять урлы вложения и все это переклеить на самом сайте. Короче, это жесть какая нудная и очень ответственная работа, так что сразу определяйтесь окончательно по мужски, что и как у вас должно быть!

Если вы очень плохо знакомы с тематикой создаваемого сайта и не знаете, как будет строиться структура, не знаете какие начальные слова для парсинга взять, то 1 и 2 этап сбора вы можете менять местами. То есть сначала пропарсить конкурентов (как их парсить разберем ниже), посмотреть их ключи, на основе этого составить структуру и начальные слова для парсинга, а потом уже парсить wordstat, подсказки и т.д.

Для составления структуры я использую майнд менеджер — Xmind . Он бесплатен и в нем есть все основное.

Простенькая структура выглядит вот так:

Это структура коммерческого сайта. Обычно в информационных сайтах нет пересечений и всяких фильтров карточек товаров. Но и эта структура не сложная, составлялась для клиента, чтобы он понял. Обычно мои структуры состоят из множество стрелок и пересечений, комментариев — в такой структуре могу разобраться только я сам.

Можно ли создавать семантику по ходу наполнения сайта?

Если семантика легкая, вы уверены в теме и знаете её, то можно делать семантику параллельно с наполнением сайта. Но первоначальную структуру надо накидать обязательно. Я сам иногда такое практикую в очень узких нишах или в очень широких, чтобы не тратить много времени на сбор семантики, а сразу запускать сайт, но всё-таки не советовал бы так делать. Вероятность ошибок очень большая, если у вас нет опыта. Все-таки легче, когда вся семантика готова, вся структура готова и все разгруппировано и понятно. К тому же в готовой семантике вы видите каким ключам надо уделить первостепенное внимание, которые не имеют конкуренцию и принесут больше посетителей.

Еще здесь надо отталкивать от размера сайта, если ниша широкая, то нет смысла собирать семантику, лучше ее делать по ходу, потому что на сбор семантике может уйти месяц и более.

Так вот мы накидали первоначально структуру или не накидали, решили идти вторым этапом. У нас есть список начальных слов или фраз нашей тематики, которые мы можем начать парсить.

Парсинг и работа в keycollector

Для парсинга конечно же использую keycollector . Я не буду останавливаться на настройке keycollectora, вы можете почитать хелп этой программы или найти статьи по настройке в интернете, их очень много и там все подробно расписано.

При выборе источников парсинга стоит рассчитывать свои трудозатраты и их эффективность. Например, если вы будете парсить базу Пастухова или MOAB, то вы закапаетесь в куче мусорных запросов, которые надо будет отсеивать, а это время. И по моему мнению, это того не стоит, чтобы найти парочку каких-то запросиков. На тему баз есть очень интересное исследование от RushAnalytics, конечно же они там хвалят себя, но если на это не обращать внимание, весьма интересные данные по процентам плохих ключевых слов http://www.rush-analytics.ru/blog/analytica-istochnikov-semantiki

На первом этапе я парщу wordstat, adwords, их подсказки и использую базу ключевых слов Букварикс (десктопная версия бесплатна). Так же раньше просматривал подсказки из Youtube вручную. Но недавно keycollector добавил возможность их парсить, и это прелестно. Если вы полный извращенец, то можете сюда добавить другие базы ключевых слов.

Запускаете парсинг и понеслось.

Чистка семантического ядра для информационного сайта

Мы спарсили запросы и у нас получился список различных слов. В нем конечно же присутствуют нужные слова, а так же и мусорные – пустые, не тематические, не актуальные и т.д. Поэтому их надо почистить.

Ненужные слова я не удаляю, а перемещаю их в группы, потому что:

Они в дальнейшем могут стать пищей для размышления и приобрести актуальность.
Исключаем вероятность случайного удаления слов.
При парсинге или добавление новых фраз, они не будут добавляться, если поставить галочку.

Я иногда забывал её ставить, поэтому настраиваю парсинг в одной группе и парсю ключи только в ней, чтобы сбор не дублировался:

Вы можете работать так или так, кому как удобно.

Сбор частотностей

Собираем у всех слов через direct, базовую частотность [W] и точную [“!W”].

Все что не собралось, дособираем через wordstat.

Чистка однословников и не формат

Фильтруем по однословникам, смотрим их и убираем не нужные. Есть такие однословники по которым нет смысла продвигаться, они не однозначные или дублируют другой однословный запрос.

Например, у нас тематика — болезни сердца. По слову “сердце” нет смысла продвигаться, не понятно, что человек имеет ввиду — это слишком широкий и неоднозначный запрос.

Так же смотрим, по каким словам не собралась частотность – это либо в словах содержатся спец символы, либо слов в запросе более 7. Переносим их в неформат. Малая вероятность что такие запросы вводят люди.

Чистка по общей и точной частотности

Все слова с общей частотностью [W] от 0 до 1 убираем.

Так же убираю и все от 0 до 1 по точной частотностью [”!W”].

Разношу их по разным группам.

В дальнейшем в этих словах можно найти нормальные логические ключевые слова. Если ядро маленькое, то можно сразу вручную все слова с нулевой частотностью пересмотреть и оставить, которые как вам кажется вводят люди. Это поможет охватить тематику полностью и возможно, по таким словам будут переходить люди. Но естественно эти слова надо использовать в последнюю очередь, потому что по ним большого трафика точно не будет.

Значение от 0 до 1 тоже берется исходя от тематики, если ключевых слов много, то можно фильтровать и от 0 до 10. То есть все зависит от широты вашей тематики и ваших предпочтений.

Чистка по полноте охвата

Теория здесь такова: например, есть слово – “форум”, его базовая частотность составляет 8 136 416, а точная частотность 24 377, как видим отличие более чем в 300 раз. Поэтому можно предположить, что данный запрос пустой, он включает очень много хвостов.

Поэтому, по всем словам, я рассчитываю, такое KEI:

Точная частотность / Базовая частотность * 100% = полнота охвата

Чем меньше процент, тем больше вероятность что слово пустое.

В KeyCollector эта формула выглядит вот так:

YandexWordstatQuotePointFreq / (YandexWordstatBaseFreq+0.01) * 100

Здесь тоже все зависит от тематики и количества фраз в ядре, поэтому можно убирать полноту охвата меньше 5%. А где ядро большое то можно не брать и 10-30%.

Чистка по неявным дублям

Чтобы почистить неявные дубли, нам необходимо по ним собрать частотность Adwords и ориентироваться по ней, потому что она учитывает порядок слов. Экономим ресурсы, поэтому будем собирать этот показатель не у всего ядра, а только у дублей.

Таким способом мы нашли и отметили все не явные дубли. Закрываем вкладку — Анализ неявных дублей. Они у нас отметились в рабочей группе. Теперь отобразим только их, потому что съем параметров происходит только тех фраз, которые у нас показаны в группе на данный момент. И только потом запускаем парсинг.

Ждем, когда Adwords снимет показатели и заходим в анализ неявных дублей.

Выставляем вот такие параметры умной групповой отметки и нажимаем – выполнить умную проверку. Таким способом у нас в группе дублей не отметятся только самые высокочастотные запросы по Adwords.

Все дубли лучше конечно еще пробежаться и глянуть вручную, вдруг там что-то выставилось не так. Особенно уделить внимание группам, где нет показателей частотности, там дубли отмечаются случайно.

Все что вы отмечаете в анализе неявных группах, это проставляется и в рабочей группе. Так что после завершения анализа, просто закрываете вкладку и переносите все отмеченные неявные дубли в соответствующую папку.

Чистка по стоп словам

Стоп слова я тоже делю на группы. Отдельно заношу города. Они могут пригодится в дальнейшем, если мы надумаем делать каталог организаций.

Отдельно заношу слова содержащие в себе слова фото, видео. Вдруг они когда-нибудь пригодятся.

А так же, “витальные запросы”, например википедия, отношу сюда и форум, а так же в мед теме сюда могут относится – малышева, комаров и т.д.

Все так же зависит от тематики. Можно еще делать отдельно и коммерческие запросы – цена, купить, магазин.

Получается вот такой список групп по стоп словам:

Чистка накрученных слов

Это касается конкурентных тематик, их частенько накручивают конкуренты, чтобы ввести вас в заблуждение. Поэтому необходимо собрать сезонность и отсеять все слова с медианой равной 0.

А так же, можно глянуть соотношение базовой частотности к средней, большая разница может тоже указывать на накрутку запроса.

Но надо понимать, что эти показатели могут говорить и о том, что это новые слова по которым только недавно появилась статистика или они просто сезонные.

Чистка по гео

Обычно проверка по гео для информационных сайтов не требуется, но на всякий случай распишу этот момент.

Если есть сомнения, что часть запросов геозависимые, то лучше это проверить через сбор Rookee, он хоть бывает и ошибается, но намного реже чем проверка этого параметра по Яндексу. Потом после сбора Rookee стоит проверить все слова вручную, которые указались как геозависимые.

Ручная чистка

Теперь наше ядро стало в несколько раз меньше. Пересматриваем его в ручную и убираем ненужные фразы.

На выходе получаем вот такие группы нашего ядра:

Желтый — стоит покопаться, можно найти слова на будущее.

Оранжевый — могут пригодиться, если будем расширять сайт новыми сервисами.

Красный — не пригодятся.

Анализ конкуренции запросов для информационных сайтов

Собрав запросы и почистив их теперь нам надо проверить их конкуренцию, чтобы понимать в дальнейшем — какими запросами надо заниматься в первую очередь.

Конкуренция по количеству документов, title, главных страниц

Это все легко снимается через KEI в KeyCollector.

Получаем данные по каждому запросу, сколько документов найдено в поисковой системе, в нашем пример в Яндексе. Сколько главных страниц в выдаче по этому запросу и вхождений запроса в заголовок.

В интернете можно встретить различные формулы расчета этих показателей, даже вроде в свежем установленном KeyCollector по стандарту встроена какая-то формула расчета KEI. Но я им не следую, потому что надо понимать что каждый из этих факторов имеет разный вес. Например, самый главный, это наличие главных страниц в выдаче, потом уже заголовки и количество документов. Навряд ли эту важность факторов, как то можно учесть в формуле и если все-таки можно то без математика не обойтись, но тогда уже эта формула не сможет вписаться в возможности KeyCollector.

Конкуренция по биржам ссылок

Здесь уже интереснее. У каждой биржи свои алгоритмы расчета конкуренции и можно предположить, что они учитывают не только наличие главных страниц в выдаче, но и возраст страниц, ссылочную массу и другие параметры. В основном эти биржи конечно же рассчитаны на коммерческие запросы, но все равно более менее какие то выводы можно сделать и по информационным запросам.

Собираем данные по биржам и выводим средние показатели и уже ориентируемся по ним.

Я обычно собираю по 2-3 биржам. Главное чтобы все запросы были собраны по одним и тем же биржам и выведено среднее число только по ним. А не так, что какие то запросы собрали одними биржами, а другие другими и вывели среднее.

Для более наглядного вида можно применить формулу KEI, которая покажет стоимость одного посетителя исходя из параметров бирж:

KEI = AverageBudget / (AverageTraffic +0.01)

Средний бюджет по биржам делить на средний прогноз трафика по биржам, получаем стоимость одного посетителя исходя из данных бирж.

Конкуренция по мутаген

Его нет в keycollector, но это не помеха. Без проблем все слова можно выгрузить в Excel, а потом прогнать через KeyCollector.

Чем же лучше Keyso? У него больше база по сравнению с конкурентами. Она у него чистая, нет фраз которые дублируются и пишутся в разном порядке. Например, вы не найдете там таких повторяющихся ключей “диабет 1 типа”, “1 типа диабет”.

Так же Keyso умеет палить сайты с одним счетчиком Adsense, Analytics, Leadia и др. Вы можете увидеть какие еще есть сайты, у владельца анализируемого сайта. Да, и вообще по поиску сайтов конкурентов, считаю это лучшее решение.

Как работать с Keyso?

Берем один любой сайт своего конкурента, лучше конечно побольше, но не особо критично. Потому что мы будем работать в две итерации.Вводим его в поле. Жмакаем — анализировать.

Получаем информацию по сайту, нам здесь интересны конкуренты, жмем открыть всех.

У нас открываются все конкуренты.

Это все сайты, у которых хоть как-то пересекаются ключевые слова с нашим анализируемым сайтом. Здесь будет youtube.com, otvet.mail.ru и т.д., то есть крупные порталы, которые пишут обо всем подряд. Нам они не нужны, нам нужны сайты чисто только по нашей тематике. Поэтому мы их фильтруем по следующим критериям.

Похожесть – процент общих ключей от общего числа данного домена.

Тематичность – количество ключей нашего анализируемого сайта в ключах домена конкурента.

Поэтому пересечение этих параметров уберет общие сайты.

Ставим тематичность 10, похожесть 4 и смотрим, что у нас получится.

Получилось 37 конкурентов. Но все равно еще их проверим вручную, выгрузим в Excel и если надо уберем не нужные.

Теперь переходим на вкладку групповой отчет и вводим всех наших конкурентов, которых мы нашли выше. Жмем – анализировать.

Получаем список ключевых слов этих всех сайтов. Но мы еще полностью не раскрыли тематику. Поэтому мы переходим в конкуренты группы.

И теперь мы получаем всех конкурентов, тех всех сайтов которые мы ввели. Их в несколько раз больше и здесь так же много общетематических. Фильтруем их по похожести, допустим 30.

Получаем 841 конкурента.

Здесь мы можем посмотреть, сколько страниц у этого сайта, трафика и сделать выводы, какой же конкурент самый эффективный.

Экспортируем всех их в Excel. Перебираем руками и оставляем только конкурентов нашей ниши, можно отметить самых эффективных товарищей, чтобы потом оценить их и глянуть какие у них есть фишки на сайт, запросы дающие много трафика.

Теперь мы опять заходим в групповой отчет и добавляем уже всех найденных конкурентов и получаем список ключевых слов.

Здесь мы можем список сразу фильтрануть по “!wordstat” Больше 10.

Вот они наши запросы, теперь мы можем их добавить в KeyCollector и указать, чтобы не добавлялись фразы, которые есть уже в любой другой группе KeyCollector.

Дарим 200 лимитов на счет чтобы попробовать!

Кластеризация ключевых слов - это автоматизированное распределение запросов на группы на основе выдачи поисковых систем.

Алгоритм кластеризации Rush Analytics соберет ТОП10 URL выдачи Яндекса или Google по каждому вашему ключевому слову, сравнит результаты для каждого ключевого слова и сгруппирует запросы именно так, как они будут успешно продвигаться в поисковых системах, и как будет удобно и логично создавать страницы на сайте.

В Rush Analytics кластеризацию можно провести двумя методами: Soft и Hard

После обработки запросов, вы получите практически готовую и корректно сформированную, с точки зрения поисковых систем, структуру сайта. А основываясь на данных о частотности по каждой группе ключевых слов, вы сможете легко принять решение о создании дополнительных страниц на сайте.

Ознакомьтесь с видео руководством по функционалу кластеризации

FAQ по кластеризации: самые частые вопросы наших пользователей

Кластеризация – группировка ключевых слов на основе сравнения выдачи поисковых систем. Алгоритм соберет ТОП10 URL по вашим ключевым словам, сравнит результаты для каждого ключевого слова и сгруппирует запросы именно так , как они будут успешно продвигаться в поисковых системах, и как будет удобно и логично создавать страницы на сайте

Вам нужно загрузить в Rush Analytics список ключевых слов и их частотность (любую) или же разметить ключевые слова как главные (маркерные запросы) и все остальные.
Для использования комбинированного алгоритма кластеризации, вам понадобится и частотность и разметка маркеров. Об этом читайте немного ниже.

Точность кластеризации указывает, сколько общих URL должно быть в результатах поиска по двум запросам, чтобы мы объединили эти запросы в группу.
Иными словами - чем больше точность кластеризации (группировки), тем более похожие фразы попадут в одну группу (кластер).
Для большинства тематик будет достаточно точности = 5.

A: В каждой тематике есть свой, необходимый и достаточный порог схожести выдачи, чтобы получить качественное семантическое ядро. Например, при продвижении интернет-магазинов, будет большой проблемой, если при кластеризации запросов ключевые слова "мультиварка Redmond RX500" и "Мультиварка Redmond RX500-1" будут попадать в один кластер - т.к. это разные товары и они должны продвигаться на разные карточки товара. Здесь мы рекомендуем использовать точность = 5

Если трафик на сайт в основном российский и из Яндекса - оптимально делать кластеризацию по Яндексу, выбрав регион по которому продвигается сайт.
Можно использовать и обе поисковые системы, а потом сравнить результаты. Часто результаты очень похожи между поисковыми системами.
Если вы продвигаете сайт под другие рынки - уже сейчас доступна кластеризация для всех регионов и языков мира по выдаче Google.
В скором времени мы добавим функционал выбора страны и города для кластеризации по выдаче Google.com. Если вам интересен этот функционал - голосуйте в нашем сообществе и он появится значительно быстрее - ссылка на голосование

Да, можно. А иногда даже нужно.
Когда можно объединить два кластера в один?
Нередко такие ключевые слова как "купить мультиварки redmond" и "мультиварки redmond цена" могут попадать в разные кластеры из-за низкого качества выдачи в Яндексе и Google по этим запросам.
В таком случае нужно объединить эти кластеры в один и продвигать на страницу мультиварок redmond . Это вполне нормальная ситуация.
Когда нельзя объединять два кластера в один?
Когда в одном кластере информационные запросы, а в другом коммерческие. Например, кластеры "купить мультиварки redmond" и "обзор мультиварок redmond" нельзя объединять т.к. эти запросы должны принципиально продвигаться на разные страницы.
Я сомневаюсь объединять два кластера или нет, что делать?
Мы подробно рассказываем, что делать в таком случае в этом руководстве .

Потому, что слова из вкладки "Некластеризовано" не нашли себе пару для кластера. К сожалению, не все ключевые слова можно сгруппировать - т.к. не все они связаны между собой.
Мы руководствуемся в первую очередь тем, как ключевые слова будут продвигаться (ранжироваться) и группируем их на основе схожести поисковой выдачи.
К примеру: запросы "мобильный телефон" и "мобильные телефоны" должны продвигаться на разные страницы т.к. один запрос информационный, а второй коммерческий и они никогда не продвинутся на одну страницу.
Что делать с некластеризованными запросами?
Если в списке некластеризованных слов вы найдете ценные для вас ключевые слова - их можно в ручную добавить к уже существующим группам (могли не привязаться из-за плохой выдачи) или же создать под эти слова отдельные страницы на сайте.

Перед кластеризацией из списка будут исключены все фразы, содержащие стоп-слова. Т.е. мусорные ключевые слова не будут использоваться в кластеризации и будут отброшены еще до начала сравнения запросов.
Рекомендуем использовать данную опцию, если вы загружаете "грязный" список ключевых слов в проект по кластеризации. Функционал помогает сэкономить бюджет на кластеризацию и решает проблему ручной, утомительной очистки стоп-слов в Excel. Предлагаем воспользоваться готовыми списками стоп-слов по гео-запросам и различным тематикам, или создать свой список стоп-слов.

Пошаговый алгоритм работы с сервисом:

Создание проекта. Чтобы создать проект, необходимо перейти во вкладку кластеризация и нажать "Создать новый проект"

Шаг первый: Поисковая система и регион .
Здесь необходимо ввести название проекта (обязательное поле). Можно ввести любое название, часто бывает удобно вводить название сайта, чтобы в будущем легко найти нужный проект.
Далее мы указываем поисковую систему, по данным которой будет выполняться группировка. Можно выбрать или Яндекс или Google.
Для Google на данный момент доступны все регионы и языки мира.
Шаг второй: Настройки сбора

Все о наших алгоритмах кластеризации
Метод кластеризации :
- Soft-кластеризация: в этом методе кластеризации алгоритм определяет центральные (маркерные) запросы и сравнивает с ними все остальные запросы.Алгоритм отлично подходит для кластеризации ключевых слов для трафиковых проектов: интернет-магазины, информационные сайты, сайты услуг с несильной конкуренцией.
- Hard-кластеризация: запросы объединяются в группу, только если есть общий для всех запросов набор URL. При этом типе кластеризации группируется меньше ключевых слов, но с очень большой точностью. Идеально подходит для конкурентных высокочастотных запросов.
Тип - выбор алгоритма кластеризации.
У нас есть 3 алгоритма кластеризации:
- Кластеризация с ручными маркерами
- Кластеризация по Wordstat
- Комбинированный алгоритм кластеризации (ручные маркеры + Wordstat)
Работают они по одному и тому же базовому принципу - сравнению подобия ТОПов поисковых систем, но предназначены для решения несколько различных задач.

Алгоритм с использованием ручных маркеров:

Данный алгоритм эффективнее всего использовать, когда у вас есть готовая и довольно разветвленная структура сайта (каталога), и вы наперед знаете все маркеры и вам нужно просто понять по каким запросам вы собираетесь продвигать существующие страницы, а задачи расширения структуры сайта не стоит. В таком случае вы берете свои маркеры (названия категорий/страниц), собираете по ним подсказки, размечаете маркеры как 1, собранное облако как 0 и отправляете на кластеризацию. На выходе вы получите готовую семантику для своих категорий, а слова, которые не привязались к вашей структуре останутся некластеризованными.
Формат загрузки данных: ключевое слово | маркер(1/0) - скачать пример входного файла

Алгоритм кластеризации по Wordstat

Этот алгоритм скорее решает обратную алгоритму ручных маркеров задачу: вы еще не знаете структуры своего сайта и не можете выделить маркеры - вы просто собрали Wordstat, подсказки и частотность по подсказкам. Теперь вам нужно структурировать эту семантику, чтобы получить группы запросов под страницы будущего сайта или будущих категорий существующего сайта. В таком случае алгоритм кластеризации по Wordstat подойдет как нельзя лучше, работает он следующим образом.
Весь список ключевых слов сортируется по убыванию частотности, алгоритм пытается привязать все возможные слова из списка к самому частотному слову и формирует кластер, далее все повторяется итерационно для следующих по частотности ключевых слов.
Не волнуйтесь за то, что ключевые слова могут при первом проходе алгоритма привязаться к неверному кластеру - мы используем алгоритмы машинного обучения, построенные на бинарных деревьях, чтобы предотвратить это:)
Формат загрузки данных: ключевое слово | частотность (любая) - скачать пример входного файла

Комбинированный алгоритм (ручные маркеры + Wordstat) - сочетает подходы двух предыдущих методов.

Этот алгоритм подходит для задачи одновременного подбора ключевых слов для существующей структуры сайта и ее расширения. Работает он следующим образом: сначала мы пытаемся привязать все возможные запросы к вашим маркерным запросам и формируем готовую структуру, привязанную к вашим маркерам. Далее, все запросы, что не были привязаны к маркерам - сортируются по убыванию частотности и группируются между собой. В результате вы получаете:
а) Готовую семантику для существующих категорий сайта
б) Расширение семантики для вашего сайта.
Мы настоятельно рекомендуем использовать комбинированный алгоритм - он дает наилучший результат.
Формат загрузки данных: ключевое слово | | маркер(1/0) | частотность - скачать пример входного файла
Все, что нужно знать про точность кластеризации
Точность – чем больше точность кластеризации (группировки), тем более похожие фразы попадут в одну группу (кластер).
Другими словами - данная опция отвечает за то, сколько общих URL нужно в ТОП10 поисковой системы, чтобы ключевые слова попали в один кластер.
В каждой тематике есть свой, необходимый и достаточный порог схожести выдачи, чтобы получить качественное семантическое ядро. Например при продвижении интернет-магазинов, будет большой проблемой, если при кластеризации запросов ключевые слова "мультиварка Redmond RX500" и "Мультиварка Redmond RX500-1" будут попадать в один кластер - т.к. это разные товары и они должны продвигаться на разные карточки товара. Здесь мы рекомендуем использовать точность = 5
Для инфо-тематик, например, для сайтов скидок или рецептов, такая точность не нужна - здесь задача получить максимальное количество сгруппированных кластеров для написания статей. Для таких сайтов мы рекомендуем точность 3 или 4. А для сайтов в очень конкурентных тематиках, где борьба за ТОП идет в основном по конкурентным ВЧ запросам - мы рекомендуем использовать повышенную точность кластеризации - 6 или 7, а под некластеризованные запросы создавать отдельные страницы.
Рекомендуется выбирать варианты 3-6 и по результатам смотреть, какая кластеризация будет обладать достаточной полнотой и точностью для вашей семантики. Чем больше значение точности, тем более мелкие будут группы.
Другие настройки кластеризации
Не кластеризовать, если частотность меньше, чем - данная опция позволяет не кластеризовать ключевые слова с частотностью, менее заданной. Это избавит вас от ручной чистки низко популярных запросов – такие слова будут помещены во вкладку «Не кластеризовано».
Определение релевантных URL для кластеров существующего сайта
Вам достаточно ввести название нужного домена и наши алгоритмы попытаются определить релевантные URL для полученных кластеров.
Опция работает следующим образом: если по главному (маркерному) запросу ваш сайт уже в ТОП10 - мы покажем этот URL и выделим его зеленым цветом. Иначе - подберем URL для маркерного запроса с помощью оператора site:.
ВАЖНО: Релевантные URL подбираются для маркерных (главных) запросов кластера и присваиваются всему кластеру (всем ключевым словам кластера).
Шаг третий: «Ключевые слова и цена» .
Загружаем файл с запросами.
Поддерживаемые форматы: xls, xlsx. Формат ввода данных: запрос;маркер или частотность. Для кластеризации по методу Wordstat + Ручные маркеры формат данных: запрос;маркер;частотность.
Вводим стоп-слова
Перед кластеризацией из списка будут исключены фразы, содержащие стоп-слова. Функционал помогает сэкономить бюджет на кластеризацию и решает проблему ручной очистки стоп-слов. Функционал особенно полезен, если вы кластеризуете "грязный", предварительно не очищенный список ключевых слов.
Предлагаем воспользоваться готовыми списками стоп-слов по гео-запросам и различным тематикам, или создать свой список стоп-слов. И не забываем про "Эксперт опции" - по умолчанию применяется символьное соответствие - т.е. частичное вхождение удалит все слово / словосочетание, если вам надо точное соответствие стоп-слову - выбирайте фразовое соответствие .

Нажимаем "Создать новый проект" - все, ваш проект отправлен на кластеризацию!

Теперь можно отслеживать статус проекта во вкладке "Очередь" или же в списке проектов по кластеризации.
На данный момент в Rush Analytics есть 5 статусов:
В очереди – данные еще не собираются, проект ждет своей очереди на сбор данных
Сбор данных – счетчик показывает, сколько ключевых слов обработано
Кластеринг – данные проекта уже собраны, система просчитывает все необходимые метрики, чтобы предоставить вам результат
На паузе – вы можете вручную поставить проект на паузу, если не уверены, что хотите его собирать. Или же, проект может сам встать на паузу т.к. у вас кончились деньги на балансе.
Готов – проект готов - вы можете посмотреть результаты в веб-интерфейсе или скачать в формате XLSX

Выходной файл кластеризации - описание столбцов

Результат кластеризации в формате XLSX выглядит следующим образом:

Запросы, выделенные серым цветом – маркерные запросы - указанные вами вручную, или определенные системой
Название кластера – берется название маркерного запроса
Размер кластера – количество ключевых слов в группе
Частотность ключевых слов – та частотность, которую вы задали в шаге «Ключевые слова». В зависимости от того, какую вы взяли частотность – базовую, в кавычках или с восклицательным знаком, результаты кластеризации могут незначительно отличаться
Общая частотность кластера – сумма частотностей всех ключевых слов кластера
Совпадений ТОПа – количество общих URL в поисковой выдаче по данному запросу с выдачей по эталонному (маркерному) запросу
Подсветки – подсветки с выдачи поисковых систем, собранные по вашему ключевому слову
Подсветки для кластера - подсветки без дубликатов, по всем словам данного кластера
Top URL - самый видимый в выдаче URL конкурента по всем запросам кластера. Здесь мы оцениваем частоту встречаемости URL конкурентов в выдаче по каждому запросу и позицию каждого URL конкурентов в выдаче
Релевантный URL - найденный релевантный URL для кластера, если была выбрана опция "Определять релевантные URL
Опция работает следующим образом: если по главному (маркерному) запросу ваш сайт уже в ТОП10 - мы покажем этот URL и выделим его зеленым цветом. Иначе - подберем URL для маркерного запроса с помощью оператора site:

Примеры готовых файлов после кластеризации можно посмотреть в нашем портфолио

Добрый день, уважаемые читатели! Все мы знаем, что сбор поисковых запросов — это фундамент для успешной seo-раскрутки любого веб-ресурса в Яндексе и Гугле. Но как показывает практика, этот этап поискового продвижения у многих не очень получается. Поэтому на своих «Записках» я периодически выдаю практические материалы на эту тему. Сейчас поговорим о том, как проводить грамотную кластеризацию семантического сайта или блога своими руками. В статье Вы поймете важность этого процесса, увидите варианты его выполнения, узнаете способы группировки ключевых слов.

Первым делом мы формируем — словосочетаний, которые затем лягут в основу будущих ключевых слов.
На этапе парсинга мы получаем весь пул поисковых запросов по нашей теме, .
С помощью найденных параметров , вычищаем будущее семантическое ядро.
Имея список всех найденных ключевиков сайта наступает этап их распределения по страницам нашего веб-ресурса.

Кластеризация ключевых слов сайта

Именно последний шаг в создании семантического ядра вызывает много вопросов. Дело в том, что первые этапы (кроме первого) более менее автоматизированы. Не нужно много усилий, чтобы провести сбор запросов и сделать их анализ. А вот этап группировки ключевых слов требует от веб-мастера максимум временных и умственных затрат. Поэтому и возникают различные ошибки. Наша с Вами задача — их не допустить!

Что такое группировка ключевых слов

Группировка (или кластеризация) ключевых слов — это процесс распределения поисковых запросов одной тематики (группа запросов) для продвижения одной страницы. Почему одной? Ответ Вы найдете в моем практическом .

Другими словами, с помощью этого этапа найденные словосочетания формируем в отдельные смысловые группы. Каждая группа внедряется только на свою продвигаемую страницу и решает одну задачу (общую для всех запросов этой группы):

дает ответ на вопрос пользователя из поисковых систем (блоги, инфо-сайты);
предлагает коммерческие данные по конкретным товарам (интернет-магазины);
выдает информацию по услуге (коммерческие сайты, специализированные порталы).

Таким образом, все запросы группы соответствуют главной теме конкретной целевой страницы. Все они раскрывают цель конкретного документа сайта с той или иной стороны.

Более детально о понятии кластеризации семантического ядра Вы можете изучить . В нем Вы найдете историю появления этого вида seo-работы, увидите наглядный пример по группировке запросов.

Еще под кластеризацией поисковых запросов понимается автоматизированный сбор фраз путем взаимодействия сервиса со страницами в поисковых выдачах. Об этом я подробнее расскажу, когда речь пойдет об одноименной услуге Топвизора.

Что дает грамотная кластеризация ключей для сайта

Каждая найденная группа запросов — это не только ключевики для контента целевой страницы. Понятное дело, что их нужно внедрить в документ сайта (информационный пост блога, карточка товара интернет-магазина и т.д.). Кроме этого кластеризация запросов позволяет получить:

видение будущей полноценной структуры нового сайта (или старого);
путеводитель по темам, которые интересны пользователям из поиска;
понимание текущего спроса на товары/услуги в конкретной нише;
план seo-продвижения (какой контент формировать в первую очередь);
материал, из которого видны запросы для оптимизации страницы.

Поясню один важный момент. Кластеризация в группы дает колоссальную возможность использовать все ресурсы для привлечения максимального поискового трафика! Не делая группировку поисковых запросов, мы тем самым отсекаем свой сайт от освящения тем, которые нужны пользователям из Яндекса и Гугла.

Что сулит неправильное распределение ключевиков

Итак, не имея распределенных групп по большой теме, владелец веб-ресурса не видит полноту всей картины продвижения. Это самая большая проблема, которая возникает при игнорировании этапа кластеризации (или ее неполноценного совершения).

Но даже наличие этого шага в Вашем плане продвижения не может гарантировать Вам достижения всех назначенных seo-задач. Это может произойти из-за ошибок, которые возникают при группировке запросов на целевые страницы. Вот проблемы, которые дает неправильное распределение ключевых слов:

появление дублей в индексах поисковых систем (за счет каннибализации);
потеря или не получение мест в первой десятке поисковой выдачи;
потеря денег, затраченных на формирование «лишнего» контента;
ухудшение поведенческих факторов, не достижение поставленных целей.

Как говорил один известный киношный персонаж «Картина маслом». По-другому тут и не скажешь. В современном поисковом продвижении нельзя делать «чуть-чуть» или оставлять что-то на потом. Все нужно выполнять вовремя и со смыслом. Кластеризация семантического ядра — это тот этап, после которого на скелет сайта нанизывается «мясо» (контент). И здесь любая ошибка превращает seo-раскрутку сайта в настоящий апокалипсис. Проблемы возникают там, где их не ждут.

Способы группировки семантического ядра

Для формирования групп ключевых слов семантики сайта используют ручной и/или автоматизированный способы. Первый самый рутинный и сложный. Зато самый надежный — нет лучшего проверяльщика и корректора, чем человек.

Ручной способ очень трудоемок. Одно дело, распределить 500 запросов на ряд статей новой темы. Другое дело, когда нужно просканировать 10 000 ключевиков и сформировать из них подобающие группы. Тут нужна выдержка и терпение.

Автоматизированный способ почти всю рутину берет на себя — вебмастеру или специалисту остается только проверить результат кластеризации. Но зато возникают другие сложности — часть запросов стоит не в своих группах, логика распределения может отличаться от той, которую представляет себе человек.

Чтобы как-то нивелировать иногда «туповатую» логику машины, используется полуавтоматический способ распределения СЯ сайта. В этом случае специалист заранее формирует общие группы согласно найденным запросам. А автоматика распределяет запросы уже в самих этих группах. Таким образом ошибок распределения намного меньше.

Теперь рассмотрим каждый способ кластеризации семантического ядра, используя самые лучшие инструменты (на мой взгляд, конечно).

Автоматизированный способ группировки СЯ сайта

Автоматических вариантов кластеризации поисковых фраз в настоящее время существует очень много. Все они отличаются интерфейсом, даже есть отличия в самом процессе распределения. Более детально о современных инструментах группировки СЯ веб-ресурса можно узнать в обзорной статье Александра Алаева . Я же разберу только два варианта, которыми пользуюсь сам и считаю их самыми лучшими.

Анализ групп в программе Key Collector

Key Collector — это самый лучший софт для создания семантического ядра. Разумеется, у него есть и свой способ распределения запросов — инструмент «Анализ групп». Он позволяет разбить все найденные поисковые запросы. Вот схема работы с ним.

Выбираем инструмент «Анализ групп»

Допустим, нам необходимо сделать распределение спарсенных запросов по теме камер видеонаблюдения. Для этого нажимаем соответствующую иконку на панели управления во вкладке «Данные»:

В открывшемся окне необходимо выбрать режим кластеризации. У программы Key Collector есть несколько таких режимов:

по отдельным словам
по составу фраз
по поисковой выдаче
по составу фраз и поисковой выдаче

Первый вариант служит для очень тонкой настройки — он группирует те запросы, у которых совпадает хотя бы одно слово. Например, поисковые фразы «видеокамеры Минск купить» и «видеосалоны Минск» софт включил бы в одну группу.

Второй вариант учитывает строение найденных поисковых фраз и числа их совпадений (за это отвечает элемент «Сила по составу»). Отличный способ для кластеризации большого числа запросов.

Режим группировки «по поисковой выдаче» объединяет ключевики по числу совпадений ссылок в поисковой выдаче между фразами. Работает только в том случае, если в Key Collector по сайту сняты данные о поисковой выдаче («Составляющие KEI»). Здесь также есть сила группировки, отвечающая за степень связи между фразами.

Последний способ распределения запросов является комбинацией 2-го и 3-го, степень важности которых выбирается по специальному ползунку.

Проводим группировку запросов

По своему опыту скажу, что для большинства случаев подойдет именно второй вариант группировки. Его и рассмотрим подробнее. Для примера я взял тему камер видеонаблюдения. Выбрав тип группировки, указываем ее силу. Рекомендую ставить цифру 2 или 3. В моем случае мне подошло первое значение. В итоге я получил 434 группы с 1789 полезными фразами:

Если бы я взял большее число, то уже привязка была бы немного другой и число групп бы уменьшилось. А именно, стало равным 298, причем количество полезных фраз по нашему условию тоже уменьшилось — 1207.

Посмотрим, какие в итоге группы получились в первом случае с силой по составу равной 2. Для этого я экспортирую сделанную группировку в таблицу Excel. Вот отрывок экспортированной таблицы:

Как видим, в целом Key Collector смог сделать хорошее распределение найденных поисковых запросов. Но все же обточить напильником эту табличку не помешает — есть некоторые группы и отдельные слова, которые находятся не на своем месте.

Кластеризация запросов в сервисе Топвизор

Итак, запросы уже найдены (их также можно было импортировать):

Осталось заняться их группировкой. Для этого нажимаем специальный значок на панели инструментов Топвизора и выбираем нужные настройки:

Если выбор поисковика и региона (обязательно!) не сложен, то указание степени группировки может вызвать вопросы. Поясню, что это за зверь такой.

Степень группировки — это число адресов страниц, которые будут браться за проверку схожести наших запросов для одной или другой группы. Например, если этот параметр равен 3-м, то имея ряд поисковых фраз для группировки, каждая из них будет проверяться только по 3-м страницам в выдаче, а не по всему топу сразу. В принципе, этого бывает достаточно, чтобы увидеть структуру семантического ядра (группы запросов) в целом. Если же необходимо иметь более точные группы, выбираем цифру 8 или 9.

Итак, по истечении десяти минут получаем готовый результат кластеризации нашего семантического ядра:

В итоге Топвизор смог распределить 3181 найденных запросов по 514-ти группам. Причем одна группа, последняя, называется «Запросы без связей» и содержит фразы, которым не нашлось соответствия в топе:

Если данный результат нас не устраивает, мы может сразу же сделать перегруппировку — достаточно нажать на ту же кнопку в панели управления. Кстати, перегруппировка будет стоит копейки (похоже, Топвизор сразу делает группировку на большое значение, поэтому материальных и временных затрат на перераспределение просит немного):

В итоге после новой группировки мы получаем другое число групп (меньшее, чем в прошлый раз) и количество в них фраз. Они более детальны, но зато и число не попавших в эти группы запросов («Запросы без связей») заметно выросло.

Для конечной работы с кластеризованным семантическим ядром можно сделать экспортирование запросов в таблицу Excel или текстовый файл. Вот как в итоге выглядит таблица с указанием названия группы:

В целом Топвизор выполняет на отлично свою работу по распределению семантического ядра. Хороший инструмент для тех, кто не может тратить свое время на сбор запросов в программе Key Collector. Но, правда, дороговатый.

Кластеризация запросов в сервисе Serpstat

Еще один дельный вариант автоматической кластеризации есть у популярного сервиса Serpstat . Но в отличие от Топвизора, данная seo-платформа смогла разработать свою уникальную технологию группировки запросов. Делается она следующим образом.

Заходим в своем аккаунте в инструмент «Кластеризация и текстовая аналитика»:

Нажав кнопку «Создать проект», проходим по циклу шагов, указывая в соответствующих графах необходимые данные по проекту. Возьмем в качестве примера задачу группировки запросов для моего seo-блога по теме «семантическое ядро».

Сначала проходим шаг 1, указывая название проекта и адрес домена:

Затем в инструмент кластеризации Серпстата добавляем поисковые запросы. Это можно сделать как вручную, так и с помощью загружаемого списка в формате txt или csv:

И теперь остается самый ответственный шаг — выбрать схему, по которой будет происходить группировка указанных нами запросов. Для этого указываем силу связи и вариант кластеризации:

Seo-платформа Serpstat для кластеризации изучает все фразы, которые вошли в проект. И для грамотной группировки сервис по этим словосочетаниям изучает их пересечение в поисковых выдачах указанных нами поисковиков!

Более детальную схему кластеризации Серпстата можете самостоятельно изучить в этой статье блога сервиса .

Дав последние указания, Serpstat начинает группировку. После обработки всех данных, мы получаем набор запросов, фразы которых сгруппированы по своему одинаковому признаку. Вот кусочек сделанного в моем примере распределения запросов по теме «семантическое ядро» (картинка кликабельна!!!):

Ручной способ распределения семантического ядра

Ручным способом я называю такой вариант кластеризации ядра, при котором мы самостоятельно указываем группы, наводим порядок в них, формируем структуру СЯ самостоятельно. Конечно, без специальных программ здесь не обошлось. Вернее, без одной — Excel.

Распределение запросов с помощью программы Excel

Здесь все просто — выгружаем уже собранные и отредактированные поисковые запросы и ручками формируем группы и перекидываем в них подходящие фразы.

Подробно об этом варианте кластеризации я расписал в . Там я даю 3 способа группировки, выбирайте свой и дерзайте. Я лично их комбинирую в зависимости от ситуаций.

Кластеризация ключевых слов с помощью файла «Ядро»

Данный вариант отличается от предыдущего тем, что здесь уже мы перекидываем фразы благодаря умному скрипту «Ядро», сделанному в Excel. Все остальное проделывается тоже своими руками.

Скрипт «Ядро» сделали ребята из MFC (Made for content) для облегчения задачи распределения ключевиков. За основу они взяли наработку seo-специалиста Сергея Кокшарова, который и придумал вариант с Excel. Давайте посмотрим, как работает этот макрос. Для этого я воспользуюсь видеороликом ребят из MFC:

В общем, все понятно. Ничего сложного здесь нет. Поэтому, если у Вас нет возможности использовать программу Key Collector, а семантических ядер для распределения у Вас много, используйте скрипт «Ядро» (погуглите). Даже если Вы делаете кластеризацию редко для своего сайта или блога, данный макрос лишним не будет. По крайней мере с него стоит начинать, а уже потом допиливать группировку первым ручным способом.

Да, забыл самое важное сказать про файл «Ядро» — он бесплатен!

Бонус — мой способ класетризации запросов

Его я называю полуавтоматическим — роль человека здесь важна в самом начале и в конце. Его я отразил в специальной seo-шпаргалке, забирайте ее и смело используйте:

Скажу только, что в его основу легла работа с правильным поиском списка масок, использования софта Key Collector и обычная логика.

На этом мой небольшой ликбез по кластеризации поисковых фраз семантического ядра закончен. Если есть вопросы или пожелания, милости прошу в комментариум!

Где можно заказать отличное семантическое ядро?

Кстати, если Вы планируете собрать семантическое ядро для своего проекта, можете заказать семантику, обратившись . Спасибо!

С уважением, Ваш Максим Довженко

Кластеризация запросов — это группировка семантического ядра с целью распределить все запросы по разделам сайта, либо создать правильную структуру сайта с учетом спроса в поисковых системах. В этом руководстве рассмотрим правильный пример кластеризации семантического ядра, которое мы собрали .

Смотрите видео по кластеризации запросов семантического ядра

Вернемся к работе с нашим приложением, в котором мы . Ранее мы сохранили полученные поисковые фразы отдельно для контекстной рекламу, теперь пришло время сохранить результаты для и объединить их в единый Excel файл для дальнейшей работы.

В нашем случае у нас всего две группы-маски. Объединяем информацию и убираем все ненужные столбцы. Оставляем только три из них: фразы, общая частотность, частотность в кавычках. В результате получаем следующее:

Удаляем(если не сделали это ранее) запросы с предельно низкой частотностью. И начинаем работу по группировке ключевых слов, которые остались.

Онлайн кластеризация запросов семантического ядра

Заполняем данными новый лист:

После завершения определения основных разделов сайта, пора приступить к списку страниц с фильтрами. Перейдем вновь на страницу успешного интернет-магазина женской одежды и спустимся вниз:

Перед нами открывается так называемая простыня с фильтрами. Эти страницы являются прекрасной возможностью для продвижения многочисленных запросов сайта и при этом совершенно не мешают удобству пользователей, а иногда способны помочь в навигации. В дальнейшем мы разберем, как именно создать подобную структуру на самом сайте. А пока возвращаемся к созданию его будущей структуры.

Для удобства вы можете выделить группы запросов разными цветами: пусть зелеными будут будущие разделы на сайте, а желтыми страницы фильтров и тегов. Далее добавляем их все во второй лист нашего документа.

Добавляем последний третий пункт — статьи:

Этот раздел на нашем сайте способен собрать в себя именно тот второй тип поисковых фраз — информационный. Они принесут трафик, который при грамотном маркетинге возможно преобразовать в конверсии и постоянных покупателей.

В конечном итоге у вас не должно остаться кластерных групп: все они должны быть распределены между тремя пунктами в новом листе документа. В следующих статьях и соответствующих видео смотрите про под каждую группу запросов.

А пока перед нами стоит задача создать структуру сайта, создать нужные разделы и назначить задачи по — написанию текстов и статей.

Не забудьте продумать, в каком именно формате будут подаваться статьи. На сайте конкуренте из нашей ниши можно увидеть целых 3 возможности для сбора трафика по информационным запросам:

Резюмируя, стоит отметить логическую необходимость структуризации сайта с помощью кластеризации: для нас в первую очередь важно, чтобы именно посетителям было удобно и легко ориентироваться на вашем сайта. Это позволит получить больше продаж и хорошие результаты при продвижении.