Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Сбор данных с интернета : Теория и Решения. Сборщик слов с Яндекс.Вордстат


В прошлых статьях я сделал обзор функционала программы Human Emulator. В этой статье мы напишем сборщик, который будет собирать информацию с Яндекс.Вордстат в режиме эмуляции браузера. Для многих сайтов режим эмуляции браузера это практически единственный доступный вариант для их парсинга. За основу берем классы, из сборщиков поисковых подсказок. Потратив около трех дней на различные эксперименты (отлаживание устойчивости работы, подбор пауз, и вычисление всех моментов приводящих к бану) я получил рабочий код для сбора ключевых слов с Яндекса. Кроме того этот инструмент еще сохраняет число запросов в месяц по Яндексу, что очень помогает в составлении семантического ядра и оценки посещаемости сайта. Т.с одним махом мы получаем слова и данные по ним.

скриншот сбора поисковых подсказок с Яндекс.Вордстат на основе Human Emulator сбор поисковых подсказок с Яндекс.Вордстат[/caption]

Для того чтобы создать этот сборщик я добавил папкуTemplates из последней версии хуман эмулятора и подключил его к проекту. Далее создал классCYandexWordstat, производный отCBaseWebAPI и слегка его переделал, чтобы базовый класс поддерживал много страничный сбор по одному запросу ( функцияload_next_pageи переделал функцию get под многостраничный сбор ). Сборщик ключевых слов работает следующим образом : для начала скрипт переходит на Yandex.Wordstat, далее логинимся в учетную запись Яндекса. После этого читаем и вводим текущий запрос из файла входных данных. Далее сохраняем полученные данные и если есть возможность нажимаем кнопку следующей страницы для сбора следующей порции подсказок по заданному запросу. И так пока не получим все страницы. Если в процессе работы выскакивает капча или диалог логина, то скрипт или становится на паузу или обрабатывает эту ситуацию. Также если происходят ошибки сервера и т.п вещи то скрипт это все отрабатывает. И в результате работы мы получаем следующие результаты :

скриншот результатов сбора ключевыхс слов с Yandex.Wordstat

Вывод :

В результате у нас получился стабильный сборщик поисковых запросов с Яндекса. В сутки такой сборщик проходит около 3000 запросов, что дает на выходе порядка нескольких сотен тысяч ключевых слов с оценкой запросов в месяц по Яндексу. Этого вполне достаточно например для начального составления семантического ядра сайта. Также мы увидели что использование Хуман Эмулятора в качестве эмулятора и автоматизатора браузера вполне подходит для решения задач сбора данных с интернета.

Материалы :

Как всегда весь исходный код по этой статье можноскачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найтиздесь. Где взять платные и бесплатные прокси сервера, можно найтиздесь. А где взять поисковые запросы и ключевые слова можнонайти здесь. Пожелания и предложения по коду и сотрудничеству можно присылать на почту или в комментарии.


В избранное