Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Yandex (PHP сборщик)


При наборе слов в Яндекс также как и в Гугл, выдаются поисковые подсказки по словам. Т.е набрав слово сбор данных мы получим следующее :

скриншот поисковых подсказок Яндекс по слову сбор данных

Поискав в интернете определяем что запрос идет по следующему адресу : т.е в самом запросе указывается слово по которому надо получить подсказки. Модифицируем и улучим код для сбора из предыдущей статьи по созданию сборщика поисковых подсказок Google. Для этого я создал базовый класс сборщика CBaseWebAPI, в который вынес весь повторяющийся код из двух предыдущих сборщиков и классCYandexSuggest, в котором собственно описал особенности сбора поисковых запросов Yandex, взяв за основу базовый класс. В итоге у нас получился очень красивый и понятный код для всех классов. Преимущества - быстрая расширяемость и модификация. Слабое место прокси, но как показывает практика зарядив около 10 000 проксей мы получаем вполне устойчивую работу в 20 потоков.

скриншот сбора поисковых подсказок Yandex

Далее в следующем посту сделаем так чтобы в процессе работы мы могли пополнять прокси сервера. Это нужно для потоков где произошла выбраковка ниже критической отметки. Так мы сможем продолжать сбор без перезапуска скрипта.

Материалы :

Как всегда весь исходный код по этой статье можноскачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найтиздесь. Где взять платные и бесплатные прокси сервера, можно найтиздесь.А где взять поисковые запросы и ключевые слова можнонайти здесь.


В избранное