Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Nigma (многопоточный PHP сборщик)


Еще одно место где можно получить поисковые запросы это подсказки поисковой системы Nigma.ru. Набрав в ней например "поисковые п" мы получим следующее :

скриншот выдачи поисковых подсказок с Nigma.ru

Поискав в интернете , определяем что запрос поисковых подсказок идет по следующему адресу. Т.е в самом конце стоит слово запроса по которому нам надо получить подсказки. Модифицируем наш исходный код из предыдущей статьи. Для этого создаем классCNigmaSuggest, опять же унаследованный от базового классаCBaseWebAPI.

Кроме того улучшаем возможности всех предыдущих сборщиков, внося в базовый класс возможность управления сбором через папку control, записывая в эту папку следующие файлы мы можем управлять работой каждого потока сборщика :

  • stop.control - указывает что сборщик надо остановить
  • pause.control - указывает что сборщик надо поставить на паузу (в файле содержится на сколько секунд нужно сделать паузу)
  • write_stat.control - указывает что потоку сборщика нужно обновить файл статистки о своей работе
  • add_proxy.control - указывает что потоку сборщика надо добавить те прокси что содержатся в этом файле и продолжить свою работу
скриншот сбора поисковых подсказко с Nigma.ru

Таким образом мы получаем уже довольно гибкую систему сбора поисковых подсказок. Система управления сбором нам пригодится чтобы потом написать скрипт-оболочку, которая будет управлять всем нашим сбором данным, обновлять прокси, выводить статистику сбора на экран. Это мы реализуем в следующих статьях.

Материалы :

Как всегда весь исходный код по этой статье можноскачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найтиздесь. Где взять платные и бесплатные прокси сервера, можно найтиздесь. А где взять поисковые запросы и ключевые слова можно найти здесь.


В избранное