Сбор данных с интернета : Теория и Решения. Сборщик слов с Google.KeywordPlanner

В предыдущей статье я создал сборщик поисковых фраз с Yandex.Wordstat. Для этого я использовал Human Emulator. Сегодня я создам сборщик ключевых слов, который будет получать информацию с Google Keyword Planner . Этот инструмент доступен для создания Adword-овых компаний и доступ к нему есть, если есть Adword аккаунт. Инструмент очень мощный, Гугл постарались на славу, однако довольно неплохо защищен от автоматического парсинга контента и достаточно тяжеловесен. Но все же если очень захотеть то все можно сд...

2013-12-20 15:30:38 + Комментировать

Сбор данных с интернета : Теория и Решения. Сборщик слов с Яндекс.Вордстат

В прошлых статьях я сделал обзор функционала программы Human Emulator . В этой статье мы напишем сборщик, который будет собирать информацию с Яндекс.Вордстат в режиме эмуляции браузера . Для многих сайтов режим эмуляции браузера это практически единственный доступный вариант для их парсинга. За основу берем классы, из сборщиков поисковых подсказок. Потратив около трех дней на различные эксперименты (отлаживание устойчивости работы, подбор пауз, и вычисление всех моментов приводящих к бану) я получил рабочи...

2013-12-20 00:10:07 + Комментировать

Сбор данных с интернета : Теория и Решения. Human Emulator и объекты для работы с окнами.

В этой статье я рассмотрю последнюю категорию объектов Human Emulator'a, а затем перейду к созданию сборщиков использующих Хуман Эмулятор для сбора ключевых слов с различных веб источников. Итак категория PHP объектов WINDOW : Как видим здесь собраны объекты для управления окнами как HumanEmulator'a так и всей системы в целом . Условно можно их разбить на несколько подкатегорий: Управление окнами и работой Human Emulator'a : app - управление работой приложения . Этот объект позволяет управлять внешним видо...

2013-12-19 00:10:05 + Комментировать

Сбор данных с интернета : Теория и Решения. Использование Human Emulator для сбора данных

Если при навигации на определенную страницу, элементы на выдаваемой странице строятся динамически, то Human Emulator - идеальное решение для таких случаев. В этой статье я вкратце опишу как Human Emulator использовать для работы элементами HTML страницы . 1. DOM объекты заданного типа За это отвечают объекты из категории DOM , -каждый из объектов (за исключением интерфейса и списка интерфейсов) отвечает за работы с элементами заданных типов.Например $anchor - описывает за работу со ссылками на текущей веб ...

2013-12-17 01:10:06 + Комментировать

Сбор данных с интернета : Теория и Решения. Использование Human Emulator для сбора данных

Часто в процессе сбора данных, одного запроса урла через CURL недостаточно, например нужна авторизация с поддержкой флэша, данные появляются на странице через JS или еще либо как-то. Для этого существуют программы, которые позволяют автоматизировать браузер. ( Эммуляторы и Автоматизаторы браузера ) Т.е по сути они предоставляют возможность управления браузером посредством скриптов . Я остановлюсь на одной из них более подробно. Итак Human Emulator - система для веб автоматизации . Описание программы Human ...

2013-12-17 00:10:07 + Комментировать

Сбор данных с интернета : Теория и Решения. Уведомления о работе PHP сборщиков (уведомление на E-Mail)

В процессе сбора данных наши сборщики будут работать сутками и нам надо следить за их работоспособностью . Например упал сервер, изменились условия сбора или просто отключили свет. Чтобы постоянно не следить за работой нужен механизм извещения о процессе работе сборщиков данных. Для этого идеально подходит отправка писем на заданный электронный адрес , например раз в сутки. В PHP есть встроенная функция отправки писем mail , однако для наших целей этой функции недостаточно, потому что чтобы ей воспользоват...

2013-12-16 00:13:03 + Комментировать

Сбор данных с интернета : Теория и Решения. Многопоточный PHP сборщик поисковых подсказок

В предыдущих статьях я описал как создать многопоточные поисковые сборщики на PHP по следующим системам : Google Suggest - сборщик поисковых подсказок Google Yandex Suggest - сборщик поисковых подсказок Yandex Rambler Suggest - сборщик поисковых подсказок Rambler Nigma Suggest - сборщик поисковых подсказок Nigma Весь код рабочий и выполняет свои задачи. Теперь зайдем с точки зрения удобств. Просто перепишем сборщик так, чтобы можно было запускать сразу сборщики всех типов за один раз. Для этого создадим ко...

2013-12-15 00:10:06 + Комментировать

Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Rambler (PHP сборщик)

Идем далее по местам где можно получить поисковые подсказки . Следующая поисковая система это Rambler. С нее тоже можно получать вполне приличные поисковые запросы. Посмотрев в интернете мы найдем, что для запросов используется следующий адрес . Все это хорошо вписывается в наш базовый класс и систему сбора. Создаем классCRamblerSuggest , порожденный отCBaseWebAPI. Меняем в нем $requested_url, $name и метод разбора и сохранения результатов на диск $this->save. На этом все, сбор данных с рамблера готов. ...

2013-12-14 00:10:05 + Комментировать

Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Nigma (многопоточный PHP сборщик)

Еще одно место где можно получить поисковые запросы это подсказки поисковой системы Nigma.ru. Набрав в ней например " поисковые п " мы получим следующее : Поискав в интернете , определяем что запрос поисковых подсказок идет по следующему адресу . Т.е в самом конце стоит слово запроса по которому нам надо получить подсказки. Модифицируем наш исходный код из предыдущей статьи. Для этого создаем классCNigmaSuggest , опять же унаследованный от базового классаCBaseWebAPI. Кроме того улучшаем возможности всех пр...

2013-12-13 00:10:07 + Комментировать

Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Yandex (PHP сборщик)

При наборе слов в Яндекс также как и в Гугл, выдаются поисковые подсказки по словам . Т.е набрав слово сбор данных мы получим следующее : Поискав в интернете определяем что запрос идет по следующему адресу : т.е в самом запросе указывается слово по которому надо получить подсказки. Модифицируем и улучим код для сбора из предыдущей статьи по созданию сборщика поисковых подсказок Google. Для этого я создал базовый класс сборщика CBaseWebAPI , в который вынес весь повторяющийся код из двух предыдущих сборщико...

2013-12-12 00:10:08 + Комментировать
  • 1
  • 2