Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Выводы)


В предыдущих статьях я описал как организовать сбор поисковых результатов Google, используя его API, в многопоточном режиме на PHP. Приведу материалы в порядке публикации :
  1. Немного теории о Сборе Данных с Веба
  2. Пишем простейший сборщик, использующий Google API на PHP. (Запрос и Сохрание)
  3. Пишем простейший сборщик, использующий Google API на PHP. (Циклы и Продолжение)
  4. Пишем простейший сборщик, использующий Google API на PHP. (Прокси)
  5. Пишем простейший сборщик, использующий Google API на PHP. (Многопоточность)
  6. Пишем простейший сборщик, использующий Google API на PHP. (Классы)
  7. Пишем простейший сборщик, использующий Google API на PHP. (Увеличение эффективности Прокси)
скриншот запуска многпоточного сбора Гугл в 5 потоков

Этот цикл статей рассказывал о принципах сбора данных в интернете. Теперь подведем итоги. Как видно из эволюции исходного кода, для того чтобы написать более менее рабочий сборщик данных с интернета нужно пройти следующие этапы :

  • Выбрать источник сбора (мы выбрали Google API для поисковых результатов)
  • Выбрать метод сбора (мы выбрали язык программирования PHP)
  • Написать единичный запрос данных и их сохранение
  • Определится с тем как получать данные массово (мы выбрали текстовый файл с запросами и запросы в цикле)
  • Работать над улучшением эффективности сбора (мы выбрали прокси и многопоточное выполнение PHP кода)
  • Работать над структурированностью и расширяемостью кода (мы выбрали классы и реорганизацию кода)
  • Улучшать по мере сил эффективность сбора (мы выбрали улучшение эффективности использования прокси)
  • Дальнейшие улучшения эффективности сбора (опишу в следующих статьях)
Выводы :

В итоге всех действий мы получили полностью рабочий сборщик. Единственный его минус - это когда прокси становится мало, запросы через них останавливаются или идут с меньшей эффективностью. То есть для полномасштабного сбора надо или вводить паузы чтобы наш сборщик не давал банить эти самые прокси или чтобы прокси пополнялись в процессе работы сборщика или использовать другие методы. При правильном подходе в результате нескольких итераций мы получим сборщик, который будет устраивать нас по всем параметрам. На этом я закончу вводный обучающий курс и перейду к более интересным и практичным задачам.

Далее я собираюсь модифицировать код и написать на основе его сборщик ключевых слов по поисковым подсказкам Google. Отладить и запустить его на сбор. Поисковые слова вещь хорошая и ценная. На основе них можно много чего сделать. Мне же они нужны для своих целей, которые приносят хороший доход. Спасибо за внимание.

Материалы :

Весь исходный код по этой статье можноскачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найтиздесь. Где взять платные и бесплатные прокси сервера, можно найтиздесь.


В избранное