Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Увеличение эффективности Прокси)


В прошлых постах, я создал многопоточный сборщик поисковых результатов Google API на PHP. Из опыта использование получилось что скорость его работы сильно зависела от качества использованных проксей. Сегодня я видоизменил механизм использования проксей в этом сборщике. Для этого был полностью переделан классCProxyVendor.

скриншот сбора поисковых результатов Google API в многопоточном режиме

Было сделано следующее :

  • прокси теперь берутся не случайно, а циклически
  • после прохождения заданного числа циклов идет выбраковка плохих проксей
  • при достижении минимального числа проксей в файле идет пауза (чтобы сбор продолжался дальше без бана)
Выводы :

В итоге мы получили устойчивый, быстрый сборщик поисковых результатов, производительность которого уже зависит только от количества переданных ему проксей. Теперь чтобы повысить скорость работы всего лишь нужно двигаться в нескольких направлениях :

  1. увеличение числа потоков (весь код готов)
  2. увеличение количества проксей (можно купить или насобирать ручками или нужен скрипт сбора прокси с интернета)
Т.е даже сейчас, если иметь большое число рабочих прокси серверов, то скрипт будет выполнять свои задачи. Как вариант это дело можно и купить. Цены на уже готовые списки прокси серверов не такие большие. Еще вариант получить подписку на платные прокси сервера. И еще вариант воспользоваться уже готовыми программами для сбора и тестирования прокси серверов. Ну и еще вариант - написать скрипт что будет дергать данные сам по мере необходимости с сайтов со списками бесплатных прокси серверов. Также напомню, что материалы о том где найти прокси сервера, можно найтиздесь.

В следующей статье я сделаю промежуточные выводы с рекомендациями по созданию и организации сбора данных на PHP на основе предыдущих статей. Так сказать подведу итоги и определю дальнейшие направление развития кода для сбора данных.

Материалы :

Весь исходный код по этой статье можноскачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найтиздесь. Где взять платные и бесплатные прокси сервера, можно найтиздесь.


В избранное