← Июль 2025 | ||||||
1
|
2
|
3
|
4
|
5
|
6
|
|
---|---|---|---|---|---|---|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
15
|
16
|
17
|
18
|
19
|
20
|
21
|
22
|
23
|
24
|
25
|
26
|
27
|
28
|
29
|
30
|
31
|
За последние 60 дней ни разу не выходила
Сайт рассылки:
http://x-datas.com
Открыта:
05-12-2013
Сбор данных с интернета : Теория, Программы и Решения. Персональный блог и Полезная информация по автоматизации работ в интернете
Статистика
0 за неделю
Сбор данных с интернета : Теория и Решения. Сбор поисковых подсказок Google (PHP сборщик)
При наборе слов в Google нам выдаются определенные поисковые подсказки. Т.е например при вводе автоматизация бизнеса , гугл нам предлагает следующие варианты поисковых запросов : Поискав в интернете можно найти урл, по которому идет запрос этих данных : т.е в самом конце- то слово, по которому получаются подсказки. Модифицируем исходный код из обучающего примера по созданию сборщика. Создадим класс CGoogleSuggest , подключим его на сбор, слегка модифицировав паузы для работы скриптов (подбирал эксперимента...
Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Выводы)
В предыдущих статьях я описал как организовать сбор поисковых результатов Google, используя его API, в многопоточном режиме на PHP . Приведу материалы в порядке публикации : Немного теории о Сборе Данных с Веба Пишем простейший сборщик, использующий Google API на PHP. (Запрос и Сохрание) Пишем простейший сборщик, использующий Google API на PHP. (Циклы и Продолжение) Пишем простейший сборщик, использующий Google API на PHP. (Прокси) Пишем простейший сборщик, использующий Google API на PHP. (Многопоточность)...
Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Увеличение эффективности Прокси)
В прошлых постах, я создал многопоточный сборщик поисковых результатов Google API на PHP . Из опыта использование получилось что скорость его работы сильно зависела от качества использованных проксей. Сегодня я видоизменил механизм использования проксей в этом сборщике. Для этого был полностью переделан классCProxyVendor . Было сделано следующее : прокси теперь берутся не случайно, а циклически после прохождения заданного числа циклов идет выбраковка плохих проксей при достижении минимального числа проксей...
Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Классы)
В предыдущем посту я рассказывал как организовать многопоточный сбор поисковых результатов через Google API и обещал показать как происходит оптимизация и сделать нормальную структуру кода. Для этого я перевел все на классы и объекты. Разбил большие функции на более понятные. Также сделал так чтобы не было повторяющегося кода. В итоге получился тот же сборщик, только уже на объектах : Структура папок : log - папка для записи логов мультипоточного лаунчера src - папка с исходными данными для всех сборщиков ...
Сбор данных с интернета : Теория и Решения. Пишем простейший сборщик (Многопоточность)
В прошлый раз я описал как организовать сбор данных на PHP, используя прокси сервера. Скрипт брал слова из файла и запрашивал поисковые результаты по ним через Goggle API. Все это работало через прокси, что существенно повышало скорость работы с Google API. Но все же был существенный недостаток в работе этого скрипта : в текущий момент времени шел только один запрос, хоть мы и использовали прокси сервера. Однако в один и тот же момент времени мы можем делать сразу несколько запросов через прокси, что сущес...
Сбор данных с интернета : Теория и Решения Пишем простейший сборщик (Циклы и Продолжение)
В прошлом посту я описал, как создать простейший сборщик, который собирает поисковые результаты Google, используя Google API для одного запроса. Теперь я расскажу как сделать чтобы этот код брал поисковые результаты из файла и работал непрерывно до тех пор, пока не соберет их все. 1. Цикл Для этого составляем файл поисковых запросов, и модифицируем наш скрипт для сбора данных . Т.е скрипт загружает все данные из файл in\query.txt и записывает их в out\result.txt . Пауза между каждым запросом составляет 20 ...
Сбор данных с интернета : Теория и Решения Пишем простейший сборщик (Запрос и Сохранение)
В этом посте я опишу, как написать простейший сборщик Поисковых Результатов Google, используя API Google для поисковых результатов . Для простоты будем использовать язык PHP. Выбор PHP для сбора хорош тем, что в дальнейшем написанные сборщики можно использовать практически на всех системах. Написанные на PHP сборщики - простые, легко модифицируемые и самое главное масштабируемые: написав и запустив сбор с одной машины, легко перенести код на другую машину или образовать сетку из нескольких машин, которая б...
Сбор данных с интернета : Теория и Решения Немного теории о Сборе Данных с Веба
Сбор Данных с Веба ( Web Data Mining ) это процесс при котором данные опубликованные в интернете извлекаются для дальнейшей с ними работы . Это процесс называется Парсинг , от английского Parse (Разбор. Т.е мы получаем данные в формате которые представлены на сайте и разбираем их на части. Далее мы записываем или используем эти данные в нужных нам целях. Вкратце рассмотрим сбор данных информации, представленной этими способами : 1.API для получения данных Самый нативный метод, не требующих от нас больших у...
- 1
- 2