Февраль
1

Как гугл банит за парсинг

16.11.2007 16:50 DxX
Как гугл банит за парсинг
Предлагаю ситуацию. На сервере стоит скрипт/дорген/etc – не суть важно. И “это самое” парсит гугл на ссылки/контент/etc без использования прокси. Через некоторое время гугл его естественно банит. И вот тут есть несколько вариантов. Несколько версий, что именно гугл банит:
1. ip домена
2. ip домена + ip name-сервера
3. ip и имя домена
4. ip и имя домена + ip и имя name-сервера
Также есть мнение, что бан сначала происходит на одном датацентре, а потом танцует на все остальные. Проблема очень насущная и нужно придумать механизмы борьбы с баном за парсинг. Использование прокси, конечно, выход, но поведение гугла интересней. Буду благодарен за все мнения по сабжу.
Последний раз редактировалось DxX; 16.11.2007 в 16:56


16.11.2007 16:54 jannyRodary

тайм аут между запросами в 10 сек поставь и все будет гуд.
Если конечно скорость парсинга не критична.
Интересно про футбол!


16.11.2007 16:58 jannyRodary

Сообщение от jannyRodary
тайм аут между запросами в 10 сек поставь и все будет гуд.
Если конечно скорость парсинга не критична.наверное в случае с доргеном это сильно скажется на кпд


16.11.2007 17:20 jannyRodary

Если парсиш контент то нет.
Схема такая по крону переодически парсиш по нужныйм кейвордам и кладеш в базу (файлики).
Когда нужно сгенерить то береш и достаеш контент с базы (файлика).
И тогда тебе на скорость не смотреть
Интересно про футбол!


16.11.2007 17:31 DxX

совершенно согласен, кеш никогда не мешает, но передо мной вопрос не модификации скрипта, а поведения гугла исходя из опыта попадания в бан. какой из 4-х предложенных вариантов кажется более правдоподобным?


16.11.2007 17:51 Shawn

Хм. У меня гугл ничего не банит. Постоянно запускаю скрипт, который проверяет сколько страниц по всем дорам проиндексировалось и скрипт, который чекает на каких местах находятся каждая из страниц каждого дора по своему запаросу(обычно доры по 1-2к страниц). Я не говрю уже про парсинг базы для спама. Ниразу не банил, раньше при парсинге капчу просил ввести. но я исправил парсер, чтобы он парсил так, как парсил бы человек и теперь гугл даже капчу не просит ввести…


16.11.2007 17:51 jannyRodary

Банит похоже что по Ip.
Хотя кто его гугла знает
Интересно про футбол!


16.11.2007 17:52 Shawn

Сообщение от Shawn
Хм. У меня гугл ничего не банит. Постоянно запускаю скрипт, который проверяет сколько страниц по всем дорам проиндексировалось и скрипт, который чекает на каких местах находятся каждая из страниц каждого дора по своему запаросу(обычно доры по 1-2к страниц). Я не говрю уже про парсинг базы для спама. Ниразу не банил, раньше при парсинге капчу просил ввести. но я исправил парсер, чтобы он парсил так, как парсил бы человек и теперь гугл даже капчу не просит ввести…Кстати да как вариант куки пробрасывать.
Интересно про футбол!


16.11.2007 22:17 Dahl

Заинтересовало сделал тест.
Имею US сервер нанем VPN сервер установлен уменя разумеется клиент на серваке Win2003 US уменя WinXp US. Запустил парсер получил бан парсер не юзает доменые имена. Лезу с под VPNa в гугл с домашнего компа тоесть всякая ерунда вдухе время агент и так далее разные даже время и часовой пояс, но там и там все US-ENG тоесть я сежу как истеный амер (нет никакого RU). И что я вижу в гуле пику ведите капчу, из под своего родного IP прочистев куки в браузере бан не получил. Из этого я могу сделать вывод бан получил ip name-сервера. Я думаяю бан не как не зависет от доменов и всякой юзоровской информации о компе.
Понты тоже самое что и член однометровый. Круто, а толку нет никакого.


17.11.2007 00:37 inferno[DGT]

Dahl, +1
Капля сео-воды на стакан доров. Применять ежедневно.
[B]Внимание: Серверы и VPS по СУПЕР ценам! (от 20$) под ЛЮБЫЕ цели!+Сервачки в США от 40$


0