Февраль
1

Парсинг SE Максимальная скорость Как избежать бана ip?

11.12.2005 12:43 vlad677

Есть желание и возможность попарсить SE не заморачиваясь количеством траффика, но не имею опыта, чтобы правильно ограничить свои аппетиты. Интересуют (Google,Yahoo,MSN)

Подскажите pls, кто в курсе:

1.Сколько с одного ip допустимо запросов в сутки (час) ?

2.Google API ограничен 1000 запросов по 10 результатов в сутки.Это очень мало. Допускается ли использование нескольких ключей с одного ip?

3. вариант п1 при проверке PR

4. SE предупреждают о том, что они не любят, когда их опрашивают скрипты, но неизвестно насколько. Отсюда еще
несколько вопросов:
4.1 Нужно стараться максимально иммитировать броузер (все хеадеры, куки)?
4.2 Безопастно ли запрашивать большое количество результатов вместо стандартных 10 за один GET?


11.12.2005 14:27 ykar

Куки и хедеры не нужно. Достаточно лишь User-Agent.
По запросам, сколько не скажу, никогда не считал.

Просто бери список из анонимных проксей и делай один запрос через первый, другой через второй и т.д. по кругу.

Чтобы дергать результаты с Google по трое суток в 50-100 потоков , хватает 200-300 анонимных проксей. Часть отпадают по ходу, но не уходят в бан все.

У Yahoo, по моему опыту пожестче, если использовать 200-300 проксей, то они заканчиваются очень быстро (и на сутки не хватает). Так что для Yahoo, нужен список IP поболее.


11.12.2005 15:31 akor

а когда уже сделано 1000 серчей с google api ключем, то на следующие запросы, что будет возвращаться?


11.12.2005 17:51 vlad677

ykar, спасибо за коммент. Менять по кругу после каждого запроса можно с экслюзивными прокси. Я работаю с достаточно дохлыми фришными и такой подход сильно замедлит работу. Думаю, что буду менять через N запросов (N=50-100).

Сейчас делал проверку PR – получилось около 2000 запросов за 2 часа. Прокси не переключался, ( у меня сейчас алгоритм не переключает до умирания прокси)..

осталось прояснить п4.2, я сейчас запрашиваю по 25 результатов за один GET с Гугла. Работает нормально. Попробую увеличивать…


11.12.2005 17:55 [b

Сообщение от [b
Цитата[/b] ]а когда уже сделано 1000 серчей с google api ключем, то на следующие запросы, что будет возвращаться?Вроде бы просто пустая страница (без результатов).

Нафиг АПИ ?? Лишний геморой ! Юзать нужно прокси, HTTP протокол и многопоточность…


11.12.2005 18:29 alexcm2

Еще добавлю что МСН надо осторожно парсить и с проксей.. я как-то парсил 50 потоков его без прокси, они на ДЦ наехали, обвинили в ддосе, грозились закрыть все ИП ДЦ, нервов порвали и мне и хостеру, гугл и яха 0 внимания..


0