Февраль
1

Разное количество страниц по запросу site: в разных браузерах

11.02.2008 01:04 5hark
Разное количество страниц по запросу site: в разных браузерах
Седня заметил странную хрень:

у меня есть бот который каждый день проверяет сайты по запросу site: в google
сегодня я не полез в отчеты, а просто в браузере (firefox с гугловым тулбаром) запросил site:www.mysite.ru – проиндесировано 141 страница

посмотрел сколько бот выдернул – 40 страниц, сначала подумал разница во времени, бот в 14 часов проверяет, я проверил сейчас (03:31).

тот сайт на котором я увидел эту разницу добавлен в google webmaster tools, когда проверял по этому запросу в firefox я был залогинен под тем же логином, на который добавлен сайт в google webmaster tools

в общем стал проверять:
браузер konqueror, я залогинен под этой учетной записью – 40 страниц разлогинился – ничего не поменялось, повторил еще раз, ничего не меняется
opera, не залогинен – 40 страниц, залогинился 141 страница
firefox залогинен – 141 страница, разлогинился, ничего не изменилось

ps: бот подставляет случайные юзер-агенты из списка, и генерит все те же заголовки что посылает обычноый браузер.
Последний раз редактировалось 5hark; 11.02.2008 в 01:15


11.02.2008 01:18 allweb

бот на том же компе работает ?может ip другой


11.02.2008 01:22 5hark

на том же, специально его запустил только на этот сайт и сразу стал в браузерах проверять. айпишник тоже один


11.02.2008 09:34 5hark

Сообщение от 5hark
на том же, специально его запустил только на этот сайт и сразу стал в браузерах проверять. айпишник тоже одинЭто ты его запустил с того же компа, а пошёл-то он, наверное, с сервера?
SEOWATER – Живая вода для дорвейщика. ~~~ ГлавТорг – на МОДЕ тоже можно зарабатывать!


11.02.2008 11:06 BMaster

Сообщение от BMaster
Это ты его запустил с того же компа, а пошёл-то он, наверное, с сервера?я сам все это писал с нуля так что запускался он с моего компа и работает он на моем компе

собственно там ничего мега сложного нет:
Код:
def get_page(url):
headers = [ ('User-Agent', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'),
('Accept', 'text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5'),
('Cache-Control' , 'max-age=0'),
('Connection' , 'keep-alive'),
('Keep-Alive' , 300),
('Accept-Charset' , 'windows-1251,utf8;q=0.7,*;q=0.7'),
('Accept-Language' , 'ru,en;q=0.5'),
]
opener = urllib2.build_opener()
opener.addheaders = headers
p = opener.open(url)
return p.read()сейчас оставил один юзер-агент. эта функция просто дергает страницу, дальше другая просто выдергивает регулярным выражением количество проиндексированных страниц
Последний раз редактировалось 5hark; 11.02.2008 в 11:11


0