Февраль
1

левая выдача Гугля... Л-Е-В-А-Я

30.10.2005 21:34 [b

Вообщем сабж.
Парсю гугля, а он, скотина, нагло выдает неверный фид.
Например:
Сообщение от [b
Цитата[/b] ]
hxxp://www.google.com/search?hl=en&q=phentermine
Results 1 – 10 of about 5,010,000 for phentermine

hxxp://www.google.com/search?hl=en&q=%22phentermine%22
Results 1 – 10 of about 5,040,000 for "phentermine"Захожу значит по тем же ссылкам браузером (любым) – всё ок. Выдача:
1) Results 1 – 10 of about 6,270,000 for phentermine
2) Results 1 – 10 of about 6,280,000 for "phentermine"

После этого (того как посмарел браузером) парсю – тоже все ок. Странно как-то… с чем это связано может быть? Кроме того, есть информация, что сама выдача – тоже левая.

Запрашиваю фид с помощью LWP::UserAgent->get()
само собой, меняя HTTP_USER_AGENT на "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)", т.к. со стандартным (libwww-perl/#.##) гугля говорит 403 Форбидден.

Можно, конечно, запрашивать гугля посредством IO::Socket и полностью эмулировать заголовки браузера. Вопрос – будет ли в этом толк? Кто-нибудь сталкивался с подобной проблемой?

Заодно еще вопрос… как выдача по запросу "в кавычках" может быть больше выдачи по тому-же запросу БЕЗ кавычек?
Партнерская программа для туристических сайтов


30.10.2005 21:45 [b

Сообщение от [b
Цитата[/b] ]Запрашиваю фид с помощью LWP::UserAgent->get()
само собой, меняя HTTP_USER_AGENT на "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)", т.к. со стандартным (libwww-perl/#.##) гугля говорит 403 Форбидден.если через прокси, то прокся может быть забанена у меня чезер fopen все на ура
pifpaf.name


30.10.2005 21:53 jackal

Неее, все операции (и запрос через LWP и просмотр браузером) с локального компа, соответственно под одним IP. Кроме того, я же написал, что ПОСЛЕ ТОГО, как посмотришь на гуглю браузером, гугля уже и LWP начинает нормальный фид выдавать.
Партнерская программа для туристических сайтов


30.10.2005 22:09 voodoo

да ее хрен поймешь.. я тоже напарился с парсингом выдачи в свое время А у тебя в чем проблема? В количестве показываемых результатов если я понял?
Все равно больше тысячи не получишь, а то что гугль пишет о кол-ве имхо левое хорошо округленное число…


30.10.2005 22:27 jackal

Проблема не в количестве показываемых результатов, а в том, что непонятно почему гугля упорно показывает моему боту ЛЕВЫЕ результаты (т.е. далеко не такие, какие показывает браузеру). Причем после просмотра гугли браузером это пропадает – т.е. гугля кажет боту реальную выдачу. Вот меня и интересует – с чем это связано…
Партнерская программа для туристических сайтов


30.10.2005 22:37 daditto

Нужно посмотреть с каких айпшиников тянет фид броузер и с каких скрипт. Возможно, что получается фид с разных датацентров. Также стоит попробовать передавать Language броузера, т.к. от этого тоже может зависить. Ну уж и на крайняк посмотреть cookies, хотя насчет последнего я сильно сомневаюсь.


30.10.2005 22:50 jackal

Попробую, конечно… Всмысле полностью сэмулировать заголовок браузера. Только непонятен смысл просмотра айпишников. Если даже окажется, что фид принимается с разных датацентров, то останется вопрос – ПОЧЕМУ так происходит. Ведь обращаюсь то я за фидом не по ИП а по доменному имени. Но я – посмотрю
Партнерская программа для туристических сайтов


31.10.2005 03:22 bjim

а google api не нравится? там правда лимит 1000 в сутки на один кей.


31.10.2005 06:31 unimaximus

1. Кол-во результатов по сложным общим "жирным" определяется по форумле и считается приблизительно.

2. Если предположить что гугля построена так же, как строят огромные БД (тоесть с применением локальных индексов и склеиванием результатов в едино, то когда выпадет один такой индекс, просто уменьшается кол-во результатов, а если мы говорим про удаленные датацентры, то выпадение может стать следствием таймаута или еще каких-то внешних факторов)

ИМХО к делу не очень относится, но причиной выпадения может являться.
www.altastat.com/ – Хороший скупщик RU,UA,BY – трафика


31.10.2005 15:00 arachnO

Леха, говорилось про то что 403 отдает роботу а не резалты
у меня было такое – вылечилось сменой прокси
RX-Promotion – продай виагру и купи параход. все просто.


0