Февраль
1

Как устроен поисковик ? Например гугл

18.03.2007 23:08 badguy

Чето сижу, думаю никак не надумаю.
Ну ладно там сеть машин датацентров. Обрабатывают запросы уюзеров. Более менее понятно.
Но ведь это индексация миллиардов словосочетаний
Терабайты документов.
Как же это работает так быстро ?
Там наверное какой то хитрожопый алгоритм ?
Или это все эти датацентры работают на 1 мой запрос ?
недавно я осознал что я знаю что ничего не знаю :(
Сюда льем НЕОПЛАЧИВАЕМЫЙ адалт трафик. Даже турки, китайцы и индусы приносят деньги


18.03.2007 23:12 badguy

Пойду видео посмотрю
недавно я осознал что я знаю что ничего не знаю :(
Сюда льем НЕОПЛАЧИВАЕМЫЙ адалт трафик. Даже турки, китайцы и индусы приносят деньги


18.03.2007 23:24 [b

Сообщение от [b
Цитата[/b] (badguy @ Мар 18 2007,18:08)]Как же это работает так быстро ?
Там наверное какой то хитрожопый алгоритм ?Когда-то я думал, что отсортировать числа быстрее чем это делает алгоритм quick-sort невозможно…. пока не узнал о дистрибутивной сортировке. Теперь думаю что уже быстрее нее нет алгоритма….

И невозможное возможно.

PS. ПС – это целая наука.


19.03.2007 00:33 [b

Сообщение от [b
Цитата[/b] (badguy @ Мар 18 2007,18:08)]Чето сижу, думаю никак не надумаю.
Ну ладно там сеть машин датацентров. Обрабатывают запросы уюзеров. Более менее понятно.
Но ведь это индексация миллиардов словосочетаний
Терабайты документов.
Как же это работает так быстро ?
Там наверное какой то хитрожопый алгоритм ?
Или это все эти датацентры работают на 1 мой запрос ?это нужно Катса спрашивать.

Когда мы свой поиск делали, то изучали некоторые особенности технологии работы с множеством документов. Я думаю во-первых в гугле запросы не в реальном времени ищутся. Большинство запросов многократно уже искались кем-то в данном временном интервале, поэтому создаётся схема группировки однотипных запросов в единицу времени и кеширование результатов. И привязка ко времени кеширования самих документов, которые кравлеры обходят. Возможно сделана система определения старения информации, когда запрашивается их кеша обновление.

Во-вторых поиск идёт не по террабайтам документов, а скорее всего по индексным меткам что-ли информации. Это сложно обьяснять… составляется первичная матрица понятий, напр.
Человек – Машина – Магазин – Завод – Экология – Земля
И каждое раскладывается на суффикксное деревья значений:
Собака ест кошку, которая ест мышку, котоаря есть сыр. Значит собака ест сыр.

и в них уже по индексам документов ищется
[b][url=\"icoogle.com/registration.php\"]ICOOGLE :: DVD-NETWORK НОВОГО ПОКОЛЕНИЯ[/url]
Уникальная система конвертации SE адалт траффика. Есть нишевые фиды и все необходимые инструменты для успешной работы. Многолетний опыт работы с movies/video траффиком.[/b]


19.03.2007 03:05 dima5ty

Начнём с самого начала – алгоритмов поиска.
Самое начало – индекс.
Есть прямой индекс – когда слова, относящиеся к документу сортируются в определённом порядке (пусть будет ascii) и складываются под идентификатором проиндексированного документа.
На основе прямого индекса строится обратный индекс, т.е. файл с идентификатором слова, содержащий идентификаторы документов, в которых это слово встречалось.

Обратный индекс даёт возможность быстро получить список интересуемых документов. Пересечение обратных индексов двух слов – список документов, где встречаются оба слова. Трёх-трёх и т.д.

Далее придумываются или адаптируются алгоритмы сортировки и вычисления релевантности. По которым строятся серпы, которые потом моментально выкидываются на запросы пользователя.

А далее по потребностям. Т.е. распределение вычислений по серверам, кеши, фильтры, распределение пользовательских запросов по кешам, отказоустойчивость и т.д. и т.п.

Периодически все пункты обновляются, сбрасываются и вводятся новые.

Алгоритмы самые обычные, в книжках в том или ином виде давно описаны.

"Институт рулит"


19.03.2007 05:27 madbe

company.yandex.ru/programs/web_200203.html
}{ватит Грести Деньги Лопатой – Используй Экскаватор


19.03.2007 20:03 5hark

www.umaxforum.com/topic/12/20184/ в самом низу ссылки
Колоти бабло, зарабатывай на онлайн казино и покере


19.03.2007 20:20 boss_ua

На видео он как раз ПОДРОБНО рассказывает как устроен гугл…
————-


19.03.2007 20:42 badguy

Он так обобщенно расказывает, мутновато.
недавно я осознал что я знаю что ничего не знаю :(
Сюда льем НЕОПЛАЧИВАЕМЫЙ адалт трафик. Даже турки, китайцы и индусы приносят деньги


19.03.2007 23:20 5hark

а ты чего хотел, чтобы они рассказывали алгоритмы по которым они банят доры?

я работал на них в должности quаlitу ratеr и там тоже не особо чего рассказывали, просто сиди и тыкай кнопки, вот тебе описание на 27 листов сиди и читай что такое дорвеи что такое спам. потом сидишь и оцениваешь какая страница под какой запрос подходит, если она спам ставишь галочку и все, изредка постишь коменты. все остальное скрыто, то есть принцип по которому все доры потом банят никто ессно не рассказывал.

хотя догадаться по моему не сложно, есть определенные страницы которые quаlity rаtеr помечает как спам, с большой долей вероятности можно предположить что все страницы на которых текст, его расположение и какие то другие параметры находятся в такой же комбинации – тоже спам.

далее открываем ru.wikipedia.org и смотрим статью про нейронные сети в части "Области применения":

* Распознавание символов текста и других объектов.
* Распознавание речи.
* Управление движением транспортного средства и т. д..
* Классификация ситуаций.
* Кластеризация (категоризация) – классификация без "учителя".
* Краткосрочный прогноз.
* Аппроксимация.
* Принятие решений (например, Neuroshell Trader).

дальше думай сам
Колоти бабло, зарабатывай на онлайн казино и покере


0