Т.С.С.И. | Поиск | Интернет | Наука | Нигма: метапоиск с кластеризацией (Google, Yahoo, MSN, Yandex, Rambler)

поиск / интернет / наука / нигма

МГУ им. М. В. Ломоносова факультеты ВМиК и психологии представляют совместный проект: «NIGMA — самая умная поисковая система» (http://nigma.ru/).

Система осуществляет метапоиск и кластеризацию на основе таких поисковых систем, как Google, Yahoo, MSN, Yandex, Rambler.

Многие современные поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет не изменилась — необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя.

Однако природа Интернет влечет изменение постановки задачи поиска и обуславливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска.

Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов.

Системы, обеспечивающие кластеризацию полученных документов, были реализованы для английского языка. Теперь этот алгоритм применим и к кириллическим документам.

Алгоритм проекта Nigma заключается в том, чтобы на основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа.

Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline — этот подход предполагает предварительное обучение системы.

Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка — набор обучающих текстов, системы лескико-семантического анализа текста пример поиска с кластеризацией, подробнее о методах кластеризации).

В ответ на вопросы специалистов об объемах «базы» интеллектуальной поисковой системы Nigma.ru, участники научного проекта Nigma.ru провели оценку суммарного объема русскоязычных документов в поисковых системах, с помощью которых в данный момент осуществляет поиск проект Nigma.ru, и получили следующий результат: по состоянию на 16-е мая 2005 года в Интернете имеется примерно 1’052’227’229 русскоязычных документов.

Это вторая попытка группы посчитать размер Рунета — первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. «устойчивостью» — при изменении некоторых параметров, оценка количества документов не колебалась около т.н. «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка — он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы.

Первоначально, устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20–30% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru.

Не совсем корректно называть полученное число как объем «базы» поисковой системы Nigma.ru, т.к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.

Участники проекта надеются, что это исследование даст толчок многим поисковым системам и, в результате, российский Интернет будет проиндексирован еще лучше и глубже, чем он проиндексирован сейчас, что даст возможность пользователям Рунета искать и находить важную для них информацию гораздо быстрее и проще.

:: Ценные сведения

Проект:
Нигма:
метапоиск с кластеризацией.

Актуальность материала:
2005 г.

Комментарий:
«Ищите, и обрящете»
(Мф 7:7).

Советуем:
Для удобства организации научно-библиографического аппарата своих исследований воспользуйтесь библиографическим органайзером ProCite.

Чтобы не потеряться в Интернет добавьте страничку в Избранное!