поиск / интернет / наука / нигма
МГУ им. М. В. Ломоносова факультеты ВМиК и психологии представляют совместный проект: «NIGMA самая умная поисковая система» (http://nigma.ru/).
Система осуществляет метапоиск и кластеризацию на основе таких поисковых систем, как Google, Yahoo, MSN, Yandex, Rambler.
Многие современные поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет не изменилась необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя.
Однако природа Интернет влечет изменение постановки задачи поиска и обуславливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска.
Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов.
Системы, обеспечивающие кластеризацию полученных документов, были реализованы для английского языка. Теперь этот алгоритм применим и к кириллическим документам.
Алгоритм проекта Nigma заключается в том, чтобы на основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа.
Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline этот подход предполагает предварительное обучение системы.
Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка набор обучающих текстов, системы лескико-семантического анализа текста пример поиска с кластеризацией, подробнее о методах кластеризации).
В ответ на вопросы специалистов об объемах «базы» интеллектуальной поисковой системы Nigma.ru, участники научного проекта Nigma.ru провели оценку суммарного объема русскоязычных документов в поисковых системах, с помощью которых в данный момент осуществляет поиск проект Nigma.ru, и получили следующий результат: по состоянию на 16-е мая 2005 года в Интернете имеется примерно 1’052’227’229 русскоязычных документов.
Это вторая попытка группы посчитать размер Рунета первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. «устойчивостью» при изменении некоторых параметров, оценка количества документов не колебалась около т.н. «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы.
Первоначально, устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 2030% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru.
Не совсем корректно называть полученное число как объем «базы» поисковой системы Nigma.ru, т.к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.
Участники проекта надеются, что это исследование даст толчок многим поисковым системам и, в результате, российский Интернет будет проиндексирован еще лучше и глубже, чем он проиндексирован сейчас, что даст возможность пользователям Рунета искать и находить важную для них информацию гораздо быстрее и проще.
|