Информационно - поисковые системы

Средства информационного поиска и их составные части

Существующие в настоящие время средства информационного поиска могут рассматриваться как связь индивидуальных или коллективных потребителей (пользователей) информации . Средства поиска - это контакт конкретного потребителя с поставщиками инфор­мации, объединяемых общностью информации по отношению к поставленному вопросу (рис. 2).

Рис. 2 Схема взаимодействия средства информационного поиска с потребителями и поставщиками информации

На схеме поставщик информации вырабатывает информацию, которая аккумулируется (накапливается) средством информационного поиска. Потребитель информации формулирует запрос и после поиска в массиве получает от средства поиска необходимые сведения. Поставщики информации могут быть разобщены территориально и ведомственно, а средство поиска представляет способ преодоления этой разобщенности.

Средства информационного поиска решают проблемы отыскания конкретных сведений среди множества документов (информационных ресурсов). В их работе с документальной информацией можно выделить два основных этапа:

1-й этап - сбор и хранение информации;

2-й этап - поиск и выдача информационных ресурсов потребите­лям.

Процесс движения информации в Интернете происходит по замк­нутому кругу, состоящему из потребителей информации, поставщиков информации и средств информационного поиска. Поставщиками и потребителями информации могут быть как отдельные лица, так и целые организации. Источником информации является деятельность и общественная практика отдельных лиц и коллективов, в результате которых формируются документальные данные и сообщения.

Службы поиска (средства, предназначенные для поиска информа­ции) Интернета разделяются на каталоги (directories), поисковые системы (search engines) и метапоисковые системы (metasearch engines).

2. Информационно-поисковые каталоги

Каталоги

Каталог - это система, обеспечивающая классификацию информации. Его отличительная особенность - наличие иерархии (схемы упорядочения) ресурсов, в которой каждый из них (ресурсов)

относится к одному или более разделам. Каталоги (например, Yahoo!

www.yahoo.corn) и List.ru (http://list.ru)) работают не с индексами, а с описаниями ресурсов Интернета. Они наполняются Web-мастерами (людьми, создающими информационные ресурсы) или специальными редакторами, которые просматривают информационные ресурсы Сети. В ответ на запрос пользователя каталоги выполняют поиск по этим тесаниям. Каталоги автоматически не обнаруживают изменения ин­формационных ресурсов Сети. Однако результаты поиска в них могут

казаться более осмысленными, так как информационные ресурсы налогах подготовлены людьми.

Рассмотрим структуру типовой схемы каталога (рис. 3):

Рис. 3. Типовая схема каталога

Клиент - это программа просмотра конкретного информационного

ресурса. Наиболее популярными программами просмотра Интернет-

документов являются Microsoft Internet Explorer и Netscape Navigator. В

свою очередь, все эти информационные ресурсы являются объектами

поиска.

Пользовательский интерфейс - это группа Web-страниц (форм) средства поиска, при помощи которых пользователь взаимодействует с данным средством.

Поисковая машина - компонент системы, основное назначение ко­торого - поиск известных данной системе документов, соответствующих сформулированному запросу во внутреннем массиве данных системы, и формирование ответа (результата проведенного поиска) пользователю в виде набора ссылок на найденные документы.

Технический персонал - люди, в обязанности которых входит формирование перечня информационных ресурсов каталога, их описа­ний и иерархии этих ресурсов.

Запросы пользователя - массив данных системы, служащий для временного хранения сформулированных запросов пользователя.

Иерархия информационных ресурсов и их описания – внутренний массив данных каталога, в котором содержатся сведения об информационных ресурсах сети Интернет (адреса URLи краткое описание ресурсов). Данный массив организован таким образом, что каждый информационный ресурс соответствует какой-либо теме, а перечень тем упорядочен по признаку подчинения.

Информационные ресурсы - ресурсы, просмотр которых обеспе­чивается программами просмотра, такими как Microsoft Internet Explorer, Netscape Navigator и др., т.е. это Интернет-документы.

При решении стандартной поисковой задачи (при поиске обще­доступной информации) именно каталог, а не поисковая система оказывается наиболее лучшей точкой отсчета для начала поиска.

Типичным примером использования каталога является необходи­мость нахождения в сети Интернет группы информационных ресурсов на определенную недостаточно узкую тематику, например сайтов, предоставляющих контактную информацию организаций Москвы или сайтов электронных СМИ.

ИПС - Информационно-поисковые системы

Другая, принципиально отличная от каталога, служба поиска ин­формации - информационно-поисковая система (ИПС). ИПС - это система, обеспечивающая накопление и поиск информации

ИПС, решая задачи сбора, хранения, обработки и выдачи информации, выполняют следующие операции:

  • поиск документов;
  • анализ содержимого документов;
  • построение поисковых образов документов (извлечение из
  • документов информации, используемой системой как знания
  • о документе);
  • хранение поисковых образов документов (сведений о
  • документах);
  • анализ запросов пользователей (потребителей информации);
  • поиск релевантных (соответствующих) запросу документов;
  • выдача ссылок на документы потребителям.

Это представляет возможным составить общую схему ИПС. Примером может служить типовая схема ИПС (рис. 4).

Рис. 4. Типовая схема информационно-поисковой системы

Индекс базы данных - это основной массив данных ИПС. Он служит для хранения сведений обо всех известных системе Интернет-документах. Данные сведения необходимы для того, чтобы поисковая система сумела найти документы на запрос пользователя.

Робот-индексировщик (crawler, spiderили паук) - программный модуль поисковой системы, служащий для поиска (отбора) информаци­онных ресурсов в Сети и их индексирования (индексировать информацию означает приписать каждому документу ключевые слова, отражающие содержание документа и управляющие поиском, приводя к тем документам, слова которых оказываются более сходными со словами сделанного запроса), т.е. поддержания базы данных индекса в актуальном (по отношению к Интернету) состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов. Просмотр документов Интернета данным модулем системы делается регулярно. Для крупных систем период просмотра документов, как правило, составляет 1-2 недели.

Общий алгоритм функционирования ИПС (принцип работы; со сюит в следующем. Робот-индексировщик автоматических просматривает (переходя от одного ресурса к другому, используя ссыл­ки, расположенные на нем) различные информационные ресурсы Интернета (Интернет-документы). Создает индекс базы данных, помещая туда информацию о ресурсах Сети. При этом он также периодически возвращается к информационным ресурсам и проверяет их на наличие изменений. Когда пользователь делает поисковой систе­ме; запрос, ее программное обеспечение (поисковая машина) просматривает созданный индекс базы данных в поиске ресурсов с заданными ключевыми словами и ранжирует (упорядочивает) эти ресур­сы по степени близости к предмету поиска.

Относительно алгоритма функционирования ИПС следует сделать ряд замечаний. В каждой конкретной поисковой системе хранятся (сведения не о всех документах Интернета, а только о тех документах которые известны данной системе (для различных систем процент проиндексированных документов различен, но, как правило, не превы­шает 30%). В поисковых системах хранятся не сами документы, а только сведения о них, достаточные для их нахождения пользователем и, как следствие этого, поисковая система в результатах поиска может и не выдавать некоторые соответствующие запросу документы. В результате поиска (отклике на запрос) системой сортируются документы по степени соответствия сделанному пользователем запросу с точки зрения алго­ритма поисковой системы, а не с точки зрения их фактического соответствия запросу. Данная особенность систем значительно эконо­мит время, затрачиваемое на поиск требуемой информации, особенно когда комбинация слов запроса встречается в нескольких тысячах или миллионах документов, однако нередки и случаи, когда наиболее соответствующие запросу документы не являются первыми в выданном списке. В данном случае следует соблюдать компромисс между количе­ством просматриваемых документов и общим числом найденных документов (как правило, требуемая информация содержится в первых нескольких десятках найденных документов), но наиболее типичным действием является уточнение запроса с помощью средств уточнения запроса, предоставляемых данной системой (т.е. обычно при помощи языка запросов и (или) средств расширенного интерфейса формулиров­ки запросов). К формированию более детального запроса также следует обратиться, если в результатах поиска много информационного шума (т.е. не соответствующей запросу информации), что, как правило, свиде­тельствует о неудачно подобранных терминах запроса (например, они подвержены полисемии (т.е. имеют несколько значений)). В промежут­ках между работой робота-индексировщика системы документы изменяются пользователями, но эти изменения часто учитываются поисковой системой не мгновенно, а спустя некоторый промежуток времени, определяемый периодом индексирования Интернета, поэтому некоторая информация может быть в системе потенциально недоступ­ной в конкретный момент времени.

Поисковые системы следует применять, если требуется найти информацию по специфичным вопросам или для обеспечения полноты охвата ресурсов.

Примером применения при поиске информационно-поисковых сис­тем могут являться требования найти сайт конкретной организации или дать ответ на вопрос «Причины введения единого экзамена в средних школах?».

К наиболее известным поисковым системам относятся такие служ­бы, как Google (http://www.qooqle.com) и Яндех (http://www.yandex.ru).

Метапоисиовые системы

Отличия в стратегии и широте охвата материала различных поис­ковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе исполь­зуют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронным каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя само­стоятельно формируют запросы для нескольких внешних средств

Рис. 5. Типовая схема метапоисковой системы

поиска, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Иначе, такая система ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собст­венному алгоритму.

Метапоисковые системы позволяют сократить время, за­траченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска.

Наиболее значимые метапоисковые системы - MetaCrawler (http://www.metacrawler.com) и MetaBot.ru (http://metabot.ru). Их главное достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например в MetaBot.ru, фактически одновременно обращается к другим поисковым системам. Этим гарантируется «объективность» и «полнота» полученных ре­зультатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Метапоисковые системы наиболее эффективны на начальных чпапах поиска информации. Они помогают локализовать средства юиска, в которых присутствуют сведения об искомой пользователем информации.

Дополнительные средства и способы поиска

Существуют и дополнительные способы поиска в Интернете, кото­рые используют возможности, предоставляемые некоторыми другими службами Сети, ее персоналом, а также ее пользователями, которые способствуют поиску информации. К таким службам можно отнести телеконференции (форумы) (способ взаимодействия пользователей в Интернете, посредством которого один из пользователей оставляет сообщения на информационном ресурсе сети (сайте), а другие пользо­ватели могут читать в любое удобное для них время), электронные объявлений (строятся по принципу телеконференций), чаты (от (игл. chat - болтать) (способ взаимодействия пользователей в Интерне-ie, посредством которого происходит общение пользователей в режиме реального времени), серверы, ведущие поиск информации через элек­тронную почту (один из возможных способов обращения к средствам информационного поиска) и др. Данные способы являются дополни­тельными, поскольку они:

  • не предназначены для массового использования;
  • не являются универсальными (накапливают адреса в недос­таточном объеме или по узким направлениям);
  • не являются стандартными или обязательными для того, кто
  • их предоставляет (т.е. нет гарантии получения ответа на
  • запрос).