Реферат: Информационно-поисковая система - текст реферата. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Реферат

Информационно-поисковая система

Банк рефератов / Информатика, информационные технологии

Рубрики  Рубрики реферат банка

закрыть
Категория: Реферат
Язык реферата: Русский
Дата добавления:   
 
Скачать
Архив Zip, 45 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникального реферата

Узнайте стоимость написания уникальной работы

Информационно-поисковая система Рассмотрим постановку задачи поиска в общем виде. Д ля этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и ка к искать (какие инструменты для этого использовать). Каковы основные источники информации, представл енные в Интернете ? Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации о рганизаций и людей (электронная почта, адрес, телефон), статьи в тематичес к их базах данных, энциклопедиях. Где эти источники информации размещаются ? Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы. Безусловно, можно искать нужные источники информации вручну ю, узнавать адреса из специализированных журналов по информатике и Инте рнету, использовать специальные бумажные справочники с классифицирова нными по категориям адресами. Однако для такого изменчивого пространст ва как Интернет необходимо научиться пользоваться специальными инстру ментами, цель которых - собирать данные об информационных ресурсах и пре доставлять пользователям услугу быстрого поиска. ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходи мых данных в специальной базе с описаниями источников информации ( индексе ) на основе информационно -поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной инфор мационным потребностям пользователя. Очень важно в результате проведе нного поиска ничего не потерять, то есть найти все документы, относящиес я к запросу, и не найти ничего лишнего. Поэтому вводится качественная хар актеристика процедуры поиска - релевантность. Релевантность - э то соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются п ространственный масштаб и специализация. По пространственному масштаб у ИПС можно разделить на локальные, глобальные, региональные и специализ ированные. Локальные поисковые системы могут быть разработаны для быст рого поиска страниц в масштабе отдельного сервера. Региональные ИПС опи сывают информационные ресурсы определенного региона, например, русско язычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно о писать ресурсы всего информационного пространства сети Интернет. В общем случае, можно выделить следующие поисковые инструменты для WWW: кат алоги, поисковые системы, метапоисковые системы. Каталог Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством по следовательного уточнения тем. Тем не менее, каталоги поддерживают возм ожность быстрого поиска определенной категории или страницы по ключев ым словам с помощью локальной поисковой машины. База данных ссылок (инде кс) каталога обычно имеет ограниченный объем, заполняется вручную персо налом каталога. Некоторые каталоги используют автоматическое обновлен ие индекса. Результат поиска в ката логе представляется в виде списка, состоящего из краткого описания (анно тации) документов с гипертекстовой ссылкой на первоисточник. Адреса популярных каталогов: Зарубежные каталоги: Yahoo - www.yahoo.com Magellan - www.mckinley.com Российские каталоги: @ Rus - www . aport . ru Weblist - www . weblist . ru Улитка - www . ulitka . ru Поисковая машина Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об ин формационных ресурсах. Отличитель ной чертой поисковых машин является тот факт, что база данных, содержаща я информацию об Web-страницах, статьях Usenet и т.д., формируется программой-робо том. Поиск в такой системе проводит ся по запросу, составляемому пользователем, состоящему из набора ключев ых слов или фразы, заключенной в кавычки. Индекс формируется и поддержив ается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится н есколько первых предложений или выдержки из текста документа с выделен ием ключевых слов. Как правило, указана дата обновления (проверки) докуме нта, его размер в килобайтах, некоторые системы определяют язык документ а и его кодировку (для русскоязычных документов). Что можно делать с полученными результатами? Если названи е и описание документа соответствует вашим требованиям, можно немедлен но перейти к его первоисточнику по ссылке. Это удобнее делать в новом окн е, чтобы иметь возможность далее анализировать результаты выдачи. Многи е поисковые системы позволяют проводить поиск в найденных документах, п ричем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу по иска похожих документов. Для этого вы выбираете особо понравившийся док умент и указываете его системе в качестве образца для подражания. Однако , автоматизация определение похожести - весьма нетривиальная задача, и з ачастую эта функция работает неадекватно вашим надеждам. Некоторые пои сковики позволяют провести пересортировку результатов. Для экономии в ашего времени можно сохранить результаты поиска в виде файла на локальн ом диске для последующего изучения в автономном режиме. Адреса наиболее популярных поисковых машин за р убежом и в России. Зарубежные поисковые машины : Google - www.google.com Altavista - www.altavista.com Excite - www.excite.com HotBot - www.hotbot.com Nothern Light - www.northernlight.com Go (Infoseek) - www.go.com ( infoseek.com ) Fast - www.alltheweb.com Российские поисковые машины : Яndex - www.yandex.ru (и ли www.ya.ru ) Рэмблер - www.rambler.ru Апорт - www.aport.ru Метапоисковая машина Метапоисковая система. Обр атите внимание на то, что различные поисковые системы описывают разное к оличество источников информации в Интернет. Поэтому нельзя ограничива ться поиском только в одной из указанных поисковых системах. Теперь позн акомимся с инструментами поиска, которые не формируют собственный инде кс, но умеют использовать возможности других поисковых систем. Это метап оисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объеди нить полученные результаты и представить их пользователю в виде докуме нта со ссылками. Адреса известных метапоисковых систем: MetaCrawler - www . metacrawler . com SavvySearch - www . savvysearch . com Поиск источников информации Обсудим проблему поиска такого источника информац ии, как статьи в группах новостей. Инструментами поиска в данном случае м огут являться рассмотренные поисковые машины WWW, которые индексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальны й режим поиска именно в этом ресурсе. Поиск в группах новостей поддержив ает, например, поисковый сервер Altavistа. Следует отметить, что поисковые сист емы WWW весьма оперативно индексируют группы новостей и содержат информа цию о статьях, реально существующих в сети. Для поиска в архивах новостей существую специализированные системы, самой известной из которых явля ется система Deja ( www.deja.com ). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, по священных обсуждению заданной темы. Можно зарегистрироваться в Deja и подп исаться на определенные группы новостей. Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Мно гие поисковые системы WWW стали оказывать услугу поиска мультимедийных ф айлов (Altavista, Aport). Для этого вовсе нет необходимости знать специальные операт оры, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio и ли Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Что касается поиска программного обеспечения, во всемирной паутине сущ ествуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некот орые из них специализируются на поиск программного обеспечения для Инт ернета или для конкретной операционной системы. Эти системы в конечном и тоге приведут вас к конкретному серверу, с которого и можно скачать иско мый программный продукт. Следует упомянуть серверы Archie, также оказывающи е услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гор аздо удобнее. Рассмотрим поисковые инструменты для поиска адресной информации. Введ ем понятие Белого(White) и Желтого (Yellow) поиска. White-поиск - поиск ад ресной информации по заранее известному собственному имени адресата (и мя человека или организации) Yellow-поиск - поиск со бственного имени по дополнительным признакам (по роду деятельности, по г еографическому признаку), а затем поиск его адресной информации. Обычно Yellow Pages системы фактически сразу включают в себя и White Pages - у найденного а дресата сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поис к). С другой стороны, White pages также содержат элементы yellow-поиска - кроме задания с обственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофамил ьцев). Возможно, именно поэтому многие on-line телефонные справочники, выполня ющие, фактически white-поиск, называют себя Yellow pages. Здесь приведены адреса Web-систем для поиска адресной информации для люде й и организаций. Поиск людей: · Поиск людей на Yahoo ( http://people.yahoo.com ). · Система WhoWhere ( www.whowhere.com ). · Система Bigfoot ( www.bigfoot.com ). Поиск орг анизаций: раздел Желтые страницы (Yellow pages) на поисковых системах специализированные серв ера www.yellowpages.com - для поиска в США и других странах. Пользователям Internet уже хорошо известны названия та ких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek, а без услуг этих си стем сегодня практи чески нельзя найти что-либо полезное в море информац ионных ресурсов Сети. Но что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информаци и осуществляется достаточно быстро и как устроено ранжирование докуме нтов при выдаче - все это обычно остается за кадром. Тем не менее без прави льного планирования стратегии поиска, знакомства с основными положени ями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадц атилетнюю историю, трудно эффективно использовать даже такие скоростр ельные сервисы, как AltaVista или Lycos. Информационно-поисковые системы появились на свет достаточно давно. Те ории и практике построения таких систем посвящено множество статей, осн овная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечес твенных источников следует выделить научно-технический сборник "Научн о-техническая информация. Серия 2", который выходит до сих пор. На русском я зыке издана так же и "библия" по разработке ИПС - "Динамические библиотечно -информационные системы" Ж. Солтона [1], в которой рассмотрены основные при нципы построения информационно-поисковых систем и моделирования проце ссов их функционирования. Таким образом, нельзя сказать, что с появление м Internet и бурным вхождением его в практику информационного обеспечения поя вилось нечто принципиально новое, чего не было раньше. Если быть точным, т о ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекс товая модель World Wide Web еще не решают проблему поиска информации в больших объ емах разнородных документов. И на сегодняшний день нет другого способа б ыстрого поиска данных, кроме поиска по ключевым словам. При использовании иерархической модели Gopher приходит ся довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тема тическое разбиение должно совпадать с информационными потребностями п ользователя. Учитывая анархичность Internet и огромное количество всевозмож ных интересов у пользователей Сети, понятно, что кому-то может и не повезт и и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была ра зработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives). Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 год у в специальном выпуске журнала "Communication of the ACM" [2] среди прочих проблем разработк и гипертекстовых систем и их использования Франк Халаз назвал в качеств е первоочередной задачи для следующего поколения систем этого типа наз вал проблему организации поиска информации в больших гипертекстовых с етях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей р еализации. Естественно, что система, предложенная Бернерсом-Ли [3] и получи вшая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтвержден ие этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-п оисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайно м из Университета Колорадо, получила приз как лучшее навигационное сред ство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся резу льтатом планового и последовательного движения научных и производстве нных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем др угой род деятельности. Именно такая судьба ожидала два других проекта, п редставленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line. Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За п рошедшие два года снят только верхний слой возможных решений. Однако мно гие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до си х пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital [4], главной целью которого является разработка программных с редств информационного поиска для Web и подбор архитектуры для информаци онного сервера Web. Архитектура современных ИПС для WWW Прежде чем описать проблемы построения информацио нно-поисковых систем Web и пути их решения рассмотрим типовую схему такой с истемы. В различных публикациях, посвященных конкретным системам, напри мер [5,6], приводятся схемы, которые отличаются друг от друга только способо м применения конкретных программных решений, а не принципом организаци и различных компонентов системы. Поэтому рассмотрим эту схему на пример е, взятом из работы [6] (рис. 1). Рисунок 1. Т иповая схема информационно-поисковой системы. Client (клиент) на этой схеме - это программа просмотра конкретного информаци онного ресурса. Наиболее популярны сегодня мультипротокольные програм мы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-а рхивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-пои сковой системы. User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-по исковой системы под этим словосочетанием понимают также способ общени я пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска. Search engine (поисковая машина) - служи т для трансляции запроса на информационно-поисковом языке (ИПЯ), в формал ьный запрос системы, поиска ссылок на информационные ресурсы Сети и выда чи результатов этого поиска пользователю. Index database (индекс базы данных) - инде кс, который является основным массивом данных ИПС и служит для поиска ад реса информационного ресурса. Архитектура индекса устроена таким обра зом, чтобы поиск происходил максимально быстро и при этом можно было бы о ценить ценность каждого из найденных информационных ресурсов сети. Queries (запросы пользователя) - сох раняются в его (пользователя) личной базе данных. На отладку каждого запр оса уходит достаточно много времени, и поэтому чрезвычайно важно запоми нать запросы, на которые система дает хорошие ответы. Index robot (робот-индексировщик) - слу жит для сканирования Internet и поддержания базы данных индекса в актуальном с остоянии. Эта программа является основным источником информации о сост оянии информационных ресурсов сети. WWW sites - это весь Internet или точнее - ин формационные ресурсы, просмотр которых обеспечивается программами про смотра. Рассмотрим теперь назначение и принципу построения каждого из этих ком понентов более подробно и определим, в чем отличие данной системы от тра диционной ИПС локального типа. Информационные ресурсы и их представление в ИПС Как видно из рис. 1, документальным массивом ИПС Internet яв ляется все множество документов шести основных типов: WWW-страницы, Gopher-файл ы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков расс ылки. Все это довольно разнородная информация, которая представлена в ви де различных, никак несогласованных друг с другом форматов данных: текст ы, графическая и аудиоинформация и вообще все, что имеется в указанных хр анилищах. Естественно возникает вопрос - как информационно-поисковая си стема должна со всем этим работать? В традиционных системах используется понятие поискового образа докуме нта - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой докуме нт и использующееся при поиске вместо реального документа. Поисковый об раз является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью яв ляется векторная модель [7], в которой каждому документу приписывается сп исок терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу тер минов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутств ия термина в ПОД. В более сложных моделях термины взвешиваются - элемент в ектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее попу лярной в ИПС Internet [4,6,7]. Вообще говоря, существуют и другие модели описания документов: вероятно стная модель информационных потоков и поиска и модель поиска в нечетких множествах [7]. Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результа ты которых отражены в работах [4, 6]. Таким образом, первая задача, которую до лжна решить ИПС, - это приписывание списка ключевых слов документу или ин формационному ресурсу. Именно эта процедура и называется индексирован ием. Часто, однако, индексированием называют составление файла инвертир ованного списка, в котором каждому термину индексирования ставится в со ответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создани я поискового аппарата ИПС. Проблема, связанная с индексированием, заключ ается в том, что приписывание поискового образа документу или информаци онному ресурсу опирается на представление о словаре, из которого эти тер мины выбираются, как о фиксированной совокупности терминов. В традицион ных системах существовало разбиение на системы с контролируемым слова рем и системы со свободным словарем. Контролируемый словарь предполага л ведение некоторой лексической базы данных, добавление терминов в кото рую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе дан ных. Свободный словарь пополнялся автоматически по мере появления новы х документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент эт ого обновления перегружались сами документы, и обновлялся словарь, а пос ле его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в мом ент ее актуализации закрывался. Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таки м образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц прове ряла наличие документов Gopher и обновляла свою базу данных ПОД для документ ов Gopher. В World Wide Web ничего подобного нет. Для решения этой задачи используются пр ограммы сканирования сети или роботы-индексировщики [8]. Разработка робо тов - это довольно нетривиальная задача; существует опасность зациклива ния робота или его попадания на виртуальные страницы. Робот просматрива ет сеть, находит новые ресурсы, приписывает им термины и помещает в базу д анных индекса. Главный вопрос заключается в том, что за термины приписыв ать документам, откуда их брать, ведь ряд ресурсов вообще не является тек стом. Сегодня роботы обычно используют для индексирования следующие ис точники для пополнения своих виртуальных словарей: гипертекстовые ссы лки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные текст ы документов, а также сообщения администраторов о своих Web-страницах [9]. Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным обр азом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все тер мины из перечисленных элементов документов попадают в их поисковые обр азы. Очень активно применяются списки запрещенных слов (stop-words), которые не м огут быть употреблены для индексирования, общих слов (предлоги, союзы и т. п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым ин дексированием реально является выбором слов из текста документа и срав нением с набором различных словарей, после которого термин попадает в ПО Д, а потом и в индекс системы. Для того чтобы не раздувать словарей и индек сов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое поняти е, как вес термина [10]. Документ обычно индексируется через 40 - 100 наиболее "тяж елых" терминов. Индекс поиска После того ка к ресурсы заиндексированы и система составила массив ПОД, начинается по строение поискового аппарата. Совершенно очевидно, что лобовой просмот р файла или файлов ПОД займет много времени, что абсолютно не приемлемо д ля интерактивной системы WWW. Для ускорения поиска строится индекс, которы м в большинстве систем является набор связанных между собой файлов, орие нтированных на быстрый поиск данных по запросу. Структура и состав индек сов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый яз ык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы [6], для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд дру гих возможностей, отсутствующие во многих поисковых системах Internet, наприм ер Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторо в страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таб лицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и пр ямого списка (FL). Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в ун икальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентифи катор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе использую тся при поиске, но главным среди них является файл инвертированного спис ка. Результат поиска в данном файле - это объединение и/или пересечение сп исков идентификаторов страниц. Результирующий список, который преобра зовывается в список заголовков, снабженных гипертекстовыми ссылками в озвращается пользователю в его программу просмотра Web. Для того чтобы быс тро искать записи инвертированного списка, над ним надстраивается еще н есколько файлов, например, файл буквенных пар с указанием записей инверт ированного списка, начинающихся с этих пар. Кроме этого, применяется мех анизм прямого доступа к данным - хеширование. Для обновления индекса исп ользуется комбинация двух подходов. Первый можно назвать коррекцией ин декса "на ходу" с помощью таблицы модификации страниц. Суть такого решени я довольно проста: старая запись индекса ссылается на новую, которая и ис пользуется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление и ндекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ о рганизации этих массивов является "секретом фирмы" и ее гордостью. Для то го чтобы убедиться в этом, достаточно почитать материалы OpenText [11]. Информационно-поисковый язык системы Индекс - это т олько часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно о сталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Е сли даже пользователю предлагается вводить запросы на естественном яз ыке, то это еще не значит, что система будет осуществлять семантический р азбор запроса пользователя. Проза жизни заключается в том, что обычно фр аза разбивается на слова, из которых удаляются запрещенные и общие слова , иногда производится нормализация лексики, а затем все слова связываютс я либо логическим AND, либо OR. Таким образом , за прос типа : >Software that is used on Unix Platform будет преобразован в : >Unix AND Platform AND Software что будет означать примерно следующее: "Найди все до кументы, в которых слова Unix, Platform и Software встречаются одновременно". Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой под ход заключается в вычислении степени близости между запросом и докумен том. Именно этот подход используется в Lycos. В этом случае в соответствии с в екторной моделью представления документов и запросов вычисляется их м ера близости. Сегодня известно около дюжины различных мер близости. Наиб олее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа за просу и выдаются в качестве справочной информации при списке найденных документов. Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кр оме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позв оляющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользов атель надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. М ожно также задавать поле ранжирования выдачи и критерий близости докум ентов запросу. Интерфейс системы Важным фактором является вид представления информ ации в программе-интерфейсе. Различают два типа интерфейсных страниц: ст раницы запросов и страницы результатов поиска. При составлении запроса к системе используют либо меню - ориентированны й подход, либо командную строку. Первый позволяет ввести список терминов , обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На приведенной на рис . 1 схеме имеется сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новы х терминов и логических операторов. Но это только один способ использова ния сохраненных запросов, называемый расширением или уточнением запро са. Для выполнения этой операции традиционная ИПС хранит не запрос как т аковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документо в по новым терминам. К сожалению, сохранение списка идентификаторов найд енных документов в WWW не практикуется, что было вызвано особенностью прот околов взаимодействия программы-клиента и сервера, не поддерживающих с еансовый режим работы. Итак, результат поиска в базе данных ИПС - это список указателей на удовле творяющие запросу документы. Различные системы представляют этот спис ок по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заг оловков, либо из тела самого документа. Кроме этого, система сообщает, на с колько найденный документ соответствует запросу. В Yahoo, например, это коли чество терминов запроса, содержащихся в ПОД, в соответствии с которым ра нжируется результат поиска. Система Lycos выдает меру соответствия докумен та запросу, по которой производится ранжирование. При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры ко ррекции запросов по релевантности [7]. Релевантность - это мера соответств ия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на осно вании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле [6], где пользователь может отметить документ как р елевантный. При следующей поисковой итерации запрос расширяется терми нами этого документа, а результат снова ранжируется. Так происходит до т ех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем по лученная выборка, от данной системы не добьешься. Кроме ссылок на документы в списке, полученном пользователем, могут оказ аться ссылки на части документов или на их поля. Это происходит при налич ии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, н о обычно такие ссылки роботы пропускают, и система их не индексирует. Есл и с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более с ложные объекты. Дело в том, что WAIS реализует архитектуру распределенной и нформационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом се рверы WAIS имеют свои собственные локальные базы данных. При загрузке докум ентов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с пр отоколом WAIS, чтобы получить доступ к этим документам. Заключение В обзорной ст атье были рассмотрены основные элементы информационно-поисковых систе м и принципы их построения. Сегодня ИПС являются наиболее мощным механиз мом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за искл ючением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", котор ая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких пр оектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в Росси и, можно надеяться, что у нас еще все впереди.
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
Как можно доехать домой за пиццу:
Можно зайти в пиццерию, заказать там себе доставку пиццы и бесплатно уехать с доставщиком к себе домой, ведь вам по пути...
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Обратите внимание, реферат по информатике и информационным технологиям "Информационно-поисковая система", также как и все другие рефераты, курсовые, дипломные и другие работы вы можете скачать бесплатно.

Смотрите также:


Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru