Курсовая: Автоматизированные информационно – поисковые системы - текст курсовой. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Курсовая

Автоматизированные информационно – поисковые системы

Банк рефератов / Информатика, информационные технологии

Рубрики  Рубрики реферат банка

закрыть
Категория: Курсовая работа
Язык курсовой: Русский
Дата добавления:   
 
Скачать
Архив Zip, 95 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникальной курсовой работы

Узнайте стоимость написания уникальной работы

26 Министерство образования Российс кой Федерации. Кирово – Чепецкий Колледж «Экономики и права» Кафедра «Государственное и муниципальное Управление». Курсовая . На тему «Автоматизированные информационно – поисковые системы». Выполнил студент группы УД - 3………………………Козлов Д .А. Проверил………………………………………Ефимова Е.В . Кирово – Чепецк. 2004г. СОДЕРЖАНИЕ Введение …………………………………………………………………… 3 1. Информационные системы…………………………………… .4 Понятие инф ормационных систем……………………………………… 4 Структура информационных систем…………………………………… 4 Кл ассификация информационных систем…………… ……………… ..6 2. Информационно поисковые системы…… …………………… 7 Исторические предпосылки развития поисковых систем…………… 7 Понятие поисковых систем…………………………………………… .....9 Особенности поисковых систем………………………………………… 10 · структу ра сети……………………………………… ………… ....11 · структура работы пои сковых систем……………………… .....13 3. Характеристика поисковых систем…… ……………………… 17 4. проблемы и возможнос ти поисковых систем………………… 24 Заключение…………… …………………………………………………… .25 Список литературы……………………………………… ……………… ...26 ВВЕДЕНИЕ. Современ ный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационном у . Одним из наиболее ярких явлений этого процесса является возникновение и разв ития глобальной информационной компьютерной сети. В данной курсовой работе рассматривают ся теоретические основы информационного поиска , классификация и разновидности информационно по исковых систем . Представлен материал по приме няемым в настоящее вр емя информационно – поисковым каталогом полнотекстовыми и г ипертекстовым поисковым системам . При п оявлении сети Интернет проблема поиска станов илась более актуальной . Интернет – всемирная компьютерная сеть , представляющая собой един ую информационную сред у и позволяющая получить информацию в любое время . Но с другой стороны в Интернете храниться оче нь много полезной информации , но для поиск а её требуется затрачивать много времени . Эта проблема послужила поводом к появлению поисковых машин . В данной курсов о й работе будут рассмотрены поисковые машины в Интернете. ИНФОРМАЦИОННЫЕ СИСТЕМЫ Понятие информационных систем Под Информационная системой понимается организованная совокупность программно – технических и других вспомогательных средств , технол огиче ских процессов и функционально – определенны х групп работников , обеспечивающих сбор , предс тавление и накопление информационных ресурсов в определённой предметной области , поиск и выдачу сведений необходимых для удовлетворен ия информационных потребнос т ей пользо вателей . Информационных системы являются основным средством , инструментарием решения задач инф ормационного обеспечения различных видов деятель ности и наиболее бурно развивающейся отраслью индустрии информационных технологий. Структура информацион ной системы В сос таве информационной системы можно выделить тр и подсистемы : 1.Организационно – технологическая подсисте ма сбора информации обеспечивает информационную систему и включает совокупность источников информации , организационно – технологической ц епочки отбора информации для накоплен ия в системе . Без правильного организованной подсистемы сбора информации невозможна эффек тивная организация функционирования все информац ионной системы в целом. 2. Подсистема предоставления и обработки информации состав ляет ядро информационной системы и является отражением представления разработчиками и абонентами системы структуры и картины предметной области , сведения о которой должна отражать информационная систе ма . Подсистема представления и обработки инфо рмации явл я ется одним из наиболее сложных компонентов при разработке информаци онной системы. 3. Нормативно – функциональная подсистема выдачи информации определяет пользователей , или иначе абонентов системы , реализует целевой аспект назначения и выполнения задач инфо рмационной системы. Основой всех поисковых систем составляют базы да нных – совокупность данных организованных по предельным правилам , предусматривающим общие принципы описания , хранения и манипулирования данными , независимо от прикладных программ . Можно выделить следующие элементы ф ункционирования информационных систем : *Сбор информации – организованный в специальном порядке процесс сбора и отображения информ ации : получение информации оценка относимости информации порядок отбора и фиксации информации. *Компле ктование – процесс сложения информации из множества частей в единое целое и дове дения её до пользователя. *Поиск и выдача информации – устан овление специального технологического порядка уд овлетворения информационных потребностей абонентов информацио нной системы в управленческой деятельности и технологических процессах. *Поддержание целостности и сохранения и нформации – пересмотр , ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений . Сохра нность информации осуществляется с помощью нормативно – инструктивных документов. Классификация информационных систем По хар актеру предоставления логической организации хра нимой информации разделяются на фактографические , документальные и геоинформаци онные. Фактог рафические накапливают и хранят данные в виде множества экземпляров одного или несколь ких типов структурных элементов . Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения , по какому – либо факту , событию . Структура каждого типа информационного объекта состоит из конечного набора реквизитов , отр ажающих основные аспекты и характеристики све дений для объектов данной предметной области. В документальных единичным элементом информации яв ляется нерасчл ененный на более мелкие элементы документ и информация при вводе , как правило , не структурируются , или структ урируются в ограниченном виде . Для вводимого документа могут устанавливаться некоторые фо рмализованные позиции – дата изготовления , и сполнитель , т е матика . Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию. В геоинформационных данные организованы в виде отдельных информационных объектов п ривязанных к общей электронной топографич еской основе . Геоинформационные системы применяют ся для информационного обеспечения в тех предметных областях , структура информационных объ ектов и процессов в которых имеется геогр афический компонент. Другим критер ием классификации поис ковых систем являются функции или решаемые задачи. Справочные являются наиболее распространенн ым типом функций информационных систем , и заключается в предоставлении абонентам системы возможностей получения установочных данных на опре делённые классы объектов. Поисковые являются наиболее распространённы м классом информационных систем . В общем , виде можно рассматривать как некое информацио нное пространство , задаваемое в терминах инфо рмационно – логического описания предметной области. Расчетные заключается в обработке инфор мации , находящейся в системе , по определённым расчётным алгоритмам для различных целей. Технологические функции информационных сист ем заключаются в автоматизации всего технолог ического цикла или отдельных его компо нентов , производственной или организационной структуры . ИНФОРМАЦИОН НЫЕ ПОИСКОВЫЕ СИСТЕМЫ Историчес кие предпосылки развития поисковых систем. Обратимс я к истории возникновения сети Internet , которая была создана в связи с возникшей необходимост ью совмес тного использования информационных ресурсов , распределенных между различными ко мпьютерными системами . Большинство первых приложе ний , включая FTP и электронную почту , были разработаны исключительно для обмена данными между хос т-компьютерами Internet . Други е приложения , такие как Telnet , создавались для того , чтобы пользователь получил возмож ность доступа не только к информации , но и к рабочим ресурсам удаленной системы . По мере развития Internet (увеличения пользователей и х ост-компьютеров ) прежние методы о бмена дан ными перестали отвечать возросшим потребностям пользователей . Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним , которые позволяли бы исп ользовать информацию независимо от ее формата и расположения . Для удов летворения таких потребностей сначала были созданы поисковая система Archie , решающая задачу локализации ресурсов на FTP -сервере , и си стема Gopher , упрощающая доступ к различным сетевым ресурс ам . Затем были разработаны сетевые информацио нные системы WWW и WAIS , предлагающие абсолютно новые методы по лучения информации . Принципы работы этих сист ем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необх одимости предоставления механизмов работы самой сети Internet . Такой подход п озволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем , а об особых информацио нных пространствах сети. Система Archie представляет собой к омплекс программных средств , работающих со сп ециальными базами данных . В этих базах дан ных сод ержится постоянно пополняющаяся ин формация о файлах , к которым можно получит ь доступ через сервис FTP . Пользуясь услугами сис темы Archie , можно осуществить поиск файла по шаблону его имени . При этом пользователь получит с писок файлов с точным указанием мес та их хранения в сети , а также с инф ормацией о типе , времени создания и размер е файлов . Доступ к информационно-поисковой сис теме Archie м ожет осуществляться различными путями , начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie -клиентов. Система Gopher была разработана для упрощения пр оцесса локализации FTP -ресурсов Internet и для более удобного предст авления сведений о содержании хранящихся на FTP -серверах файлов . Система Gopher дает возможност ь в удобной форме (в виде меню ) представлять пользова телям об имеющихся файлах и их содержании . Меню Gopher -серверов могут содержать ссылки на др угие Gopher - и FTP -серверы . Таким образом , пользователь получает возможн ость “путешествовать” по Internet , не о бращая вн имания на местонахождение интересующих его ре сурсов , и получать доступ к этим ресурсам. Система Veronica используется для поиска информации в Gopher -про странстве по заголовкам пунктов меню . После ввода ключевого слова , система Veronica выясняет , в стречается ли оно в меню на каком- либо Gopher -сер вере , и в качестве результатов поиска выда ет список заголовков пунктов меню , содержащих ключевое слово . Поскольку система Veronica не является автономной поисковой программой , а тесно связана с системой Goph er , она обладает тем же , что и система Gopher , недостатком : далеко не всегда по заголовку можно сказать , что собой п редставляет тот или иной информационный ресур с . Достоинства системы заключается в том , что нет необходимости узнавать , где расположе на найде нная информация , достаточно выбра ть требуемую запись из списка. Понятие информационных поисковых систем. Автомати зированная поисковая система – система , сост оящая из персонала и комплекса средств ав томатизации его деятельности , реализующая информа ционную технологию выполнения установленных функций. Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение , которое полнее отражает все аспекты их су щности. Под информационной системой в дальней шем понимается – организованная совокупн ость программно – технических и других в спомогательных средств , технологических процессов и функционально – определённых групп рабо тников , обеспечивающих сбор , представление и н акопление информационных ресурсов в оп р еделённой предметной области , поиск и выдачу сведений , необходимых для удовлетворения информационных потребностей установленного континг ента пользователей – абонентов системы. Особенности поисковых систем. В работе пои сковый процесс представлен четырьмя стадиям и : формулировка (происходит до начала поиска ); действие (начинающийся поиск ); обзор результатов (результат , который пользователь видит после поиска ); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же п отребности ). Более удобная нелинейная схема по иска информации состоит из следующих этапов : 1. Фиксация информационной потребности на естественном языке ; 2. Выбор поисковых серв исов сети и формализация записи информационно й потребности на конкрет ных информационно -поисковых языках (ИПЯ ); 3. Выполнение созданных запросов ; 4. Предварительная обработк а полученных списков ссылок на документы ; 5. Обращение по выбранн ым адресам за искомыми документами ; 6. Предварительный просмотр содержимого найденны х документов ; 7.Сохран ение релевантных документов для последующего изучения ; 8. Извлечение из релевантных документов с сылок для расширения запроса ; 9. Изучение всего массива сохраненных док ументов ; 10. Если информационная потребность не по лностью удовл етворена , то возврат к пе рвому этапу. Процесс поиска имеет чрезвычайно глубокий дидактический аспек т – так , установлено что применение диало говых информационных систем приводит к формир ованию у рядовых пользователей такого стиля информационно-поисковой дея тельности , который обычно свойственен наиболее выдающимся учены м . В большинстве случаев информационная потр ебность возникает после изучения какой-либо н овой информации , полученной пользователем . Часто возникает ситуация , когда пользователь уже обладает не которым массивом документов по искомой тематике . Предлагается использовать эти документы для автоматизированного составлени я поискового запроса с помощью специализирова нной системы управления документами (СУД ) [6] (сис тема находится в стадии разработки ). Система должна осуществлять индексацию вс ех документов пользователя . В процессе индекс ации все слова , содержащиеся в документах , разбиваются по следующим семантическим классам : стоп-слова ; наиболее частотные слова бытового (разговорного ) языка ; общекульту р ная терминология ; общенаучная терминология ; известные системе термины предметной области ; неизвестные слова . Разбиение осуществляется на основе с оответствующих словарей , которые должны быть составной частью системы . К неизвестным слова м будут отнесены в п е рвую оче редь многие специальные слова предметной обла сти . Туда же попадут новообразованные термины и слова , содержащие ошибки . На основе индекса осуществляется построен ие векторного представления документов , после чего СУД производит иерархическую кластер изацию множества документов , в результате чего получается разбиение этого множества на тематические группы . В ходе диалога с пользователем происходит выбор одного или нескольких наиболее релевантных кластеров до кументов и задание характеристик поискового п роцесса . Поиско вый запрос следует строить на основе вект ора центроида выбранного кластера . Оптимальный размер запроса составляет от 8-12 до 25-30 термино в [7]. Последняя подготовительная операция , осуществл яемая СУД заключается в записи запроса на ИПЯ . С труктура сети. Как известно , наиболее простой способ расширения информационного поиска в сети Интернет при менен в метапоисковых системах и заключается в увеличении количества используемых первичн ых ИПС . Этот механизм должен быть реализов ан в любой разрабат ываемой системе . За дача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно , на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска . Второй блок автоматизированной поисково й системы отправляет созданный запрос и осуществляет сортировку и отбор полученн ых ссылок , после чего обращается по выбран ным адресам и получает из сети некоторое множество документов , также содержащих гипер ссылки . В исследовании [8] показано , что распрос траненное мнение о хаотичности информацио нного наполнения глобальной сети и об отс утствии какой-либо структуры связей является заблуждением . Выявлено наличие так называемых “сообществ” – хорошо связанных групп сайтов , содержащих материалы близкой тематики. Выделяются “центральные” страницы – содержащие большие списки ссылок и страницы , на которые ведут многие ссылки , – “авторитетные ” страницы . Таким образом , целью 8-го этапа поиска является обнаружение таких групп и выявление среди их членов наиболее “авт о р итетных” . Как показано в [9], алгор итм решения этой задачи достаточно прост . Обработка результатов поиска . После получения в результате поиска в сети некоторого множества документов , среди них необходимо выделить наиболее релевантные . Наличие “сообществ” не облегчает эту задачу . Можно выделить следующие несколько классов наиболее частых ситуаций . 1. Отсутствие в исследуемом сегменте сети искомой информации . Подобная ситуация описана в [10]. В этом случае следует перейти к другому сегменту , т . е . обычно и сследовать ресурсы , созданные на других языках . 2. Найденные “сообщества” содержат информацию не по требуемой тема тике , а главным образом по другим , близким к искомой . 3. Обнаружено слишком б ольшое количество информационных ресурсов. В последних двух слу чаях необходимо осуществить автом атический перебор всех найденных документов и определить степень близости их к исходно му запросу . Более 20 метрических мер близости , пригодных для сравнения документов в векто рном представлении , рассмотрены в работе [11]. О птимальное решение задачи ранжирован ия достигается путем применения системы , осно ванной на агентно-ориентированном подходе . Во многих случаях поиска в новой области , когда общий уровень пользователя нед остаточно высок , желательно осуществлять фильтрац ию в ыдаваемой информации по стилю тек ста так , чтобы начальное ознакомление с ма териалом происходило с использованием популярных и научно-популярных текстов . Для уменьшения объема рассматриваемых мат ериалов следует также осуществить фильтрацию результатов поис ка по типу источников . Так очевидно , что документы , расположенные на научных сайтах , на коммерческих , или на серверах СМИ будут существенно различаться по своему характеру . Структура работы поисковых систем. Работа поис кового указателя происходит в три этапа , из кото рых два первых являются подготов ительными и незаметны для пользователя . Снача ла поисковый указатель собирает инфор мацию и з World Wide Web . Для этого используют специальные п рограммы , аналогичные браузеры . Они способны с копи ровать заданную Web -страницу на сервер поискового указателя , просмотреть ее , найти все гипе тэссылки , которые на ней имеютте ресурсы , которые найдены там , снова разыскать имеющиес я в них гиперссылки и т . д . Подобные программы называют червяками , пауками , гусеницами , краул ерами , спайдерами и другими подобными именам и .' Каждый поисковый указатель эксплуатирует д ля этой цели свою уникальную программу , ко торую нередко сам и разрабатывает . Многие современные поисковые системы родились из экс периментальных проектов , связанных с разрабо ткой и внедрением автоматических про грамм , за нимающихся мониторингом Сети . Теоретически , при удачном входе спайдер способен прочесать все Web -простран ство за одно погружение , но на это надо оче нь много времени , а ему еще необходимо периодически во звращаться к ранее посе щенным ресурсам , чтобы контролировать происходящи е там изменения и выявлять «мертвые» ссыл ки , т . е . потерявшие актуальность. Посл е копирования разысканных Web -ресурсов на сервер п оис ковой системы начинается второй этап рабо ты — инд ексация . В ходе индексации создаются специальные базы данных , с помощь ю которых можно установить , где и когда в Интернете встречалось , то или иное сл ово . Считайте , что индексированная база данных — это своего рода словарь . Она необх одима для того , чтобы п о исковая система могла очень быстро отвечать на запросы пользователей . Современные системы способ ны выда вать ответы за доли секунды , но если не подготовить индексы заранее , то обработка одного запроса будет продолжаться часами. На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок . Допустим , клие нт хочет узнать , где в Интернете имеются Web -страни цы , на которых упоминается известный голландс кий механик , оптик и математик Христиан Гю йгенс . Он вводит сл ово Гюйгенс в п оле набора ключевых слов и нажимает кнопк у . Найти ( Search ). По своим базам указателей поисковая система в доли секунды разыскивает подходя щие Web -рес урсы и фор мирует страницу результатов поиска , на которой рекомендации представлены в в иде г иперссылок . Далее клиент может по льзоваться этими ссылками для перехода к интересующим его ресурсам. Все это выглядит достаточно просто , но на самом деле здесь есть проблемы . Основная проблема современного Интернета связана с изобилием Web -страниц . Достато чно ввести в поле поиска такое простое слово , как , например , футбол , и российская поис ковая система в ыдаст несколько тысяч ссылок , сгруппировав их по 10-20 штук на отображаемой странице. Неско лько тысяч — это еще не так много , потому что зарубеж ная поиск овая систе ма в аналогичной ситуации выдала бы сотни тысяч ссылок . Попробуйте найти среди них нужную ! Впрочем , для рядового потребителя совершенно все равно , выдадут ему тысячу результатов поиска или миллион . Как правило , кли енты просматривают не более 50 ссылок , стоящих первыми , и что там делаетс я дальше , мало кого беспокоит . Однако клие н тов очень и очень беспокоит качество самых первых с сылок . Клиенты не любят , когда в первом десятке встречаются ссылки , утратившие актуальн ость , их раздражает , когда подря д идут ссылки на соседние файлы одного и то го же сервера . Самый же плохой вариант — когда подряд идут несколько ссылок , веду щих к одному и тому же ресурсу , н о находящемуся на разных серверах. Клиент вправе ожидать , что самыми первыми будут стоять наи боле е полезные ссылки . Вот здесь и возникает проблема . Чело век легко отличает полезный ресурс от бесполезного , но как объяснить э то программе ?! Поэтому лучшие поисковые сис тем ы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссы л ки по качественности их ресур сов . И делать это они должны быстро — клиент не любит ждать. Строг о говоря , все поисковые системы черпают ис ходную информацию из одного и того же Web -пространс тва , поэтому исходные базы данных у них могут быть относительно пох ожи . И л ишь на третьем этапе , при выдаче результат ов поиска , каж дая поисковая система начинает проявлять свои лучшие (или худшие ) индиви дуальные черты . Операция сортировки полу ченных результатов называется ранжиров анием . Каждой най денной Web -странице си стема присваивает какой-то рейтинг , которы й должен отражать качество материала . Но к ачество — понятие субъективное , а программе нужны объективные кри терии , которые можн о выразить числами , пригодными для сравнения. Высо кие рейтинги получают Web -страницы , у которых клю ч евое слово , использованное в , запросе , входит в заголовок . Уровень рейтинга повышается , ес ли это слово встречается на Web -странице неско лько раз , но не слишком часто . Благопри ятн о влияет на рейтинг вхождение нужного сло ва в первые 5-6 абзаце в текста — он и считаются самыми важными при индек сации . По этой причине опытные Web -мастера избегают давать в начале своих страниц таблицы . Для п оисковой системы каж дая ячейка таблицы выгля дит , как абзац , и потому содержательный ос новной текст как бы дал еко отодвигает ся назад (хотя на экране это и не заметно ) и перестает играть решающую роль для поисковой системы. Очень хорошо , если ключевые слова , использованные в запросе , входят в альтернативный текст , сопровождающий иллюстра ции . Для поисковой системы это верный при знак того , что дан ная страница точно соот ветствует запросу . Еще одним призна ком качест ва Web -стра ницы является тот факт , что на нее ест ь ссылки с каких-то других Web -страниц . Чем их больше , тем лучше . Значит , эта Web -страница попул ярна и об ладает высо ким показателем цитирования . Сам ые совершенные поиско вые системы следят за уровнем цитирования зарегистрирован ных ими Web -страниц и учитывают его при ранжировании. Создатели Web -страниц всегда заинтерес ованы в том , чтобы их просматривало боль ше людей , поэтому они специально гото вят страницы так , чтобы поисковые системы давали им высо кий рейтинг . Хорошая , грамотная работа Web -мастера способ на значительно поднять пос ещаемость Web -страницы , однако есть и такие «мастер а» , которые пытаются обман уть поиско вые системы и придать своим Web -страницам значимость , кот о рой в них на самом деле нет . Они многократно повторяют на Web -странице какие-то слова или группы слов , а для того чтобы те не попадались на глаза читателю , либ о делают их исключи тельно мелким шрифто м , либо применяют цвет текста , сов падающий с цветом фона . За такие «хитрости» поис ковая сис тема может и наказать Web -страницу , прис воив ей штрафной отрицательный рейтинг. В п оследние годы сложилась и практика коммерческ ого рейтингования . Тех нически они оснащен ы самыми современными средствами , соответствующим и уровню 2000 года , а общий размер Рунета (российского сектора Интер нета ) сегодня примерно таков , каким был западный сектор в 1994-1995 гг . Поэтому сегодня в России особых про блем с поис ком информации нет и в ближайшее время они не предвидятся . А в западном секторе проблемы с поиском очень большие , и разные поисковые системы пытаются по-разному их преодо леть . О том , к ак это происходит , мы и расскажем. Из поисковых указателей в России сег одня действуют три «кита» (есть и более ме лкие системы , но мы останавливаться на них не будем ). Это «Рамблер» ( www . rambler . ru ), «Яндекс» ( www . yandex . ru ) и «Апорт 2000» ( www . aport . ru ). Исторически наиболее популярной поисковой системой явля ется «Рамблер» . Она начала работать раньше других и долгое время лидировала по размеру поиско вого указателя и качеству услуг поиска . Увы , сегодня эти достижения в прошлом . Несмо тря на то , что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web -страниц , он давно толком не обнов лялся и выдает ус таревшие результаты . Сегодня «Рамбл ер» -эт о популярный портал , лучшая в России класс ификационно-рейтинговая система (о том , что это такое , мы расскажем ниже ) плюс рекламная площадка . Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы . Но в развитие средств поиска средства , как мы покажем ниже , не вкладываются. Самы й большой указатель лежит в основе систем ы «Яндекс» -примерно 27 миллионов Web -страниц , но дело не только в раз мере . Это не пр осто указатель на ресурсы , а указатель на самые акту альные ресурсы . По уровню актуальности «Яндекс» сего дня — безусловны й лидер (рис . 7.3). Систе ма «Апорт» выигрывает на третьем этапе :в момент представления информации клиенту . Она не стремится к созда нию самого большого указателя автоматическими средствам и , а вместо этого широко использует информацию из каталога @ Rus , проходящую ручную обработку . Поэтому система выдает не так много результатов , как ее ближайшие конкуренты , но зато эти результаты , как правило , точны и нагля дно представ лены. Характер истика поисковых систем. Начиная поиск чего-либо в Internet и имея минимум инфо рмации , а так же пытаясь огранить потери времени , для получения наиболее общей инф ормации возможно обращение к следующей базе данных. База данных : предмет ведет к Межсете вым ресурса м , построенным библиотекарями. Содержание : Свыше 2,500 связей с Internet ресурсами , кратко аннотируемыми , с указанными предметны ми заголовками. Поиск : Поиски могут быть ограничены названием ресурса , описанием его , или с ук азанными предметными заголовка ми. Результаты : Результаты показаны в алфави тном порядке названиями ресурса. Адрес : http://sunsite.berkeley.edu/InternetInd ex/ Частота Модернизации : ежедневно Yahoo! Yahoo! – самая известная поисковая машина . Её сайты разбиты по категориям и ключевым сл овам . Она содержит полезную информацию на своей домашней странице . Может подключаться к другим поисковым машинам Базы данных : в ведении находится слу жба поиска Internet-ресурсов , ново стей , карт , рекламных информаций , спортивная информация , бизне с , номера телефонов , персональные WWW-страницы , и email-адреса (отдельная база данных ). Содержание : Основная директория содержит : адреса (URLs) для Internet-ресурсов и краткое описание для эти х связей. Поиск : Все Yahoo страницы предлагают не т олько простое поисковое окно , но и опции для этого поиска , а так же поиск Usenet или Email-адреса . Поиск может ограничиваться ука занием определённого промежутка времени . Boolean операт оры (и , или ) и после довательный поиск также поддержаны . Отметим : если поиск в Yahoo! не привёл к положительному результату , то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск , и в случае п оложительных результатов автоматически возвращает найден н ую информацию в Yahoo!. Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набо ром инструментов поиска . После того как од на из этих связей выбирается , ключевые сло ва передаютс я к поисковой машине на ваше усмотрение. Средством , облегчающим поиск , является на личие “ tip search” (TS) - поиск с помощью “намека” : Yahoo! Является подчиненным справочником , что означа ет , что система не имеет так много стр аниц , как поисковые машины , одна ко зад ание наиболее общих ключевых слов позволит найти необходимую тему на странице высоког о уровня (первая страница , которая возникает перед пользователем при посещении сайта ) дл я организации или компании. Результаты : Связи отображаются в соответ ствии с очерёдностью задаваемых слов по следовательностью поиска наряду с их описател ьным текстом и подчиненной иерархией. Адрес : http://www.yahoo.com/ Частота Модернизации : ежедневно Alta Vista Alta Vista подде рживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта . По льзователи могут настроить опции поиска и выбирать тип поиска – сложный или упр ощенный , а также воспользовать ся различны ми способами предоставления информации . В отл ичие от машин , которые индексируют только ключевые слова , она индексирует весь текст , что позволяет осуществлять полный поиск . Од нако из - за этого пользователь может прос то утонуть в информации. Баз ы данных : Расположенные по вс ему миру WWW-страницы и Usenet News (новости ). Содержание : 31 миллион WWW-страниц (на май 1997 г .) и полный текст более чем 14,000 newsgroups обновле нный в реальном масштабе времени . Поиск : Предлагает простой (simple (S)) пои ск или (much more advanced (MMS)),т.е . более передовой , способ . S - пои ск стоит в основном использовать для общи х вопросов , MMS - поиск использует специфический п оисковый синтаксис . Для облегчения выполнения процедуры имеется подсказка (Simple Search Help). MMS - поиск , используя булинь (boolean), т.е . с помощью ключевых союзов , используя (and, or, not - (и , или , не )) и прост ую смежность (near - (около )) позволяет употреблять н есколько слов , чередование слов , словосочетание в качестве ключевых для проведения поиска. TS - поиск : Введением ключа типа : " Ваша Фраза " как первое направление поиска , который будет ограничивать число найденных WWW - докумен тов с заголовками типа " Ваша Фраза ". Результаты : Предлагает три выбора результ атов (но два дают тот же самый р езультат ): 1) "Стандартные "("Standard") - результаты , полученные ма шиной в виде списка параграфов , резюмируемые ей , с наличием URL - адреса , размером файла и последней датой модернизации . Результаты возвращаются как десять пунктов на экране, 2) "Компак тный "("Compact") помещают каждый пу нкт в одной строке с последней датой модернизации картотеки , 3) "Детальный "("Detailed"), который является таким же самым , как и "Стандартный ". Адрес : http://altavista.digital.com Частота модернизации : Постоянно WWW-ро б отом. Excite Для ан ализа информации Excite использует поисковую технологи ю Intelligent Concept Extraction , что позволя ет делать запросы по образцу . Это самая популярная поисковая система в Америке . Для каждой найденной страницы она оценивае т степень соответствия запросу. Базы данных : WWW-страницы по всему миру , новости , карты , "yellow pages" ("желтые страницы "), свободно распространяемое программное обеспечение , основн ые цитаты , программ ы телевидения , погоду , E - mail адреса , рейсы авиалиний. Содержание : 50 миллионов WWW-страниц и больше чем двухнедельный запас Usenet новостей. Поиск : Предлагает только S - поиск , который поддерживает некоторые опции MMS - поиска. TS - поиск : используйт е плюс (+) чтобы определить , что все документы имеют данное слово , или используют минус (-) что бы у точнить , что ни один из документов не имеет данного слова . Возможно так же подд ержка в oolean-операторами. Вы можете использовать "AND", "OR" and "AND NOT"( И , ИЛИ и . И НЕ ) операторы и круглые скобки для группировки . Например : (digital or virtual or electronic) AND library. (цифровой или виртуальный или электронный ) И библиотека . Результаты : Результаты показаны с названи ем документа , разряд уместности в проц ентах , URL - адрес , резюме программного обеспечением документа , и опция , чтобы восстановить "More Like This"(" Скорее Этот "), которая позволяет использовать документ как ваш вопрос. Адрес : http://www.excite.com/ Частота Модернизации : Постоянно - WWW-р об отом. Hot Bot Для по иска в Интернете использует многопроцессорную параллельную обработку 10. млн . страниц ежедневно . Полезная сторона Hot Bot ограничение на тип ст раниц по средствам вы бора кнопок. База данных : Расположенные по всему миру WWW-страницы. Содержани е : 54 миллиона WWW-страниц (на сентябрь 1996 г .). Поиск : Предлагает S - поиск и Эксперт (Expert (Е ))- поиск , поддерживает boolean-операторы (И и ИЛИ ), поиск фразы , и выбор " чело век " или " URL ". Е-поиск также поддерживает задание даты , местоположение (страна и т.д .) TS - поиск : использует заключение фразы в двойные кавычки (например , " слова фразы "). Результаты : Результаты показаны с назван ием документа , разряд уместности в п ро центе , URL, размер документа. Адрес : http://www.hotbot.com/ Частота модернизации : Постоянно WWW-роботом ("Slurp"). Infoseek Infoseek самая популярная поисковая машина в компьютерной индустрии . В мае 1996 она была признана к ак самая достоверно предоставляющая информацию машина . Привлекательность машины в том , что после отсеивания информации можно проверить найденную инф ормацию ещё раз. Базы данных : расположенные по всему миру WWW-страницы , новости , запасает цитаты , карты , желтые страницы ("yellow pages"), e mail адреса , и т.д . Содержание : Главный база данных : 50 миллион ов URL-адресов . (на сентябрь 1996 г .) Поиск : пред лагает только простой S - поиск , но ключевые слова поиска могут бы ть ограничены специфическими полями (типа в пределах заголовков документа ), поиск с испо льзованием возможностей либо с исключением оп ределённого слова (данному слову предшествует минус "-") и ли с включением требуемого слова (данному слову предшествует " + "). Для д ополнительной информации относительно выбора пои ска , используется . Infoseek-Помощь (Infoseek Help). Результаты : Включает название документа , размер картотеки , URL, краткое резюме , из влече нное из документа , и разряд уместности в процентах. Адрес : http://www.infoseek.com/ Частота Модернизации : Постоянно WWW-роботом. Дополнительная информация : в случае боль шого количества информации см . http://info.infoseek.com/. Lycos Lycos – одна из первых поисковых машин . Машина уд обна для работы с поиском и для однов ременного просмотра сайтов . При выводе информ ации показывает краткий обзор , и найденные адреса. Базы данных : расп оложенные по вс ему миру WWW-страницы , звуки , картины , "top 5% sites" Содержание : 70 миллионов URL-адресов (на март 1997г .). Поиск : предлагает S - поиск и клиентурный (Custom (С )) поиск . С-поиск поддерживает boolean-операторы AND и OR (И и ИЛИ ), также как некоторые другие назначения. Результаты : результаты внесены в упорядо ченный список ; информация включает адрес доку мента (URL), название , размер файла , и выдержки из файла. Адрес : http://www.lycos.com/ Частота модернизации : постоянно WWW-роботом. ПРОБЛЕМЫ И ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ. Работа многих поисковых машин считается вполне ус пешной . Однако все современные поисковые сист емы страдают некоторыми серьёзными недостатками : 1. поиск по к лючевым словам даёт слишком много ссылок и многие из них бесполезны. 2. огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной пе регрузки. 3. методы индексирования баз данных , как правило , не связаны с информационным содержанием. 4. часто выдаются ссылки на информацию , которой в Интернете уже давно нет. 5. машины ещё не с толь совершены , чтобы понимать естественный я зык в посл еднее время потребности в интеллектуальной по мощи быстро растут . Это привело к появлени ю интеллектуальных агентов. Обычно интеллектуал ьные агенты явля ются основной частью поисковой машины для поиска используется искусственный интеллект . По льзователь учит агента , а затем он выходит в Интернет для поиска. Интеллектуальные агенты выполняют инструкции от имени пользователя , имеют некоторую с амостоятельность . После поиска они оповещ ают пользователя о результатах . Агенты учатся в результате своей деятельности. Интеллектуальность – обучение на основ е обратной связи по примерам ошибкам и по средствам взаимодействия с другими аген тами. Простота использования – можно тр енировать агента используя естественный язык . Индивиду альный подход – адаптация к предпочтениям пользователей. Интегриро ванность – непрерывное обучение применение у же имеющих знаний к новым ситуациям. Автономность – ощущение окру жающей среды , и анализ выводов. ЗАКЛЮЧЕНИЕ. Рассмотренн ые мною поисковые машины далеки от соверш енства . Считается , что идеальная поисковая маш ина должна отвечать следующим требованиям : 1. простота в использовании 2. чётко организованный и обновляемый инде кс. 3. быстрый поиск в б азе данных и быстрое реагирование. 4. надёжность и точность результатов поиска. Масштабы информационных ресурсов и их количество пост оянно расширяется . Становится ясно , что база данных не является совершенной . Интеллектуальны е аген ты – новое направление лежащее в основе нового поколения поисковых маши н , которые могут фильтровать информацию и получать более точный результат . Internet продолжает развиваться с неослабевающей интенсивностью , по сути дела стирая ограничение на распрост р анение и получение информации в мире . Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду , что в сети наряду с давно действующими серверами возникают новые. Информационные системы , в которых предс тавлены хранение , и обработка информации осуществляются с помощью вычислительной техн ики , называют автоматизированными , различные виды деятельности и наиболее буро развивающиеся отраслью индустрии информационных технологий. Список литературы. 1. Э. А . Якуб айтис «Информатика-электроника-сети» . М ., «Финансы и статистика» , 1989. 2. . А . В . Гаврилов "Локальные сети ЭВМ ", Москва , Изд-во "Мир ", 1990. 3. Н.А . Гайдамакин «Автома тизированные информационные системы , базы и б анки данных» , М .: «Гелиос» , 2002.
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
В детстве меня мама заставляла петь в ванной, пока я мылась, чтобы знать, что я жива и не утонула.
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Обратите внимание, курсовая по информатике и информационным технологиям "Автоматизированные информационно – поисковые системы", также как и все другие рефераты, курсовые, дипломные и другие работы вы можете скачать бесплатно.

Смотрите также:


Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru