Современные тенденции в разработке информационно поисковых систем. Современные поисковые системы, тенденции развития одного из лидеров рынка Яndех - Реферат

Разнообразные технологии и методы, созданные за годы развития теории и практики информационного поиска, находят свое применение в современных ИПС. Наряду с классическими библиотечными ИПС, которые продолжают совершенствоваться, интенсивное развитие происходит в области глобальных ИПС сети Интернет, которая стала главной движущей силой современных технологий информационного поиска. Гигантский объем доступных информационных ресурсов требует применения масштабируемых алгоритмов поиска. Гипертексты позволяют использовать принципиально новые модели поиска, основанные на семантическом анализе коллекций документов. Высокая скорость обновления страниц, их свободное размещение и отсутствие гарантии постоянного доступа приводит к необходимости постоянного переиндексирования актуальных информационных ресурсов.

Наконец, неоднородный состав пользователей, часто не имеющих навыков работы с поисковой системой, заставляет искать эффективные способы формулировки запросов, работающие с минимальной исходной информацией.

6.1. Словарные информационно-поисковые системы

Словарные ИПС на сегодняшний день – самые быстрые и эффективные поисковые системы, получившие наибольшее распространение в сети Интернет. Поиск необходимой информации в словарных ИПС осуществляется по ключевым словам. Результаты поиска формируются в ходе работы того или иного поискового алгоритма со словарем и запросом, составленным пользователем на ИПЯ.

Структура словарной ИПС (рис. 13) состоит из следующих компонентов: средства просмотра документов, интерфейса пользователя, поисковой машины, базы данных поисковых образов и индексирующего агента.

Информационный массив включает в себя информационные ресурсы, потенциально доступные пользователю. Сюда входят текстовые и графические документы, мультимедийная информация и т. д. Для глобальной ИПС – это вся сеть Интернет, где все документы характеризуются уникальным адресом URL (URL – унифицированный указатель информационного ресурса (англ. Uniform Resource Locator).

Интерфейс поисковой системы определяет способ взаимодействия пользователя с ИПС. Сюда входят правила формирования запросов, механизм просмотра результатов поиска и т. д. Интерфейс поисковых систем сети Интернет обычно реализуется в среде веб-браузера. Для работы со звуковой и видео информацией применяется соответствующее программное обеспечение.

Главная функция поисковой машины – реализация принятой модели поиска. Сначала запрос пользователя, подготовленный на ИПЯ, транслируется согласно установленным правилам в формальный запрос. Затем в ходе выполнения поискового алгоритма запрос сравнивается с поисковыми образами документов из базы данных. По результатам сравнения формируется итоговый список найденных документов. Обычно он содержит название, размер, дату создания и краткую аннотацию документа, ссылку на него, а также значение меры подобия документа и запроса.

Рис.13. Структура словарной ИПС.

Список подвергается ранжированию (упорядочению по какому-либо критерию, обычно по значению формальной релевантности).

База данных поисковых образов документов предназначена для хранения описаний индексированных документов. Структура типичной базы данных словарной ИПС подробно описана в части 1 методических указаний.

Индексирующий агент выполняет индексацию доступных документов с целью составления их поисковых образов. В локальных системах эта операция обычно осуществляется один раз: после окончания формирования массива документов вся информация индексируется и поисковые образы вносятся в базу данных. В динамическом децентрализованном информационном массиве сети Интернет применяется другой подход. Специальная программа-робот, которую называют паук (spider) или ползун (crawler), непрерывно обходит сеть. Переходы между различными документами осуществляются с помощью содержащихся в них гиперссылок. Скорость обновления сведений в базе данных поисковой системы напрямую связана со скоростью сканирования сети. Например, мощный индексирующий робот может обойти всю сеть Интернет за несколько недель. При каждом новом цикле обхода база данных обновляется и старые недействительные адреса удаляются.

Часть документов для поисковых машин закрыта. Это информация, доступ к которой авторизован или осуществляется не по ссылке, а по запросу из формы. В настоящее время разрабатываются интеллектуальные методы сканирования скрытой части Интернет, но широкого распространения они пока не получили.

Для индексирования гипертекстовых документов программы-агенты используют источники: гипертекстовые ссылки (href), заголовки (title), заглавия (H1, H2 и т. д.), аннотации, списки ключевых слов (keywords), подписи к изображениям. Для индексирования нетекстовой информации (например, файлов, передаваемых по протоколу ftp) используются URL .

Также используются возможности полуавтоматической или ручной индексации.

В первом случае администраторы оставляют сообщения о своих документах, которые индексирующий агент обрабатывает спустя некоторое время, во втором, администраторы самостоятельно вносят в базу данных ИПС необходимую информацию.

Все большее число ИПС производят полнотекстовую индексацию. В этом случае для составления поискового образа используется весь текст документа. Форматирование, ссылки и т. д. становятся в этом случае дополнительным фактором, влияющим на значимость того или иного термина. Термин из заголовка получит больший вес, чем термин из подписи к рисунку.

Современные крупные ИПС должны в течение секунды обрабатывать сотни запросов. Поэтому любая задержка может привести к оттоку пользователей и, как следствие, к непопулярности системы и коммерческим неудачам. С точки зрения архитектуры, такие ИПС реализуются в виде распределенных вычислительных систем, состоящих из сотен компьютеров, расположенных по всему миру. Поисковые алгоритмы и программный код подвергаются крайне тщательной оптимизации.

В ИПС с большим объемом базы документов для ускорения их работы применяются технологии эшелонирования и прюнинга .

Эшелонирование заключается в разделении базы данных на заведомо более релевантную и менее релевантную части. Сначала ИПС ищет документы по первой части базы. Если документов не найдено или найдено недостаточно, то поиск выполняется во второй части.

При использовании прюнинга (Pruning – англ. сокращение, удаление) обработка запроса автоматически прекращается после нахождения достаточного количества релевантных документов.

Также широко применяются пороговые модели поиска , которые определяют некоторые пороговые значения для характеристик документов, выдаваемых пользователю. Например, релевантность документов обычно ограничивается некоторым значением релевантности

Вниманию пользователя предлагаются все документы со значением релевантности

В случае ранжирования результатов поиска по дате пороговые значения определяют временной интервал даты изменения документов. Например, ИПС может автоматически отсекать документы, не изменявшиеся последние три года.

Главным достоинством ИПС словарного типа является практически полная ее автоматизация. Система самостоятельно анализирует поисковые ресурсы, составляет и хранит их описания, производит поиск среди этих описаний. Широкий охват ресурсов сети Интернет также относится к плюсам таких систем. Значительные объёмы баз данных делают словарные ИПС особенно полезными для исчерпывающего поиска, сложных запросов или для локализации неясной информации.

В то же время огромное количество документов в базе данных системы часто приводит к слишком большому числу найденных документов. Это вызывает затруднения у большинства пользователей при анализе найденной информации и делает невозможным быстрый поиск. Автоматические методы индексации не могут учесть специфики конкретных документов, и количество непертинентных документов среди

найденных такой системой часто бывает велико.

Еще одним недостатком словарной ИПС является необходимость формулировать запросы к системе на специальном языке. Хотя существует тенденция к сближению ИПЯ с естественными языками, на сегодняшний день пользователь должен иметь определенные навыки в формулировании запросов.

  • GNU(рекурсивный акроним от GNU’s Not UNIX - «GNU - не Unix!») - это проект создания свободной UNIX-подобная операционной системы, открытый в 1983 году Ричардом Столлмэном.
  • I. Декларация-заявка на проведение сертификации системы качества II. Исходные данные для предварительной оценки состояния производства
  • Задаваемый булевыми операторами поиск является буквальным – машина осуществляет поиск слов или фраз точно в таком виде, в каком их ввели. Это может порождать проблемы, когда введенные слова многозначны. Например, английское слово «Bed» может означать кровать, клумбу, место, где рыба мечет икру, и многое другое. Если пользователя интересует только одно из этих значений, ему не нужны страницы со словом, имеющим другие значения. Можно построить буквальный поисковый запрос, нацеленный на отсечение нежелательных значений, но было бы неплохо, если бы сама поисковая машина могла оказывать соответствующую помощь.

    Один из вариантов работы поисковой машины – концептуальный поиск. Часть такого поиска предусматривает использование статистического анализа страниц, содержащих введенные пользователем слова или фразы, для нахождения других страниц, которые могли бы этого пользователя заинтересовать. Понятно, что для концептуального поиска требуется хранить больше информации о каждой странице, и каждый поисковый запрос потребует большего числа вычислений. В настоящее время многие группы разработчиков занимаются повышением результативности и производительности поисковых машин такого типа. Другие исследователи сфокусировались на иной области, которую именуют естественно-языковыми запросами (natural-languagequeries).

    Идея естественно-языковых запросов состоит в том, чтобы пользователь формулировал запрос так же, как он бы спрашивал у человека, сидящего рядом – при этом не нужно отслеживать булевы операторы или сложные структуры запросов. Наиболее популярным современным сайтом с естественно-языковыми поисковыми запросами является AskJeeves.com, анализирующий запрос с целью выявления ключевых слов, которые затем используются для поиска в построенном этой поисковой машиной указателе сайтов. Упомянутый сайт работает только с простыми поисковыми запросами, однако разработчики в условиях жесткой конкуренции занимаются разработкой машины с естественно-языковыми поисковыми запросами, способной обрабатывать очень сложные запросы.


    30. Семантические системы: определение, назначение, техническая суть, классификация, характеристики, архитектура, примеры и перспективы развития. Основные принципы оптимизации семантической сети



    Семантическая сеть (система) – информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа – набора вершин, соединённых дугами (рёбрами). В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

    Математика позволяет описать большинство явлений в окружающем мире в виде логических высказываний. Семантические сети возникли как попытка визуализации математических формул. Основным представлением для семантической сети является граф . Однако не стоит забывать, что за графическим изображением непременно стоит строгая математическая запись, и что обе эти формы являются не конкурирующими, а взаимодополняющими.



    Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями - дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма. Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.

    В математике граф представляется множеством вершин V и множеством отношений между ними E. Используя аппарат математической логики, приходим к выводу, что каждая вершина соответствует элементу предметного множества, а дуга – предикату.

    Пример семантической сети (системы)

    В лингвистике отношения фиксируются в словарях и в тезаурусах. В словарях в определениях через род и видовое отличие родовое понятие занимает определённое место. В тезаурусах в статье каждого термина могут быть указаны все возможные его связи с другими родственными по теме терминами. От таких тезаурусов необходимо отличать тезаурусы информационно- поисковые с перечнями ключевых слов в статьях, которые предназначены для работы дескрипторных поисковых систем.

    Классификация семантических сетей

    Для всех семантических сетей справедливо разделение по арности и количеству типов отношений.

    · По количеству типов отношений, сети могут быть однородными и неоднородными .

    o Однородные сети обладают только одним типом отношений (стрелок), например, таковой является вышеупомянутая классификация биологических видов (с единственным отношением AKO).

    o В неоднородных сетях количество типов отношений больше двух. Классические иллюстрации данной модели представления знаний представляют именно такие сети. Неоднородные сети представляют больший интерес для практических целей, но и большую сложность для исследования. Неоднородные сети можно представлять как переплетение древовидных многослойных структур. Примером такой сети может быть Семантическая сеть Википедии.

    · По арности:

    o типичными являются сети с бинарными отношениями (связывающими ровно два понятия). Бинарные отношения очень просты и удобно изображаются на графе в виде стрелки между двух концептов. Кроме того, они играют исключительную роль в математике.

    o На практике, однако, могут понадобиться отношения, связывающие более двух объектов – N-арные . При этом возникает сложность – как изобразить подобную связь на графе, чтобы не запутаться. Концептуальные графы (см. ниже) снимают это затруднение, представляя каждое отношение в виде отдельного узла.

    · По размеру:

    o Для решения конкретных задач, например, тех которые решают системы искусственного интеллекта.

    o С. С. отраслевого масштаба должна служить базой для создания конкретных систем, не претендуя на всеобщее значение.

    o Глобальная семантическая сеть. Теоретически такая сеть должна существовать, поскольку всё в мире взаимосвязано. Возможно, когда-нибудь такой сетью станет Всемирная паутина.

    Использование семантических сетей

    Семантизация - процесс изменения текстов, в которых выделяются семантические отношения без изменения их содержания. В Википедии существуют проекты по семантизации статей и Дерева категорий.

    § Семантизация статей заключается в основном путём использования шаблонов, при этом некоторые категории создаются автоматически.

    § Семантизация Дерева категорий возможна по частям после его анализа и выделения участков с родовыми категориями

    Семантическая паутина

    Концепция организации гипертекста напоминает однородную бинарную семантическую сеть, однако здесь есть существенное отличие:

    1. Связь, осуществляемая гиперссылкой, не имеет семантики, т.е. не описывает смысла этой связи. Назначение семантической сети состоит в том, чтобы описать взаимосвязи объектов, а не дополнительную информацию по предметной области. Человек может разобраться, зачем нужна та или иная гиперссылка, но компьютеру эта связь не понятна.

    2. Страницы, связываемые гиперссылками, являются документами , описывающими, как правило, проблемную ситуацию в целом. В семантической сети вершины (то, что связывают отношения) представляют собой понятия или объекты реального мира .

    Попытка создания семантической сети на основе Всемирной паутины получила название семантической паутины . Эта концепция подразумевает использование языка RDF(языка разметки на основе XML) и призвана придать ссылкам некий смысл, понятный компьютерным системам. Это позволит превратить Интернет в распределённую базу знаний глобального масштаба.

    Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

    Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

    Подобные документы

      Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

      реферат , добавлен 14.02.2012

      Сущность и содержание "всемирной паутины", использование технологии гипертекста, в которой документы связаны между собой с помощью гиперссылок. Браузеры для просмотра Web-страниц. Способы общения в Интернете. Серверы файловых архивов, их задачи.

      презентация , добавлен 21.12.2014

      Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

      реферат , добавлен 14.01.2010

      Браузерное расширение, предоставляющее информацию, такую как перевод, словарные значения и аудио для выделенного на произвольной странице сети Интернет английского слов. Набор ошибок, возвращаемых всеми функциями. Структура хранения данных на сервере.

      дипломная работа , добавлен 30.11.2016

      Оценка современного состояния Интернета как источника информационного обеспечения научных исследований, методы улучшения поиска необходимых файлов. Развитие семантической паутины как способ повысить роль Интернета в качестве источника для исследований.

      курсовая работа , добавлен 29.08.2015

      Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

      реферат , добавлен 02.11.2010

      Понятие интернета как всемирной информационной системы, его внутренняя структура и принципы функционирования. История и основные этапы развития "всемирной паутины", характеристика предоставляемых услуг, сервисов. Оценка перспектив и тенденций расширения.

      Алгоритмы ранжирования поисковых систем постоянно развиваются и совершенствуются. Главные цели этого развития - обеспечение высокого качества поиска для пользователей и создание максимальных трудностей для манипулирования поисковой выдачей оптимизаторами сайтов.

      Данные цели взаимосвязаны, так как качество поиска напрямую зависит от возможности или невозможности повлиять на него заинтересованным лицам.

      Когда поисковые системы Яндекс и Google только начинали свое развитие, их алгоритмы ранжирования были примитивны, что позволяло довольно просто манипулировать ими. На релевантность страницы оказывали высокое влияние такие факторы: мета-теги, плотность ключевых слов на странице и теги выделения. Однако это позволило «черным» оптимизаторам, которые продвигали сайты ориентированные не на людей, а на поисковые системы с целью заработать на потоке посетителей, ухудшить общее качество поиска.

      В результате, поисковые системы перестали учитывать мета-тег Keywords и, по всей видимости - Description, который теперь используется лишь для формирования сниппета (краткого описания страницы) в Google. Так же снизилась значимость других факторов внутренней оптимизации, которые позволяли злостно манипулировать поисковой выдачей.

      Затем оптимизаторами было установлено, что количество внешних ссылок на сайт, а так же их анкоры влияют на позиции сайта в результатах поиска. Сразу же появились тысячи каталогов сайтов и программы автоматического добавления в них (самая известная программа такого рода - AllSubmitter).

      Поисковые системы довольно быстро исключили большую часть каталогов сайтов, резко понизив эффективность прогонов по каталогам, которые стали массово использоваться оптимизаторами.

      После этого эффективные попытки манипулирования поисковой выдачей стали, главным образом, заключаться в покупке ссылок с обычных сайтов, созданных не на каталожных скриптах.

      Очень скоро поисковые системы научились распознавать грубую работу по продаже ссылок и ввели санкции в виде фильтра или бана для сайтов, созданных исключительно для продажи ссылок. Причем в некоторых случаях санкции могут касаться сайтов, на которые ссылки закупаются.

      Все этапы развития поисковых систем представляют собой следующую логическую цепочку:

      1. Создается некоторый базовый алгоритм ранжирования.

      2. Оптимизаторы выявляют в нем слабые места и начинают массово манипулировать поисковой выдачей.

      3. Поисковые системы серьезно корректируют алгоритм ранжирования, изменяя степень влияния тех или иных факторов.

      4. Оптимизаторы анализируют эти изменения, приспосабливаются к новым условиям и вновь начинают массово манипулировать поиском.

      Однако алгоритмы ранжирования поисковых систем в последнее время не только меняют значимость различных факторов, но и изменяются качественно вообще.

      Актуальным становится комплексный учет сотен различных факторов, а также упраздняется единая формула ранжирования, вместо которой начинает использоваться матричная система. Пример тому - алгоритм Яндекса «Снежинск» (описание этого алгоритма приведено на странице http://seo-in.ru/poiskovaya-optimizaciya/62-snezhinsk.html).

      По новой системе, для каждого отдельного запроса генерируется своя формула ранжирования, которая может быть совершенно не похожа на формулу ранжирования по другим запросам. Если раньше можно было довольно просто выявить какие-то общие зависимости в принципах ранжирования поисковой системы, то в дальнейшем общих зависимостей просто не будет.

      Платные инструменты для продвижения сайтов скорее всего останутся, но их использование с большой вероятностью станет экономически нецелесообразно. Именно такая ситуация наблюдается сейчас в англоязычном секторе интернета.

      В недалеком будущем для продвижения сайта наибольший эффект будет оказывать совокупность следующих основных факторов:

      • большой массив качественного контента (уникального и полезного);
      • траст сайта;
      • возраст сайта;
      • разумная внутренняя оптимизация.

      Какое-то особое техническое продвижение, основанное на выявлении слабых мест в алгоритмах ранжирования, скорее всего, потеряет актуальность. По крайней мере, все к этому идет.