Управление поиском средств что это

Управление поиском средств что это

Для того чтобы дать пользователю возможность оценить полноту полученного результата (по сути, возможность управлять процессом поиска), необходимо предоставить специальные инструменты, позволяющие обращаться к ранее полученным объектам и результатам. На уровне интерфейса эти объекты должны быть отделены от средств поиска и работы с документами, чтобы пользователю проще было переключаться с задачи своей основной деятельности (сбора информации для решения задачи) на проблемы оценки своих действий и состояний.

Для оценки динамики эффективности процесса поиска дистрибутивно-статистическими методами необходимо, чтобы все этапы технологии относились к одному (семантическому однородному) пространству объектов (т. е. задача не должна быть многокритериальной). Иначе говоря, результаты, получаемые на разных этапах и, соответственно, по разным поисковым образам, должны относиться к одному исходному (семантически замкнутому) запросу, который как предмет поиска представляет тематически отдельную реальную информационную потребность пользователя. То есть в этом случае оценивается эффективность уже поискового образа запроса, а повышение эффективности поискового процесса основывается на последовательном повышении эффективности ПОЗ по отношению к предшествующему варианту (которая может определяться на основе, например, корреляционного анализа подмножеств х, Т2, . Тп> и 2, . Д,>, введенных в гл. 4).

Для реальных запросов, которые практически являются многоаспектными и включают несколько подтем, общий результат будет получен последовательностью фактически самостоятельных (завершенных с точки зрения получения и оценки результатов) вышеописанных многоэтапных процессов поиска, каждый из которых должен быть выполнен для каждой подтемы и аспекта. То есть, как это представлено на рис. 6.6, каждому отдельному элементу тематически-аспектной декомпозиции запроса, представляющей информационную потребность как семантически значимый объект поиска на логическом уровне, соответствует отдельный физический процесс поиска и результат. При этом в реальных И ПС результаты поиска по отдельным этапам последовательно фиксируются в протоколе, позволяющем отобразить ход процесса и, возможно, на следующих этапах обратиться к ранее полученным результатам.

Однако, предопределенная требованием оцениваемости, изолированность объекта поиска и, соответственно, результатов, на практике трудно достижима: множество документов, выданных при поиске по одному аспекту, обычно содержит документы, относящиеся и к другим аспектам. И, кроме того, в многоэтапном

Рис. 6.6. Уровневая модель поискового процесса

процессе развития запроса пользователь, получая значимый или просто интересный документ, но относящийся к другому аспекту, обычно переключает внимание именно на него и, соответственно, выходит за пределы тематически замкнутого пространства, что нарушает требование однородности и снижает эффективность поиска.

Это означает, что представление процесса поиска на физическом уровне (последовательность получения результата, зафиксированная в протоколе в виде интерфейсных объектов) не будет соответствовать последовательности на логическом уровне. Для обеспечения соответствия вводится промежуточный интерфейсный уровень представления процесса поиска. Объекты этого уровня (и характер их представления, например, упорядочение) структурно будут соответствовать логическому уровню, и каждый из них будет представлять (объединять) элементы (ПОЗ, словники, результаты поиска), относящиеся к соответствующему предмету поиска, но физически полученные, возможно, на разных этапах.

Тем самым, на передний план выдвигается проблема организации взаимодействия пользователя с системой в процессе поиска.

И если для процесса в целом (с точки зрения конечного пользователя) имеем всего два типа основных операционных объектов — запрос (как пользовательское представление ИП) и документ (как семантически целостный ответ или его часть, сформированный системой — отображение запроса в пространство документов), то с точки зрения организации процесса взаимодействия интерфейс системы должен иметь разнообразные объекты. При этом разнообразие типов объектов пользовательского интерфейса определяется «развитостью» технологических и процедурных возможностей системы. Для случая обобщенной схемы, технологически обеспечивающей снятие информационной неопределенности всех типов, такими объектами являются:

  • • тезаурусы, обеспечивающие ориентацию пользователя в предметной области;
  • • словари поисковой системы, используемые для формирования поискового выражения;
  • • тематические словники, представляющие информативную лексику предметной области.

Эти объекты, являясь технологически вспомогательными, используются на разных этапах поиска и обеспечивают возможность более или менее адекватного выражения информационной потребности пользователя. При этом для отражения индивидуальных особенностей ИП они, как интерфейсные объекты, не могут быть эффективно использованы, поскольку, вследствие усредненной природы, представляют ПрО в целом.

Для этого на промежуточном интерфейсном уровне можно использовать иерархически организованные структуры, отражающие пользовательское видение системы понятий предметной области. Причем, каждый такой объект представляет как общепринятое, так и индивидуальное видение ПрО. Интегральность такого представления достигается за счет того, что оно реализуется объектами как уровня ресурсов (подборками документов, ссылками на ассоциированные ресурсы и т. д.), так и уровня терминологии (тезаурусами, рубрикаторами, словниками).

При таком подходе НС может помимо стандартных и расширенных поисковых возможностей иметь средства систематизации информационных массивов, формирования и развития компонентов лингвистического обеспечения, а также оценки и анализа результатов поиска.

Такими объектами могут быть словари поисковой системы, тематические словники, тезаурусы, представляющие информативную лексику предметной области. Эти объекты, являясь технологически вспомогательными, используются на разных этапах поиска и обеспечивают возможность более или менее адекватного выражения информационной потребности пользователя. Однако эффективность их использования для отражения индивидуальных особенностей ИП достаточно низка, поскольку, вследствие усредненной природы, представляют предметную область в целом.

Для этого на интерфейсном уровне можно использовать иерархически организованные структуры, динамически создаваемые пользователем, отражающие его персональное видение предметной области. Причем, каждый такой объект представляет как общепринятое, так и индивидуальное видение ПрО. Интеграль- ность такого представления достигается за счет того, что оно реализуется объектами как уровня ресурсов (подборками документов, ссылками на ассоциированные ресурсы и т. д.), так и уровня терминологии (тезаурусами, рубрикаторами, словниками).

Количество информации в корпоративных локальных сетях, особенно если речь идет о достаточно крупных организациях, давно уже преодолело тот рубеж, когда каждый мог самостоятельно отыскать любую нужную ему информацию без привлечения специальных поисковых программ. Поэтому использование корпоративной поисковой системы в современной организации – не дань моде, а требование времени.

В море информации

Современная локальная сеть любой организации, в которой насчитывается хотя бы два десятка подключенных к этой сети компьютеров, достаточно трудна для ручного поиска информации в ней. Проблема, конечно же, в больших объёмах этой информации – именно они приводят к тому, что пользователь, нуждающийся в каком-либо документе, нередко тратит по нескольку часов только для того, чтобы этот документ найти.

Подобный отрицательный эффект масштаба характерен, к сожалению, для организаций любой формы собственности, работающих в самых разных отраслях. И потери рабочего времени сотрудников, а значит, в конечном счете, и потери работодателей, оплачивающих бесполезную трату времени работниками, принимают угрожающие размеры: по данным компании IDC, среднестатистический офисный работник сегодня до 30% своего рабочего времени тратит именно на поиск нужной ему по работе информации. Потери времени на реконструкцию тех документов, которые найти так и не удалось, будут ещё более впечатляющими.

Решать эту проблему можно по-разному, но, как показывает практику, хорошо структурировать все имеющиеся в организации документы и, самое главное, поддерживать эту структуру в идеальном порядке по мере появления новых документов чрезвычайно сложно. Кроме того, это требует ничуть не меньших усилий, чем поиск вручную по неструктурированным данным. Таким образом, единственно рациональным с экономической точки зрения решением будет автоматизация процесса поиска с использованием специализированного программного обеспечения, которое даст своему пользователю возможность быстро искать нужную ему информации среди большого объёма неструктурированных данных. Именно такие программные продукты, которые позволяют решать данную задачу, и принято называть корпоративными поисковыми системами.

Особенности поиска в корпоративной среде

Поиск данных в локальной сети организации имеет, с одной стороны, много общих черт с поиском во Всемирной паутине, а с другой стороны, заметно от него отличается. Обусловлены эти отличия, конечно же, отличиями самих тех сред, в которых производится поиск информации.

Во-первых, корпоративная сеть, в отличие от Web, достаточно разнородна в плане источников данных. Если во Всемирной паутине львиная доля всей информации, с которой работают поисковые системы, приходится на HTML-страницы, то в корпоративной среде наблюдается настоящий «зоопарк» из хранилищ файлов различных форматов, баз данных и других репозиториев информации. Во-вторых, если в интернете вся информация, которая доступна поисковой системе, доступна и любому из её пользователей, то в случае с корпоративным поиском показывать любые документы каждому из сотрудников будет в корне неправильным в силу политик информационной безопасности организации. То есть, корпоративная поисковая система должна, ко всему прочему, поддерживать разграничение доступа к искомым данным. В-третьих, корпоративная поисковая система должна интегрироваться с другими информационными сервисами, действующими в рамках ИТ-инфраструктуры данной организации, в то время как поисковые системы во Всемирной паутине предоставлены сами себе и никакой интеграции ни с кем обеспечивать, в общем-то, не обязаны.

В то же время технологии поиска, применяемые в корпоративных «поисковиках», уже, как правило, отработаны на поисковых системах, работающих в интернете. Интерфейсы корпоративных средств поиска тоже, как правило, выполнены по образу и подобию своих онлайновых «коллег».

Виды поиска

Несмотря на то, что большинство современных поисковых систем скрывают все сложности, связанные с реализацией внутри них различных поисковых алгоритмов, от конечного пользователя, понимание различий между разными видами поиска является необходимым условием принятия обоснованного решения о выборе той или иной корпоративной поисковой системы.

Все поисковые инструменты, которые сегодня представлены в любых поисковых системах, можно разделить на три большие группы: инструменты полнотекстового поиска, средства поиска по метаданным и инструменты мультимедийного поиска. Полнотекстовый поиск предполагает поиск по всему содержимому документа, и требует для своего применения наличия специальной базы подготовленных документов – индекса. Поиск по метаданным – это поиск по внешним атрибутам документа. Для файлов такими атрибутами могут являться размер, дата создания, имя; для сообщений электронной почты – тема, отправитель, получатель и т.д. Мультимедийный поиск – самый сложный из видов поиска, существующих на сегодняшний день. Он позволяет находить похожие по содержанию на заданный образец изображения, аудиозаписи, видеоролики. Пока что технологии мультимедийного поиска в силу своей сложности, к сожалению, не могут похвастать таким же качеством поиска, как даже полнотекстовый поиск, однако, к счастью, в случае с корпоративным поиском это не так уж и важно.

Технологии полнотекстового поиска

Полнотекстовый поиск – самый популярный и самый нужный из видов поиска в корпоративных поисковых системах. Поскольку, по сути, все документы так или иначе ищутся пользователем по содержащемуся в них тексту, поддержка максимального количества технологий полнотекстового поиска со стороны поисковой системы будет серьёзным аргументом в её пользу. А технологии сегодня большинством поставщиков поисковых систем предлагаются такие:

  • Поиск по словам с учетом морфологии и синонимов. Данный вид поиска позволяет находить документы, содержащие заданные слова, их различные формы и синонимы, вне зависимости от того, в каком месте документа они находятся. Именно этот вид поиска реализован в интернет-«поисковиках», где посетители пользуются «однострочным» интерфейсом и не настраивают дополнительных параметров поиска.
  • Поиск по фразам с учетом порядка слов и расстояния между ними. Этот вид поиска предполагает анализ документов не по отдельным словам, а по словосочетаниям. В интернете с таким поиском пользователи сталкиваются тогда, когда вводят запрос, состоящий из более чем одного слова.
  • Поиск с использованием регулярных выражений. Данный вид поиск позволяет отследить последовательности символов, характерные для различных форм данных: к примеру, списков сотрудников; списков показателей, содержащихся в финансовых отчетах; структурированных записях в базах данных и т.п. Несмотря на то, что данный вид поиска чрезвычайно эффективен, когда нужно найти данные, соответствующие тому или иному шаблону, он достаточно сложен для неподготовленных пользователей, которые должны сами составлять описывающие шаблон регулярные выражения.
  • Поиск по «цифровым отпечаткам». Этот вид поиска предполагает определение группы документов и снятие с них так называемых «цифровых отпечатков», по которым в дальнейшем и будет осуществляться поиск. С помощью данного метода можно быстро находить документы, содержащие большие фрагменты текста из заранее заданных документов. Основным достоинством метода является высокая скорость работы, а к недостаткам можно отнести его неэффективность при внесении в документ большого числа изменений и необходимость оперативного создания цифровых отпечатков всё новых документов. Обычно такой вид поиска используется не при реализации полнотекстового поиска в корпоративных хранилищах информации, а при необходимости анализа данных «на лету» ‑ например, для выявления конфиденциальных документах в системах предотвращения утечек информации. Хотя и в традиционных корпоративных «поисковиках» вполне можно найти такую функциональность.
  • Семантический поиск. Это самый «продвинутый» вид поиска, основанный на анализе текста, позволяющий находить не просто тот текст, который содержит содержащиеся в поисковом запросе слова, но и те документы, которые соответствуют данному запросу по своему смыслу. В качестве поискового запроса при осуществлении семантического поиска используются, как правило, и фрагменты текста, и документы целиком. Несмотря на всю мощь данного вида поиска, системы, в которых он реализован действительно на достойном уровне, можно пересчитать по пальцам – связано это, в первую очередь, с технической сложностью и высокой трудоёмкостью реализации семантического поиска.

Внутри полнотекстовой поисковой системы

Для осуществления полнотекстового поиска системе требуется провести предварительную обработку базы исходных документов, по которым она после будет осуществлять поиск. Обработка эта заключается в создании индекса – специальной структуры данных, которая позволяет осуществлять поиск в быстром режиме, не «просматривая» полностью каждый из документов. Процесс составления индекса – индексация – обязателен после внедрения поисковой системы в корпоративную ИТ-инфраструктуру. В зависимости от объема информации в корпоративной сети и от скорости обработки данных «поисковиком», процесс индексации может занимать значительное время

Поисковый индекс можно рассматривать как своеобразный словарь, в котором каждому найденному в процессе индексации слову сопоставляется список документов, в котором оно найдено. Обычно учитываются также позиции найденного слова в этих самых документах — это чрезвычайно важно для поиска не по одному слову, а по целым фразам, особенно в тех случаях, когда учитывается порядок слов в фразе и расстояние между ними в тексте. То есть, поисковый индекс — это база данных, в которой вся информация записана в инвертированном виде: каждому слову соответствует набор позиций в тех документах, в которых оно встретилось «поисковику» при индексации. Таким образом, слово играет роль ключа — а если эти слова упорядочены по алфавиту, то время поиска существенно сокращается по сравнению с тем, что было раньше — теперь, фактически, много времени занимает только построение индекса, а поиск по нему уже начинает быть чрезвычайно быстрым.

Индекс, составленный по описанному выше принципу, называется инверсным — потому что с его использованием поисковая система «идет» не от документов к словам, как в безындексном поиске, а наоборот, от слов к документам. Как правило, впрочем, этот индекс сопровождается, для удобства пользователя еще вторым индексом — прямым. В нем и хранится копия всех проиндексированных документов, и используется он для того, чтобы отображать фрагменты текста, соответствующие поисковому запросу, в окне результатов поиска.

Поскольку поисковые индексы имеют достаточно большой объём, и, кроме того, поскольку он постоянно увеличивается по мере неизбежного роста числа документов в корпоративной сети, для внедрения корпоративного поиска нужно озаботиться приобретением соответствующего серверного оборудования, которое в идеале даст возможность быстро и легко увеличивать объём доступного дискового пространства за счет «горячего» подключения жестких дисков или целых их массивов. Для оценки скорости роста объема поисковых индексов имеет смысл запустить «поисковик» в режиме тестовой эксплуатации на имеющемся в распоряжении организации оборудовании в течении одной или нескольких недель, а затем на основании полученных данных уже выбирать оборудование для эксплуатации поисковой системы в регулярном режиме.

Рынок систем корпоративного поиска

Поскольку средства корпоративного поиска имеют высокую востребованность среди организаций во всем мире, то и количество решений, имеющихся на рынке, даст возможность ИТ-специалистам легко выбрать то, что соответствует потребностям и финансовым возможностям организации.

Решения для корпоративного поиска присутствуют во многих комплексных продуктах – например, в широко распространённом Microsoft Office SharePoint Server. Функционал данного программного продукта позволяет выполнять поиск в сетевых общих папках, на веб-узлах, узлах SharePoint, в общих папках Exchange и базах данных Lotus Notes; индексировать, находить и отображать данные, полученные из бизнес-приложений, реляционных баз данных и другого структурированного контента с помощью каталога бизнес-данных. Одна из ключевых возможностей поискового решения на базе SharePoint – поддержка использования функций поиска людей. Поддерживается поиск данных в бизнес-приложениях с помощью каталога бизнес-данных. Можно индексировать и получать данные и отчеты, доступные через веб-службы и ADO.NET и находящиеся в бизнес-приложениях и источниках структурированного контента. Результаты поиска можно сохранять в виде списков SharePoint. Одно из преимуществ данного решения заключается в том, что функции корпоративного поиска интегрируются со средствами совместной работы, порталами, средствами управления ифнормацией, формами и системами бизнес-аналитики SharePoint Server.

Реализация корпоративного поиска средствами Microsoft Office SharePoint Server удобна для тех организаций, которые используют возможности этого продукта. Аналогичные системы присутствуют практически во всех корпоративных порталах, включая продукты от Oracle, 1С и других производителей. Среди решений, не интегрированных с корпоративными порталами, стоит отметить, конечно же, в первую очередь продукты мирового лидера в области поиска – корпорации Google. Она предлагает корпоративным пользователям сразу программно-аппаратные решения Google Search Appliance и Google Mini. Эти серверы просматривают и индексируют содержимое корпоративного Интранета, файловых и web-серверов, а также других IT-систем предприятия, обеспечивая поддержку более 220 файловых форматов и 109 национальных языков. Google Search Appliance дополнительно позволяет включить в орбиту поиска корпоративные бизнес-приложения, например, службы каталогов, корпоративный календарь, системы CRM, ERP и BI. Работа с информационным наполнением этих систем ведется в реальном времени и с полным соблюдением требований безопасности. Преимущества решения от Google заключаются в низких по сравнению со многими другими системами затратах на внедрение, а также возможности работы совместно с другими решениями в гетерогенных средах.

Стоит также упомянуть и решения производителей из стран СНГ, изначально разрабатывавшиеся с прицелом на русскоязычные документы и на специфику работы организаций на постсоветском пространстве. Одним из признанных лидеров в этой области является компания SoftInform, предлагающая поисковое решение SoftInform Search Server. Помимо поддержки всех видов полнотекстового поиска, включая семантический поиск, называемый разработчиками «поиском похожих», продукт характеризуется такими особенностями, как высокая скорость индексации (15-30 Гб в час), возможность индексации баз данных Lotus Notes, поддержка интеграции с ABBYY Recognition Server и Lotsia PDM Plus, автоматическая рубрикация документов индекса по их тематике.

Также можно упомянуть Poshukai.by. Это поисковая система для решения задач в области корпоративного поиска информации. Poshukai позволит вам быстрее находить необходимую информацию внутри компании. Строка поиска с атрибутами поможет точно найти необходимые документы.

Безусловно, упомянуть всех хотя бы более-менее известных производителей систем поиска в рамках одной статьи весьма проблематично, поэтому на этом мы и остановимся. Как видите, интересных решений на рынке корпоративных поисковых систем достаточно много, нужно только определиться с требованиями, которые вы предъявляете, и найти соответствующий им продукт.

Другие статьи:

Похожие статьи:

Популярное на сайте:

Leave a Reply