Вероятно, вы провели немало времени в заботах об обеспечении надежности и доступности сервера, обновлении программного обеспечения и безопасности. Но даже если вся инфраструктура работает замечательно — каждое приложение и файл доступны по сети, пользователи могут продолжать испытывать трудности. Да, все необходимые данные доступны, но сколько времени уходит на их поиск?
Чтобы помочь персоналу справляться с информационными перегрузками, было сделано довольно много. Средства панели поиска упростили поиск фрагментов информации, затерявшихся в остальных хранящихся в системе данных. Но что делать с данными, доступными на порталах, хранящимися на общих ресурсах, используемыми в бизнес-приложениях, не говоря уже о ценной информации, хранящейся в головах сотрудников? Эта информация жизненно важна для пользователей — она необходима им, чтобы выполнять свою работу, а быстрый доступ к ней способствует выработке своевременных и точных бизнес-решений. Подумайте, сколько времени занимает у пользователей поиск и сбор данных, разбросанных по сети. А теперь оцените, какое влияние это может иметь на итоговые показатели предприятия.
Необходимо сократить время, которое пользователи тратят на поиск данных по всей инфраструктуре предприятия. Как это сделать? Ответ прост — использовать поисковую систему, предоставляющую возможности поиска по всей корпоративной инфраструктуре.
Корпоративная поисковая система может найти практически любую хранящуюся в организации информацию. Ищете ли вы информацию, хранящуюся на рабочем столе, спрятанную на узле интрасети, зафиксированную в бизнес-приложении или находящуюся в головах сотрудников — корпоративная поисковая система поможет. (Не беспокойтесь, вживлять микросхемы в мозги пользователям не нужно.)
Корпоративная поисковая система сочетает локальный поиск и возможности быстрого поиска в интрасети. Разумеется, корпоративная поисковая система должна иметь возможность федеративного поиска, обеспечивающего доступ к нескольким источникам данных при помощи единого запроса. У пользователя есть единый интерфейс для ввода запроса. Корпоративный поиск самостоятельно направляет запрос нескольким поисковым системам, а затем отображает обобщенные результаты поиска.
В этой статье мы обсудим, как мощная поисковая система, предоставляемая сервером Microsoft® Office SharePoint® Server 2007 (MOSS 2007), следующим поколением решений Microsoft SharePoint, поможет организации справиться с огромным объемом информации. Сервер MOSS 2007 предлагает многочисленные улучшения по сравнению с предыдущими версиями, полностью переработанные компоненты и некоторые совершенно новые возможности. Мы обсудим некоторые из этих ключевых компонентов, такие как индексирование, распространение, релевантность и источники содержимого, и то, как они помогают предоставить пользователям лучшую корпоративную поисковую систему.
Корпоративный поиск при помощи SharePoint
Корпоративный поиск доступен в четырех версиях со следующими основными отличиями: Серверы Microsoft Office SharePoint Server 2007 for Search Standard Edition, Microsoft Office SharePoint Server 2007 for Search Enterprise Edition, Microsoft Office SharePoint Server 2007 Standard и Microsoft Office SharePoint Server 2007 Enterprise.
Основная разница между двумя версиями Search Edition и полными версиями SharePoint Server состоит в том, что первые не содержат функциональности People Search (которая также включает интеграцию со службой Knowledge Network для MOSS 2007), средства Business Data Catalog и средства Search Center с настраиваемыми вкладками.
Пользовательский интерфейс содержит многочисленные новые возможности, включая функцию «Возможно, вы имели в виду…» Как и в поисковых системах сети Интернет, система проинформирует вас о возможной ошибке при вводе популярного термина (см. рис. 2). Кроме того, интерфейс включает выделение совпадений и полную поддержку наиболее подходящих результатов.Но это ещё далеко не все новые возможности поиска.
Поиск знаний
Одно из наиболее интересных предложений — возможность находить людей, обладающих определенными знаниями и опытом. Это позволяет пользователям общаться и увеличивать общий объем знаний работников организации — важный шаг в разрушении барьеров.
Для реализации этого предложения индексирование и поиск должны проводиться по любому каталогу LDAP, включая списки рассылки службы Active Directory® и группы пользователей SharePoint. В действительности, сервер MOSS не ищет непосредственно в каталогах LDAP, и для поиска людей информация каталогов LDAP должна быть импортирована на сервер MOSS. (Поиск может производиться по всей корпоративной инфраструктуре).
Результаты поиска могут быть группированы по «социальной дистанции» индивидуума — расстоянию между должностями пользователей (ассистент менеджера по продажам вряд ли захочет позвонить финансовому директору) — и общности интересов. На рис. 3 показаны результаты поиска людей.
Поиск бизнес-данных
Сервер SharePoint может индексировать различные типы бизнес-данных. Например, информацию бизнес-приложений (таких как HR-приложения, CRM, отчеты о расходах и прочие). Обычно доступ к таким данным в обход обычного интерфейса бизнес-приложения затруднен, что вызывает у большинства сотрудников трудности в их поиске и использовании.
Но теперь поиск сервера MOSS может извлекать данные практически любого бизнес-приложения, такого как реляционная база данных или база данных Lotus Notes, доступ к которым возможен посредством интерфейса ADO.NET или веб-служб. Важно то, что для осуществления этого не требуется писать дополнительный код. С помощью функции Business Data Catalog получить такого рода данные так же просто, как открыть документ или веб-узел. Функция Business Data Catalog может легко быть интегрирована с управлением свойствами и настраиваемыми областями, используемыми в системе Search Center.
Релевантность результатов
Конечно, от любых новых функций мало пользы, если они не дают точных результатов. К счастью, сервер MOSS обеспечивает существенное улучшение релевантности. Перед тем, как мы обсудим эти усовершенствования, нужно понять, чем релевантность при корпоративном поиске отличается от релевантности поиска в сети Интернет.
Возможно вы подумаете, почему для поиска в интрасети нельзя использовать те же средства, что и для поиска в сети Интернет, получая при этом такую же точность. Дело в том, что это два существенно различных окружения, с различными нуждами и требованиями. Их отличия могут быть сгруппированы по трем основным категориям: безопасность, структура и иерархия.
Вопрос безопасности связан с простым устройством сети Интернет по сравнению с корпоративными сетями. К данным в сети Интернет обычно возможен анонимный доступ, индексирование и поиск не требуют обеспечения проверки подлинности или настройки системы безопасности. В то же время, корпоративное окружение должно строго соответствовать модели безопасности, включая фильтрацию результатов для сотрудника, ведущего поиск, в соответствие с его разрешениями.
Вопрос структуры обусловлен плотностью данных. Сеть Интернет богата и разветвлена, а её узлы связаны ссылками для пополнения содержимого. В корпоративной сети ссылки используются преимущественно для навигации, и общая структура не так плотна.
Вопрос иерархии отчасти связан с предыдущим вопросом. В сети Интернет обычно не наблюдается иерархической структуры узлов, или она мало представлена. Корпоративные сети же обычно планируются и обладают иерархической структурой. Даже если предприятие имеет много основных уровней, обычно в организации существует один главный портал.
Эти фундаментальные отличия обуславливают способы, при помощи которых корпоративная поисковая система индексирует данные и возвращает результаты поиска. Сервер MOSS 2007 предназначен для наилучшего удовлетворения различных потребностей предприятия. Он обладает новой системой оценок, основанной на существующих технологиях, объединенных с разработками исследовательского центра Microsoft Research и группы MSN®. Релевантность была повышена путем создания линейки алгоритмов, собирающих внутреннюю и внешнюю информацию о документах и данных бизнес-приложений, по которым выполняется обход содержимого. При индексировании корпоративной информации анализируется более 200 типов документов, к которым применяются алгоритмы распознавания языка, извлечения метаданных, и анализа текста. Новые алгоритмы, специально настроенные на специфику корпоративной информации и бизнес-приложений, существенно повышают точность результатов.
В расчетах релевантности используются некоторые теги метаданных. Ниже приведены некоторые учитываемые данные.
- Удаленность Удаленность от официальных узлов при обзоре (чем меньше, тем выше релевантность).
- Текст привязки Гиперссылки рассматриваются как аннотация к их назначению. При этом они становятся более осмысленными.
- Глубина URL-адресов URL-адреса, высшие по иерархии, рассматриваются как более релевантные.
- Совпадения в URL-адресах Учитываются непосредственные совпадения в URL-адресах.
- Извлечение метаданных Если в документе отсутствуют заголовки и данные об авторах, они автоматически извлекаются из метаданных.
- Автоматическое распознавание языка Помогает создать предпочтения для найденных результатов на языке пользователя.
- Учёт типа файла Определённые типы файлов рассматриваются как более релевантные (например, PPT-файлы часто более релевантны, чем XLS-файлы).
- Анализ текста Традиционные оценки текста, основывающиеся на совпадении и частоте появления в тексте терминов и вариантах слов.
Как работает индексирование?
Сервер MOSS 2007 содержит существенные улучшения способов работы служб индексирования и управления содержимым. Прежде всего, можно задать источники содержимого — серверы SharePoint, веб-узлы, сетевые ресурсы, папки Exchange Public Folders, базы данных Lotus Notes или бизнес-приложения. В целом, процедуры администрирования системой индексирования были упрощены, что позволяет легко выбирать, что, как и когда индексировать в существующем многообразии источников данных. Это реализовано путем поддержки правил обхода содержимого, позволяющих включать и исключать конкретные пути к источникам данных. Можно даже настроить то, как поисковый агент следует ссылкам по данному URL-адресу. Встроенный журнал обеспечивает подробный просмотр обработанных узлов и информацию о том, как они были проиндексированы.
Технология индексирования аналогична используемой в системе Windows® Desktop Search. Индекс состоит из двух главных компонентов: индекса содержимого и хранилища свойств. Это исключительно эффективный способ обработки данных. Индекс содержимого включает сам текст, содержащийся в файлах, а также соответствующий обратный индекс слов корпоративного индекса. База данных хранилища свойств является определяющей для обработки результатов. База данных свойств содержит все дополнительные метаданные (автор, дата создания, тип документа и так далее) всех документов хранилища. С точки зрения структуры, хранилище свойств представляет собой таблицу свойств и их значений. Каждый ряд таблицы соответствует отдельному документу в полнотекстовом индексе. Хранилище свойств также обеспечивает и поддерживает для каждого документа политику безопасности, назначаемую при его индексации.
Процесс индексирования и хранения запускается системой индексирования, которая ответственна за обход содержимого источника. Система начинает обход содержимого сразу после подключения соответствующего обработчика протокола, позволяющего чтение источников данных. После загрузки соответствующего обработчика протокола чтения исходных данных при помощи необходимых фильтров IFilters извлекаются и фильтруются элементы источников. Фильтр IFilter является надстройкой, позволяющей поисковой системе открывать, читать и индексировать содержимое новых типов файлов, доступ к которым в противном случае был бы ограничен. Фильтр IFilter извлекает текст и метаданные из каждого документа и передает их поток в систему индексирования.
Свойства документов при этом попадают в хранилище свойств, а текст документа помещается в индекс содержимого. Однако перед тем, как это произойдет, система индексирования удаляет «словесный шум». При обработке система использует также средства разбиения на слова и данные морфологического анализа для упорядочивания данных, что способствует лучшей обработке запросов. (Разбиение на слова применяется для разделения на слова и фразы. Данные морфологического анализа используются для порождения словоформ).
В системе индексирования используется непрерывное распространение, что позволяет строить индекс практически мгновенно. В случае непрерывного распространения, построение индекса продолжается даже пока процесс обхода распространяется по источникам содержимого. Это усовершенствование позволяет получать результаты почти мгновенно, что является существенным улучшением по сравнению с системой SharePoint Portal Server 2003, в которой обход больших источников содержимого мог занять дни, а распространение индекса выполнялось только по завершении процесса обхода.
Как работают запросы?
Когда пользователь посылает запрос или некое приложение вызывает индекс, обработчик запросов начинает обработку. Сначала запрос передается средству разбиения на слова, выбранному для конкретного языка. Если язык не может быть определен, используется нейтральное средство. После разбиения запроса на слова, обработчик передает информацию в морфологический анализатор (если он включен) для дальнейшего разбора. Такой двухступенчатый процесс улучшает релевантность и эффективность результатов, возвращаемых запросом.
Если запрос содержит информацию о свойствах, индекс содержимого сначала проверяется на совпадения с документами в хранилище свойств, а затем свойства из запроса снова проверяются на предмет совпадений. Обработчик запросов содержит дополнительный уровень фильтрации, удаляющий результаты, к которым пользователь не должен иметь доступа. Остальные результаты возвращаются в списке, отсортированном по релевантности. На рис. 4 показано, как совмещаются все компоненты системы индексирования и обработчика запросов.
Улучшенное управление
Администраторы отметят, что управлять средой поиска стало проще. Усовершенствованный набор инструментов для конечных пользователей и администраторов поможет уменьшить сложности, вызванные разными точками подключения к платформе. Новая модель управления, применяемая в серверах MOSS 2007, значительно улучшает работу поисковой системы. (На рис. 5 показана главная страница, используемая для изменения параметров поиска).
Поддержка областей, позволяющих управлять различными возможностями поиска, также была улучшена. Области дают возможность легко выполнять поиск в источнике содержимого, позволяя управлять индексами в более мелких блоках. В системе SharePoint Portal Server 2003 области привязаны к источнику содержимого, что снижает гибкость и затрудняет управление. В системе MOSS 2007 области отделены от источников содержимого, предлагая большую степень гибкости. Можно задать области, основываясь на произвольных свойствах содержимого, таких как URL-адрес, тип или автор. Можно даже сочетать области для получения нескольких правил, например все технические документы, написанные одним автором.
Конечно, если администратор хочет увеличить производительность поисковой системы, одной из самых важных вещей должно стать понимание того, как в данный момент используется индекс. Одним из лучших дополнений к набору средств администрирования является средство генерации статистики запросов. Обеспечиваемая этим средством функциональность позволяет быстро находить информацию по объемам запросов, популярным запросам, показателям перехода по ссылкам, запросам с нулевыми результатами и так далее. Генератор статистики запросов может предоставлять подробную информацию как на уровне узла, так и на уровнях основного поставщика услуг. На рис. 6 показан пробный отчет. Можно экспортировать данные в Microsoft Excel® для дальнейшего анализа и чтобы «покрутить» данные.
Безопасность и привилегии
Как уже упоминалось ранее, обработчик запросов отфильтровывает результаты, и список, который видит пользователь, содержит только те документы, доступ к которым ему разрешен. (В системе SharePoint Portal Server 2003 пользователю могли выдаваться ссылки, следовать которым он не мог ввиду отсутствия разрешений). Одно пояснение, касающееся настроек безопасности — сервер MOSS 2007 не ограничивает доступ к веб-узлам. Доступ к веб-узлам не ограничивается из-за того, что протокол HTTP не дает возможности читать дополнительную информацию о контроле доступа. Кроме того, система MOSS 2007 не позволяет ограничить из соображений безопасности доступ к службам Business Data Catalog и поиску людей.
Система MOSS 2007 соблюдает существующие списки управления доступом (ACL), гарантируя безопасность документов в индексе. Это — основное отличие от многих других средств поиска. В отличие от некоторых поисковых систем, требующих использования файлов настройки для ручной установки разрешений, система MOSS 2007 позволяет использовать текущие разрешения.
Индекс способен быстро отражать изменения списка управления доступом конкретного документа. Скажем, у хранящейся в индексе электронной таблицы Excel список управления доступом изменился и стал ограничивающим. Администратор может выполнить обход содержимого и индексирование только для этого конкретного документа, и ограничения доступа мгновенно вступят в силу (и, если нужно, документ может быть вообще убран из индекса).
Более того, отдельным документам могут быть назначены индивидуальные разрешения, или же установлено наследование параметров разрешений библиотеки документов или родительского каталога. Это значительно упрощает процесс выбора групп или отдельных лиц, которым разрешено просматривать, редактировать и сохранять документы.
Кроме того, были усовершенствованы проверка подлинности и управление входом в систему. Защищенный кэш учетных данных выполнен расширяемым, что позволяет серверу MOSS принимать учетные данные сторонних систем единого входа и использовать созданные пользователями надстройки. Кроме того, система проверки подлинности может взаимодействовать со сторонними системами. Эти усовершенствования основаны на новой модели доступа ASP.NET, позволяющей использование служб других каталогов.
Настройка
Система MOSS 2007 содержит много возможностей видоизменения интерфейса пользователя. Он может быть модифицирован многочисленными средствами, уже используемыми для видоизменения веб-узлов. Появились и новые инструменты, такие как средство Office SharePoint Designer, позволяющее создавать страницы Master Pages (простой способ создать достойный веб-узел). На рис. 7 показана редактируемая страница результатов поиска.
Изначально интерфейс MOSS 2007 содержит две вкладки поиска Search Center: Все узлы (All Sites ) и Люди (People). Можно легко добавить дополнительные вкладки, отражающие различные типы информации, которую пользователи ищут чаще всего. Например, можно обеспечить прямой вход в корпоративные приложения, базы данных или даже службы каталогов. Можно даже связать эти вкладки с областями. Это удобно при создании вкладок контекстного поиска по конкретному содержимому. Обратите внимание, что в версиях только для поиска такая настройка вкладок поиска не поддерживается.
Заключение
Как видно, система MOSS 2007 предлагает несколько впечатляющих усовершенствований функциональности корпоративного поиска, способствующих более эффективной работе пользователей.
Автор: Мэтт Хестер (Matt Hester)
Иcточник: TechNet Magazine