LINEBURG


<< Пред. стр.

страница 16
(всего 19)

ОГЛАВЛЕНИЕ

След. стр. >>

Основные требования:
коды компонента представления и прикладного компонента сов­мещены и выполняются на компьютере-клиенте;
доступ к информационным ресурсам обеспечивается оператора­ми непроцедурного языка SQL.
Технология:
клиентский запрос направляется на сервер, где функционирую­щее ядро СУБД обрабатывает запрос и возвращает результат (блок данных) клиенту. Ядро СУБД выполняет пассивную роль;
инициатор манипуляций с данными — программы на компьюте­ре-клиенте.
Достоинства:
процессор сервера загружается операциями обработки данных;
уменьшается загрузка сети, так как передаются по сети запросы на языке SQL;
унификация интерфейса «клиент-сервер» в виде языка SQL; использование его в качестве стандарта общения клиента и сервера.
Недостатки:
удовлетворительное администрирование приложений в RDA-модели невозможно из-за совмещения в одной программе различ­ных по своей природе функций (представления и прикладные).
3. DBS-модель, — реализована в реляционных СУБД Informix,
Ingres, Oracle.
Основные требования:
основа модель-механизм хранимых процедур — средство про­граммирования SQL-сервера;
процедуры хранятся в словаре базы данных; разделяются между несколькими клиентами и выполняются на компьютере, где функ­ционирует SQL-сервер;
компонент представления выполняется на компьютере-клиенте, прикладной компонент и ядро СУБД — на компьютере-сервере базы данных.
Достоинства:
возможность централизованного администрирования; вместо SQL-запросов по сети передаются вызовы хранимых про­цедур, что ведет к снижению сетевого трафика. Недостатки:
в большинстве СУБД недостаточно возможностей для отладки и типизирования хранимых процедур;
ограниченность средств для написания хранимых процедур. На практике чаще используется разумный синтез RDA- и DBS-моделей для построения многопользовательских информационных систем.
4. AS-модель. Основные требования:
на компьютере-клиенте выполняется процесс, отвечающий за интерфейс с пользователем;
этот процесс, обращаясь за выполнением услуг к прикладному компоненту, играет роль клиента приложения (АС);
прикладной компонент реализован как группа процессов, вы­полняющих прикладные функции, и называется сервером приложе­ния (AS);
все операции над БД выполняются соответствующим компонен­том, для которого AS — клиент.
RDA- и DBS-модели имеют в основе двухзвенную схему разделе­ния функций. В RDA-модели прикладные функции отданы клиенту, в DBS-модели их реализация осуществляется через ядро СУБД. В RDA-модели прикладной компонент сливается с компонентом представле­ния, в DBS-модели — интегрируется в компонент доступа к ресурсам. В AS-модели реализована трехзвенная схема разделения функ­ций, где прикладной компонент выделен как важнейший изолиро­ванный элемент приложения, имеющий стандартизированные ин­терфейсы с двумя другими компонентами.
AS-модель является фундаментом для мониторов обработки транзакций.

19.6.2. Распределенные базы данных

СУБД и централизация обработки информации позволили уст­ранить такие недостатки традиционных файловых систем, как не­связанность, несогласованность и избыточность данных. По мере роста баз данных и особенно при их использовании в территориаль­но разделенных организациях появляются другие проблемы. Так, для централизованной СУБД, находящейся в узле телекоммуникацион­ной сети, с помощью которой различные подразделения организа­ции получают доступ к данным, с ростом объема информации и количества транзакций возникают следующие трудности:
большой поток обменов данными;
низкая надежность;
низкая общая производительность;
большие затраты на разработку.
Хотя в централизованной базе данных легче обеспечить безо­пасность, целостность и непротиворечивость информации при об­новлениях, перечисленные проблемы создают определенные труд­ности. В качестве возможного решения этих проблем предполагает­ся децентрализация данных. При децентрализации достигается:
более высокая степень одновременности обработки вследствие распределения нагрузки;
улучшенное использование данных на местах при выполнении удаленных (дистанционных) запросов;
меньшие затраты;
простота управления.
Затраты на создание сети, в узлах которой находятся малые ЭВМ, гораздо ниже, чем затраты на создание аналогичной системы с ис­пользованием большой ЭВМ.
Дадим следующее определение: распределенная база данных — это набор файлов (отношений), хранящихся в разных узлах инфор­мационной сети и логически связанных таким образом, чтобы со­ставлять единую совокупность данных (связь может быть функцио­нальной или через копии одного и того же файла).
Распределенная база данных предполагает хранение и выполне­ние функций управления данными в нескольких узлах и передачу данных между этими узлами в процессе выполнения запросов. Раз­биение данных в распределенной базе данных может достигаться путем хранения различных таблиц на разных компьютерах или даже хранения разных частей и фрагментов одной таблицы на разных компьютерах. Для пользователя (или прикладной программы) не должно иметь значение, каким образом распределены данные между компьютерами. Работать с распределенной базой данных, если она действительно распределенная, следует так же, как и с централизо­ванной, т.е. размещение базы данных должно быть прозрачно.
Несмотря на то что распределенная база данных состоит из не­скольких локальных баз данных, у пользователя должна сохраняться иллюзия работы с централизованной базой данных, что вызывает потребность в использовании некоторого общего представления о данных — глобальной концептуальной схемы. Определение данных в такой концептуальной схеме должно быть аналогичным определе­нию в централизованной базе данных.
Отличия начинаются, когда потребуется хранить данные в не­скольких узлах. Чтобы произвести разбиение данных, нужно секци­онировать таблицы глобальной схемы на фрагменты. Существует два типа секционирования: горизонтальное и вертикальное. При секци­онировании таблицы по строкам выполняется горизонтальное сек­ционирование, при разбиении по столбцам — вертикальное.
Таким образом, архитектура распределенной СУБД должна со­держать информацию о секционировании исходных таблиц базы данных, что предполагает создание дополнительного уровня - фрагментного.
Самый высший уровень архитектуры распределенной СУБД — это интерфейс прикладной программы и интерфейс процессора запросов.
Взгляд на базу данных отдельных пользователей представлен в архитектуре отдельным первым уровнем, что аналогично внешнему уровню в классической архитектуре СУБД.
Для реализации и объяснения распределенной природы базы данных выделяются два уровня: фрагментный (см. выше) и уровень распределенного представления. Последний показывает географичес­кое распределение данных по рабочим станциям, расположение эк­земпляра каждого фрагмента.
1-4 уровни архитектуры распределенной СУБД относятся к се­тевой СУБД.
Однако выделяют еще локальные СУБД, где определяют пред­ставление данных на каждой рабочей станции.
В заключение стоит заметить, что каждый уровень поддерживает различные представления базы данных; каждый уровень взаимодей­ствует только со смежными уровнями представления.
Дейт установил 12 свойств или качеств идеальной распределенной базы данных:
1. Локальная автономия (local autonomy).
2. Независимость узлов (no reliance.on central site),
3. Непрерывность операции {continuous operation).
4. Прозрачность расположения (location independence).
5. Прозрачная фрагментация (fragmentation independence).
6. Прозрачное тиражирование (replication independence).
7. Обработка распределенных запасов (distributed query processing).
8. Обработка распределенных транзакций (distributed transaction processing).
9. Независимость от оборудования (hardware independence).
10. Независимость от операционных систем (operationg system independence).
11. Прозрачность сети (network independence).
12. Независимость от баз данных (database independence).

Локальная автономия.
Это качество означает, что управление данными на каждом из узлов распределенной системы выполняется локально. База данных, расположенная на одном из узлов, является неотъемлемым компонентом распределенной системы. Будучи фраг­ментом общего пространства данных, она в то же время функциони­рует как полноценная локальная база данных; управление ею выпол­няется локально и независимо от других узлов системы.

Независимость от центрального узла.
В идеальной системе все узлы равноправны и независимы, а расположенные на них базы яв­ляются равноправными поставщиками данных в общее пространст­во данных. База данных на каждом из узлов самодостаточна - она включает полный собственный словарь данных и полностью защи­щена от несанкционированного доступа.

Непрерывные операции.
Это качество можно трактовать как возможность непрерывного доступа к данным (известное «24 часа в сутки, семь дней в неделю») в рамках DDB вне зависимости от их расположения и вне зависимости, от операций, выполняемых на локальных узлах. Это качество можно выразить лозунгом «дан­ные доступны всегда, а операции над ними выполняются непре­рывно».

Прозрачность расположения.
Это свойство означает полную про­зрачность расположения данных. Пользователь, обращающийся к DDB, ничего не должен знать о реальном, физическом размещении данных в узлах информационной системы. Все операции надданны­ми выполняются без учета их местонахождения. Транспортировка запросов к базам данных осуществляется встроенными системными средствами.

Прозрачная фрагментация.
'Это свойство трактуется как возмож­ность распределенного (т.е. на различных узлах) размещения дан­ных, логически представляющих собой единое целое. Существует фрагментация двух типов: горизонтальная и вертикальная. Первая означает хранение строк таблицы на различных узлах (фактически, хранение строк одной логической таблицы в нескольких идентич­ных физических таблицах на различных узлах). Вторая означает рас­пределение столбцов логической таблицы по нескольким узлам.

Прозрачность тиражирования.
Тиражирование данных - это асинхронный (в общем случае) процесс переноса изменений объек­тов исходной базы данных в базы, расположенные на других узлах распределенной системы. Данное свойство означает, что тиражиро­вание возможно и достигается внутрисистемными средствами.

Обработка распределенных запросов.
Это свойство DDB тракту­ется как возможность выполнения операций выборки над распреде­ленной базой данных, сформулированных в рамках обычного запроса на языке SQL.

Обработка распределенных транзакций.
Это качество DDB мож­но трактовать как возможность выполнения операций обновления распределенной базы данных (INSERT, UPDATE, DELETE), не раз­рушающее целостность и согласованность данных. Эта цель достига­ется применением двухфазового или двухфазного протокола фикса­ции транзакций (two-phase commit protocol), ставшего фактическим стандартом обработки распределенных транзакций. Его применение гарантирует согласованное изменение данных на нескольких узлах в рамках распределенной (или, как ее еще называют, глобальной) транзакции.

.Независимость от оборудования.
Это свойство означает, что в качестве узлов распределенной системы могут выступать компьюте­ры любых моделей и производителей — от мэйнфреймов до «персоналок».

Независимость от операционных систем.
Это качество вытекает из предыдущего и означает многообразие операционных систем, управляющих узлами распределенной системы.
Прозрачность сети.
Доступ к любым базам данных осуществля­ется по сети. Спектр поддерживаемых конкретной СУБД сетевых протоколов не должен быть ограничением системы с распределен­ными базами данных. Данное качество формулируется максимально широко •- в распределенной системе возможны любые сетевые про­токолы.

Независимость от баз данных.
Это качество означает, что в рас­пределенной системе могут мирно сосуществовать СУБД различных
производителей и возможны операции поиска и обновления в базах данных различных моделей и форматов.
Исходя из определения Дэйта СУБД в общем случае можно рас­сматривать как слабосвязанную сетевую структуру, узлы которой пред­ставляют собой локальные базы данных. Локальные базы данных авто­номны, независимы и самоопределены; доступ к ним обеспечивается от различных поставщиков. Связи между узлами — это потоки тиражи­руемых данных. Топология DDB варьирует в широком диапазоне — воз­можны варианты иерархии, структур типа «звезда» и т.д. В целом топо­логия DDB определяется географией информационной системы и на­правленностью потоков тиражирования данных.
Рассмотрим теперь проблемы реальных распределенных баз дан­ных (проблемы централизованных СУБД существуют и здесь, одна­ко децентрализация добавляет новые):
1. Какова общая модель данных распределенной системы? Мы должны иметь единую концептуальную схему всей сети. Это обеспе­чит логическую прозрачность данных для пользователя, в результате чего он сможет формировать запрос ко всей базе, находясь за от­дельным терминалом (т.е. как бы работая с централизованной базой данных).
2. Необходима схема, определяющая местонахождения данных в сети. Это обеспечит прозрачность размещения данных, благодаря ко­торой пользователь может не указывать, куда переслать запрос, что­бы получить требуемые данные.
3. Распределенные базы данных могут быть однородными или неоднородными в смысле аппаратных и программных средств (СУБД). Проблему неоднородности сравнительно легко решить, если распределенная база является неоднородной в смысле аппаратных средств, но однородной в смысле программных средств (одинаковые СУБД в узлах). Если же в узлах распределенной системы использу­ются разные СУБД, необходимы средства преобразования структур данных и языков. Это должно обеспечить прозрачность преобразова­ния в узлах распределенной базы данных.
4. Управление словарями. Для обеспечения всех видов прозрач­ности в распределенной базе данных нужны программы, управляю­щие многочисленными справочниками или словарями.
5. Методы выполнения запросов в распределенной базе данных отличаются от аналогичных методов централизованных СУБД, так как отдельные части запроса нужно выполнять на месте расположе­ния соответствующих данных и передавать частичные результаты на другие узлы; при этом должна быть обеспечена координация всех процессов.
6. В распределенной базе данных нужен сложный механизм уп­равления одновременной обработкой, который, в частности, должен обеспечивать синхронизацию при обновлениях информации, что гарантирует непротиворечивость данных.
7. Развитая методология распределения и размещения данных, включая расщепление, является одним из основных требований к распределенной базе данных.

19.7. Системы управления базами данных
следующего поколения

Будучи основным фундаментальным средством построения ин­формационных систем, используемых в производстве, бизнесе и . научной деятельности, базы данных и системы управления ими со­ставляют обширную область исследований. Ниже дадим обзор наи­более важных направлений исследований.
Несмотря на то что реляционные СУБД давно и прочно заняли основные позиции на рынке программного обеспечения по обработ­ке данных, в этой области остается много нерешенных проблем. Во-первых, это касается нового стандарта языка SQL-3, возможности которого должны быть расширены за счет включения в него возмож­ности определения триггеров, работы с объектами, расширения ти­пов данных. Во-вторых, движение в сторону концепции открытых систем предполагает пересмотр организации серверов баз данных, допустив в них внутреннюю параллельность. В третьих, решение проблемы использования старых баз данных в рамках новых про­граммных продуктов.
Значительное число разработок замечено в области постреля­ционных баз данных. Отметим следующие пути решения в этой области: во-первых, базы данных сложных объектов (реляционная модель с отказом от первой нормальной формы), нашедшие при­менение в нетрадиционных приложениях, требующих операций со сложно структурированными объектами; во-вторых, разработка ак­тивных баз данных, для которых СУБД выполняет не только ука­занные пользователем действия, но и дополнительные действия в соответствии с правилами, заложенными в саму базу данных; в-третьих, темпоральные базы данных как надстройка над реля­ционной базой данных, позволяющие поддерживать исторические данные системы; в-четвертых, интегрированные системы, обеспе­чивающие решение задачи интеграции неоднородных баз данных в единую глобальную систему.
Отдельный раздел в СУБД следующего поколения занимают объектно-ориентированные базы данных. Возникновение данного направления определяется потребностями практики: необходимос­тью разработки сложных информационных систем, для которых тех­нология предшествующих баз данных не была удовлетворительной. В таких СУБД должны быть решены проблемы поддержки иерархии и наследования типов, возможность управления сложными объекта­ми. Однако для решения этих задач существуют значительные огра­ничения, а именно: отсутствие общепринятой объектно-ориентиро­ванной модели данных, декларативного языка запросов и т.п. Разра­ботчики в области баз данных определяют объектно-реляционным и объектно-ориентированным базам данных значительное место на рынке в ближайшее десятилетие.
Распределенные базы данных представляют еще одно измере­ние в пространстве разработок систем управления базами данных: применение протоколов синхронизации транзакций, сокращение расходов на пересылку данных между узлами вычислительной сети в ходе выполнения распределенного запроса посредством репли­кации данных — далеко не все возможные проблемы в данной области.

Литература к главе 19

1. Системы управления базами данных и знаний/ Под ред. А.Н. Наумова. — М., Финансы и статистика, 1991.
2. Дейт К. Введение в системы баз данных. - М., Мир, 1980. — 463 с.
3. Джексон Г. Проектирование реляционных баз данных с ис­пользованием микроЭВМ. - М., Мир, 1991. - 252 с.
4. Диго С.М. Проектирование баз данных. — М., Финансы и статистика, 1988. — 216 с.
5. Иванов Ю.Н. Теория информационных объектов и системы управления базами данных. — М., Наука, 1988. — 232 с.
6. Информационные системы в экономике: Учебник / Под.ред. проф.В.В.Дика. — М., Финансы и статистика, 1996. — 272 с.
7. Кагаловский М.Р. Технология баз данных на персональных ЭВМ. — М., Финансы и статистика, 1992.
8. Мартин Д. Базы данных: практические методы. — М., Радио и связь, 1983
9. МейерД. Теория реляционных баз данных. — М., Мир, 1987. -608 с.
10.Тиори Т.,Фрай Дж. Проектирование структур баз данных. М., МИР 1985.-28с

11. Ульман Дж. Основы систем баз данных. - М., Финансы и статистика, 1983.
12. Хаббард Дж. Автоматизированное проектирование баз данных М.,Мир, 1984-296 с.
13. Цикритзис Д., Лоховский Ф. Модели данных. - М., Финансы и статистика, 1985. — 344 с.


Глава 20 КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ ОРГАНИЗАЦИИ ХРАНЕНИЯ И ПОИСКА ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИИ

Цель документального поиска — нахождение и выдача соот­ветствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются реле­вантными.
Понятие «документ» в рамках информационных технологий трактуется несколько шире, нежели в традиционном документоведении. В соответствии с Оксфордским словарем «документ - это текст или изображение, имеющее информационное значение».
Традиционно информационно-поисковые системы (ИПС) при­меняются для тематического поиска научно-технической информа­ции в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.
В настоящее время в связи с возрастанием объема документаль­ной информации, необходимой для принятия эффективного управ­ленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информацион­но-поисковые системы стали широко использоваться в различных сферах экономики.
По оценкам американских экспертов (фирма Delphi Consulting), в США ежедневно генерируется более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. документов, причем поток дело­вой информации чрезвычайно разнообразен по видам ее представле­ния. Можно выделить три основных составляющих деловой информа­ции. Поданным вышеназванной фирмы, 12% информации — структу­рировано, представлено в электронной форме, хранится и управляется с помощью систем управления базами данных. Примерно 15% инфор­мации представляет собой неструктурированные данные в электрон­ной форме, как правило, это текстовая информация. Для автоматиза­ции хранения и поиска такой информации используются технологии информационно-поисковых систем. И оставшиеся около 73% инфор­мации традиционно хранятся на бумаге. Организация быстрого и эф­фективного поиска такой документальной информации становится все более неразрешимой проблемой.
Таким образом, сфера приложения для технологий информаци­онно-поисковых систем представляется достаточно широкой.
Примерами документальной информации, для которой эффек­тивно автоматизированное хранение и поиск, могут служить: зако­ны, постановления, комментарии к нормативным актам, тексты кон­трактов, переписка с клиентами и партнерами, проекты, стенограм­мы переговоров, приказы, распоряжения, письма, отчеты, планы, программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты, периодические и специаль­ные печатные издания, каталоги фирм, рекламные издания, спра­вочники и другие документы.
При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.
Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла или строку в электрон­ной таблице. В этом случае поиск документа .сводится к поиску структурированной информации средствами СУБД или табличного процессора.
Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Этому подходу, соответствующему тради­ционному пониманию документального поиска, и посвящена дан­ная глава.
Эффективность документального поиска оценивают на основе по­казателей полноты и точности. Полнота поиска определяется как отно­шение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных до­кументов в выдаче к общему числу выданных документов.
Автоматизированный документальный поиск может быть орга­низован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска до­кументов по гипертекстовым ссылкам.
Технология полнотекстового поиска является неотъемлемой со­ставляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet, На тех­нологии гипертекста базируется самый известный сервис Internet — World Wide Web (WWW).

20.1.Документальные информационно -поисковые
системы

В документальных информационно-поисковых системах — ДИПС (их также называют библиографическими) поиск доку­мента происходит по краткому формализованному описанию его содержания — так называемому поисковому образу документа (ПОД).
Одновременно с появлением первых библиотек и архивов воз­никли и проблемы разработки методов поиска и хранения докумен­тальной информации. Основная идея этих методов состояла в том, что центральная тема произведения выражалась в виде краткого тек­ста. В простейшем случае функцию такого краткого текста выполня­ло заглавие произведения, в качестве которого в самом начале ис­пользовалась первая фраза текста. Это освобождало пользователя (библиотекаря) от необходимости просматривать весь текст докумен­та, что значительно повышало, скорость поиска.
Хотя основы методологии ДИПС разработаны достаточно давно, в 50-х — 60-х гг., эта технология и в настоящее время успешно применяет­ся при организации как ручного, так и автоматизированного поиска документов.
Важнейшей структурной составляющей является информацион­но-поисковый язык.
Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) — искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ — установить принадлежность того или иного до­кумента к определенной группе понятий. Перевод текстов докумен­тов и запросов на ИПЯ называется индексированием. В результате индексирования содержание документа отображается в ПОД, а со­держание запроса — в поисковое предписание (ПП). Индексирова­ние может быть ручным (когда его производит человек) или автома­тическим.
К настоящему времени разработан ряд ИПЯ, носящих как об­щеотраслевой,- так и специальный характер. Например - Универ­сальная десятичная классификация (УДК); классификаторы доку­ментов, отраслевые дескрипторные языки. Однако разработка
ИПС для управленческих документов, как правило, требует раз­работки собственного ИПЯ, адекватного данной предметной об­ласти.

20.2. Информационно-поисковые языки

Для общения человека с компьютером разрабатываются спе­циальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального пред­варительного преобразования. В естественном языке присутству­ют: синонимия, омонимия и полисемия, избыточность, субъек­тивность и другие свойства, препятствующие его автоматизиро­ванной обработке.
-Синонимы — слова, различающиеся по написанию, но совпада­ющие по смыслу (Россия, РФ, Российская Федерация).
Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — теле­графный, поисковый, к замку, к шкафу и т.д.).
Полисемия — наличие у одного и того же слова нескольких раз­ных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).
Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.
Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языка­ми.
ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кирил­лица; цифры; пунктуационные знаки.
Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лекси­ческая единица — слово или семантически неделимое словосочета­ние, выражающее какое-либо понятие.
Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.
Морфология — правила построения и изменения слов. Синтак­сис — правила построения и изменения соединения слов (построе­ние фраз).
Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отноше­ния можно разделить на парадигматические и синтагматические.
Парадигматические отношения - логические отношения, суще­ствующие между лексическими единицами ИПЯ независимо от кон­текста, в котором эти лексические единицы употребляются. Эти от­ношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Приме­ры парадигматических отношений: часть — целое ( отдел — органи­зация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических от­ношений необходим для правильного выбора и точного употребле­ния слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске норматив­ных документов, касающихся термина «акция», для увеличения пол­ноты поиска возможно указание термина «ценная бумага».
Синтагматические отношения — отношения слов при соедине­нии их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и пред­ложения. Для уточнения .смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматиче­ских отношениях эти слова находятся. Так, фраза «защита окружаю­щей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.
Таким образом, развитый ИПЯ должен обладать средствами ото­бражения парадигматических и синтагматических отношений.
Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.
Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.
Можно указать следующие требования, которым должен удовле­творять семантически развитый ИПЯ:
располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;
не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;
отображать только объективные характеристики предметов и отношений между ними;
быть удобным для алгоритмического сопоставления (отождеств­ления) поискового образа документа (ПОД) и поискового предписа­ния (ПП).
Как правило, чем больше семантическая сила ИПЯ, тем труднее
с ним работать.
Наиболее часто в качестве основания деления при классифика­ции ИПЯ используют способ организации понятий.
По способу организации понятий различают:
предкоординируемые (классификационные) ИПЯ;
посткоординируемые (дескрипторные) ИПЯ.
Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав зада­ется в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования докумен­тов, т.е. при создании языка.
Словарный состав предкоординируемых языков напоминает дву­язычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексичес­кими единицами этого языка, т.е. классификация документа.
Посткоординируемые (дескрипторные языки) основаны на ме­тоде координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.
Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информа­ционного запроса представляется в виде сочетания ключевых слов или дескрипторов.
Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назыв­ной функцией. Назывные слова - слова, обозначающие вещи, явле­ния, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

20.2.1. Классификационные информационно-поисковые
языки

К классификационным языкам относят:
информационно-поисковый язык иерархического типа;
информационно-поисковый язык фасетного типа;
алфавитно-предметную классификацию.
Иерархическая классификация — это перечислительная класси­фикация (т.е. все возможные классы заранее перечислены), в кото­рой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих поня­тий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования.
В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все воз­можные классы должны быть заранее перечислены, поэтому иерар­хическую классификацию и называют перечислительной.
Процедура построения ИПЯ иерархического типа включает сле­дующие этапы.
1. Анализ предметной области, определение оснований деления (признаков классификации). В качестве признаков класификации выбирают такие, по которым имеет смысл производить поиск доку­ментов в данной предметной области.
2. Установление соподчиненное™ признаков. Соподчиненность может быть естественной или установленной.
3. Формирование классов документов на основе выбранных при­знаков классификации. Получение иерархического дерева классов.
4. Формирование индексов каждого класса.
5. Составление классификационных таблиц и алфавитного указателя.
В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе - по алфавиту.
Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса.
Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменя­ется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в органи­зации, имеющей стабильную структуру.
ИПЯ фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно за­данных категориальных классов — фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фа-сетной формуле составляется индекс.
Процедура разработки ИПЯ фасетного типа состоит из следую­щих этапов.
1. Анализ предметной области, для которой составляется клас­сификация. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д.
2. Все возможные простые классы группируются по фасетам. Каждый простой класс фасета называется фокусом.
3. Обозначение соответствующими шифрами фасетов и фокусов.
4. Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).
5. Составление алфавитного указателя фасет и фокусов.
Преимущество ИПЯ фасетного типа по сравнению с ИПЯ ие­рархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее вы­бранных характеристик объектов классификации.
На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК — универсальная деся­тичная классификация.
Алфавитно-предметная классификация — система классов, каж­дый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.
Основной словарный состав (лексика) ИПЯ состоит из упорядо­ченных по алфавиту множества слов, словосочетаний и фраз ЕЯ.
Алфавитно-предметная классификация содержит:
предметный заголовок — слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;
предметный словник (лексический состав языка) — упорядочен­ное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;
предметную рубрику — совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обо­значается этим предметным заголовком.
Алфавитно-предметная классификация предназначена для по­строения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библио­графическое описание) документов, предмет которых обозначен дан­ным заголовком.
Порядок составления алфавитно-предметной классификации.
1. Анализ предметной области и выбор тем классификации.
2. Устранение синонимии слов, словосочетаний и фраз, исполь­зуемых в качестве предметнрго заголовка. В случае синонимии мож­но использовать систему ссылок.
3. Выделение основных, ведущих слов в словосочетаниях и фра­зах, используемых в качестве предметных заголовков.
Обозначение парадигматических связей между названиями пред­метов и тем. Эти связи обозначаются с помощью ссылок.
Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к катало­гам документов.
Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любо­му, заранее не заданному сочетанию признаков.

20.2.2. Дескрипторные информационно-поисковые языки

Дескрипторные языки семантически более сильны, чем класси­фикационные, но более сложны для формальной обработки.
Дескриптор — ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как пра­вило, в качестве дескриптора выбирают — одно, наиболее употреби­мое ключевое слово из класса синонимичных ключевых слов.
Внешне координатное индексирование напоминает алфавитно-предметную классификацию. В обоих случаях классы обозначаются словами и словосочетаниями ЕЯ. Однако это сходство чисто внеш­нее. При отыскании документов при координатном индексировании производятся определенные логические операции над классами, обо­значенными этими ключевыми словами. Для алфавитно-предметного индексирования тоже может быть применено несколько предмет­ных заголовков. Но при информационном поиске каждый предмет­ный заголовок выступает самостоятельно без какой-либо связи с другими заголовками, т.е. можно пользоваться только заранее опи­санными классами. При координатном индексировании классы фор­мируются в процессе индексирования.
При координатном индексировании поисковое предписание формулируется в виде логических сумм (или), произведений (и) или дополнений (не) классов, соответствующих ключевым словам поис­кового предписания (чаще всего это произведение).
Для отыскания документов, отвечающих на запрос, необходимо выполнить определенные логические операции над классами, кото­рые обозначены ключевыми словами ПОД.
В простейшем случае, когда поисковое предписание сформули­ровано в виде логического произведения некоторого множества клю­чевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в ПОД одновременно содержатся все ключевые слова поискового предписания.
Разработка дескрипторного языка фактически сводится к разра­ботке информационно-поискового тезауруса.

20.3. Информационно-поисковый тезаурус

Возможно два способа расположения слов в словарях: по близо­сти их буквенного состава и по смысловой близости.
По первому способу создаются алфавитные словари. По второму способу — тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выра­жения данного понятия. Т.е., если в обычном словаре по слову ищет­ся его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.
Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой ин­формации: переводчики, редакторы, научные работники, референты и др.
Информационно-поисковые тезаурусы используются при индек­сировании документов и запросов.
Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.
При безтезаурусном индексировании ПОД представляется в виде списка ключевых слов, выбранных непосредственно из текста доку­мента. Такое индексирование требует меньше времени и менее тру­доемко. Однако такой режим индексирования обладает рядом недо­статков: возможна синонимия; нельзя отразить парадигматические отношения.
При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только де­скрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.
Таким образом, информационно-поисковые тезаурусы исполь­зуются для:
перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исклю­чается многозначность;
отображения парадигматических связей между дескрипторами.
Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.
. Как правило, тезаурус состоит из введения, алфавитного указа­теля (словарная часть) и систематического указателя.
Введение содержит общие характеристики тезауруса — область применения, правила использования, число дескрипторов, ключе­вых слов и другую справочную информацию.
Алфавитный указатель включает алфавитный перечень дескрип-торных статей.
Дескрипторная статья может иметь следующую структуру:
заглавный дескриптор;
ключевые слова из класса эквивалентности;
дескрипторы, подчиняющие заглавный;
дескрипторы, подчиненные заглавному;
дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; про­цесс - объект; процесс - субъект; свойство — носитель свойства, функциональное сходство и др.
Систематический указатель служит для раскрытия, учета и кон­троля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть найдены соответствующие родовые и видовые дескрипторы. Причем предварительно необходи­мо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отноше­ний зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновремен­но происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.
Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслужи­вания конкретной информационно-поисковой системы.
Построение тезауруса состоит из нескольких взаимосвязанных этапов.
Первый этап - формирование словника.. Словник — первона­чальные множества ключевых слов. При этом рассматривается пред­ставительный массив наиболее информативных для данной предмет­ной области документов. Например: реферативные журналы, слова­ри, учебники, справочники, нормативные документы и т.д. Выбира­ются слова, употребляемые в этих источниках, при этом устанавли­вается частота употребления слов и учитываются все формы, кото­рые могут иметь слова.
Второй этап - формирование множества ключевых слов. Из словника формируется множество ключевых слов. При отборе клю­чевых слов учитывается информативность слова, которая определя-ется исходя из частоты встречаемости слова, роли слова в данной предметной области. Процесс выбора ключевых слов достаточно сложно формализовать. Например, такой критерий, как частота встречаемости не может быть абсолютным. Если слово встречается в текстах очень часто, это может означать, что оно выражает чрезмер­но широкое понятие, либо недостаточно четко определено, т.е. не­информативно. Если ключевое слово встречается очень редко, это может означать, что оно выражает новое понятие и таким образом является информативным.
Третий этап - формирование классов эквивалентности. Выделе­ние дескрипторов.
Класс эквивалентности — это группа терминов, равнозначных по смыслу .в пределах сферы действия данной системы. Одно из слов класса эквивалентности объявляется дескриптором (как правило, наиболее употребимое). Все слова, включенные в класс эквивалент­ности, объявляются условными синонимами (условными — так как они равнозначны в пределах данной предметной области,>а в ЕЯ эти слова могут не являться синонимами).
Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т.е. если данное слово при поиске документа может быть заменено дру­гим словом, так, что на любой запрос выдача документов будет та­кой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности. Ключе­вые слова, относящиеся к одному классу эквивалентности, помеща­ются в соответствующую дескрипторную статью и помечаются сим­волом «с».
В процессе построения тезауруса и выделения множества дес­крипторов происходит устранение синонимии, омонимии, полисе­мии ключевых слов, а также выявление парадигматических связей между дескрипторами.
В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.
Для устранения многозначности (омонимии и полисемии) клю­чевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.
Разработка тезауруса без использования компьютерных техноло­гий — достаточно длительный и трудоемкий процесс.
Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной обла­сти. Результаты такой обработки обычно представляются в виде ма­трицы «документ-термин», (см. рис. 20.1). Элемент матрицы на пе­ресечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подо­бия между словами, определяемые в зависимости от частоты, с кото­рой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.
Документы
Частота слова в документе







1
2
3
4
5
6
7
D1







D2







D3







D4







Рис. 20.1. Пример матрицы «термин-документ»

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования доку­ментов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (сино­нимии), отношение подчинения и ассоциативные отношения.
В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают состав­ной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки тек­стов на естественном языке.
Среди наиболее перспективных направлений развития автома­тических тезаурусов можно указать следующие.
Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответ­ствующий фрагмент словаря, содержащий лингвистическую инфор­мацию о данном слове. Например, автоматический тезаурус получа­ет от пользователя некоторое существительное и в ответ выдает со­вокупность устойчиво сочетающихся с ним глаголов или все наибо­лее часто сопровождающие его определения. При этом автоматиче­ски выполняется процедура нормализации входного слова (т.е. при­ведение существительного к именительному падежу).
Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматиче­ски переоформляет параметры слов (например, род прилагательно­го) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.
Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может исполь­зоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих из общего стиля документа.

20.4. Полнотекстовые базы данных и средства
формирования запросов в них

В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки.
Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большин­стве созданных до 90-х гг. системах автоматического документного поиска.
В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структуриро­вании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми.
В настоящее время в автоматизированных современных систе­мах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили на­звание - полнотекстовые базы данных (full-text system) или тексто­вые базы данных.
Полнотекстовые базы данных используются для хранения и по­иска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной докумен­тации.
В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информа­ционных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.
Во всех системах для поиска по сочетанию терминов использу­ются логические функции AND (И), OR (ИЛИ), NOT (HE), соеди­няющие ключевые слова информационного запроса. Для иллюстра­ции процесса выполнения запроса с использованием логических функций рассмотрим следующий пример.
Задано множество документов (Dl, D2, D3, D4, D5, D6, D7, D8, D9}, содержащих слова {SI, S2, S3, S4, S5, 86} таким обра­зом, что S1 входит в текст документов D2,D3,D7,D8, S2 входит в текст документов Dl, D7, D9, S3 входит в текст документов D1, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5 входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.
В этом случае:
Запросу SI AND S2 будут соответствовать множество докумен­тов, являющихся результатом логического умножения множеств до­кументов, содержащих слова S1 и.82, т.е.:
SI AND S2 соответствует {D2, D3, D7, D8}x{Dl, D7, D9} = D7
Запросу S3 OR S5 будет соответствовать множество документов, являющееся результатом операции логического сложения множеств документов, содержащих слова S3 и S5, т.е.:
52 OR S5 соответствует {Dl, D7, D9} + {D2, D5, D7, D9} = {D1, D2, D5, D7, 09}
Запросу S3 NOT S6 будет соответствовать множество докумен­тов, содержащих слово S3, но не содержащих слово S6, т.е.:
53 NOT S6 соответствует
{Dl, D2, 03, D4, D5, Об, D8, D9} - {D4} = {Dl, D2, D3, D5, D6, D7, D8, 09}
Режимы применения логических функций могут быть различ­ными. Например, В И ПС Агама в запросе, состоящей из фразы «на­логи на малое предприятие» уже подразумевается, что слова запроса соединены оператором «И». Оператор «ИЛИ» указывается явно и имеет больший приоритет, чем «И».
В ИПС Евфрат все операторы указываются в явном виде, а функ­ция NOT обозначена словом «КРОМЕ».
Некоторые средства формирования запроса допускают вложен­ные запросы и позволяют структурировать их, задавая порядок вы­полнения. Обычно с этой целью применяют круглые скобки. Логи­ческие операторы, заключенные в скобки, имеют приоритет при об­работке. Например, для вышеописанного случая, запрос:
52 AND S4 OR (S6 OR (S3 NOT S3)) будет выполняться в следу­ющем порядке:
53 NOT S5 = {01,02,03,D4,D5,D6,D8,D9}-{D2,D5,D7,D9}= ={D1,03,04,06,08}
S6OR(S3NOTS5)={D4}+{D1,D3,D4,D6,D8}={D1,D3,D4,D6,D8} S2 AND S4={D1,D7,D8}*{05,06,07,08,D9}={07,08} {D7,D8} + {D1,D3,D4,D6,D8} = {D1,D3,D4,D6,D7,D8} При формировании запросов в полнотекстовых базах данных желательно учитывать не только логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные средства. Например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по образцу.
Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Как правило, для представления несущественного символа используют знак «?», а для представления ряда несущественных символов используют знак «*». Например, выражение «налог?» может соответствовать словам «на­логи», «налогу», «налога», «налог», а выражение «налог*» может со­ответствовать словам «налогам», «налогообложение», «налоговая» и т.п. В ИПС Евфрат для осуществления этой операции введен оператор «по началу». В некоторых системах эта операция производится автоматически.
Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного — к именительному падежу единственного числа.
Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются раз­витием функции «И». Формы представления операторов контекст­ного поиска существенно различаются, причем во многих ИПС их нет вообще.
В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса.
В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: «в одном абзаце», «в одном предложении», «рядом друг с другом», «рядом друг за другом в указанном порядке».
Может быть предложен следующий вариант операторов контек­стного поиска. Оператор W обозначает слова, стоящие рядом; опера­тор nW — слова, разделенные не более п символами, стоящие в за­данном порядке; оператор nN — слова, разделенные не более п сим­волами, стоящие в произвольном порядке; оператор S — слава, сто­ящие в одном параграфе; оператор TITLE указывает, что слово долж­но находиться в заголовке.
В поисковых системах сети Internet в качестве инструмента опе­ратора контекстного поиска чаще всего используется оператор NEAR.
Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном докумен­те ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых систе­мах сети Internet (Excite, Open Text, WebGrawler).
При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной систе­ме является наличие удобного и понятного интерфейса, обеспечива­ющего диалог с пользователем.
Во многих современных ИПС существует возможность форму­лировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих систе­мах, в которых базовым языком общения является английский, на­пример запрос на обычном английском языке обрабатывают следу­ющие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо слож­нее английского, так как менее структурирован, имеет более слож­ную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.

20.5. Автоматическое индексирование
документальной информации

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автомати­ческой обработки (индекс документа).
Различают ручное и автоматическое индексирование. При руч­ном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрип­торов. Преимущество ручного индексирования состоит в его ка­честве, недостатком является низкая производительность и, сле­довательно, высокая стоимость. Кроме того, при ручном ин­дексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может по­лучить различные индексы.
При автоматическом индексировании (АИ) индексирование осу­ществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача авто­матического индексирования состоит в распознавании в словофор­ме соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.
Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежно­сти словоформы слову.
Задачами морфологического анализа текста являются: выделе­ние из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результа­те морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.
Для анализа текста в системах АИ используются различные ав­томатические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания сло­воформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Счи­тается, что и развитом языке насчитывается десятки миллионов по­нятий, а слов - около миллиона. Поэтому большая часть понятий выражена комбинациями слов.
Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отно­шениях между словами.
В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразова­ния слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.
Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя предста­вить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отно­шениях между словами. Поэтому для более полного и точного рас­познавания смысла текста в развитых системах АИ помимо морфо­логического анализа осуществляется и автоматический синтаксиче­ский анализ текста.
Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Осно­вой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.
Результаты синтаксического анализа текста обычно представля­ются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.
В начале 90-х гг. появились другие, альтернативные техноло­гии автоматического индексирования текста. Например, техноло­гия «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, кото­рый является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии яв­ляется значительное увеличение скорости индексирования и по­иска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия се­мантического анализа текста, который особенно важен в случае русского языка.
Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% сло­воупотреблений приходится на 20% слов.
В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки ин­формативности лексических единиц, составляющих текст. Счита­ется, что как очень редкие, так и очень часто встречаемые терми­ны не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.
При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в доку­мент; общее число вхождения слова в документы, относительная частота вхождения слова в документ

<< Пред. стр.

страница 16
(всего 19)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign