LINEBURG


<< Пред. стр.

страница 17
(всего 19)

ОГЛАВЛЕНИЕ

След. стр. >>

Статистические методы удобны тем, что позволяют автомати­чески, посредством достаточно простых операций, получить све­дения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда при­водит к адекватным результатам. Например, удаление часто встре­чающихся терминов уменьшает полноту, а удаление редко встре­чающихся терминов снижает точность поиска. Поэтому статисти­ческие методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.
В современных информационно-поисковых системах часто пре­дусмотрено и ручное и автоматическое индексирование.

20.6. Структуры информационно-поисковых
массивов в ИПС

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован раз­личными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами - номерами доку­ментов в поисковом массиве. Поиск осуществляется по второй части ИПМ.
В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содер­жащих информацию о тексте документа (индексах).
В ИПС используют две принципиальные схемы информацион­ного массива — прямую и инверсную.
При прямой организации каждому документу соответствует пе­речень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой ор­ганизации для примера, приведенного в подразделе 20.4, будет вы­глядеть следующим образом (см. рис. 20.2).
При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.
Недостатком прямой организации поиска является необходи­мость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

Адрес документа
Ключевые слова
D1
S2, S3
D2
S1, S3, S5
D3
S1, S3
D4
S3, S6
D5
S3, S4, S5
D6
S3, S4
D7
S1, S2, S4, S5
D8
S1, S3
D9
S2, S3, S4, S5
Рис. 20.2. Прямая схема организации информационного массива

Инверсный способ организации поискового массива предусмат­ривает создание инвертированной матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом) (см. рис. 20.3).


Слова
Адреса документов

S1
D2, D3, 07, D8

S2
D1, 02, D3, D4, D5, D6, D8,D9
09
S3
D1, D2, D3. D4, D5, Dб, 08,D9
09
S4
D5, D6, D7, D8, D9

S5
D2, D5, D7, D9

S6
D4

Рис. 20.3. Инверсная схема организации информационного массива

Простой индекс можно представить как бинарное отношение I(v,a), в котором «v» - слово, взятое из текста, «а» - список адресов документов, содержащих это слово. Каждый кортеж инвертирован­ного индекса называется инвертированным списком.
Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровожда­ются перечислением номеров страниц, на которых они встречаются.
Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса/Таким образом, отпадает необходимость в последовательном просмотре всего инфор­мационного массива и значительно сокращается время поиска.
При индексировании (инвертировании) текста документа воз­можны различные варианты.
В случае частичного инвертирования в индекс включают инфор­мативные ключевые слова, т.е. формируется поисковый образ доку­мента.
При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в индекс.
В случае неполного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В каче­стве незначимых слов выступают союзы, предлоги и прочие служеб­ные части речи.
При инвертировании всех значащих слов текста документов, файлы инвертированных матричных индексов могут достигать ги­гантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матри­цу добавляются лишь указатели на новые документы.
При решении задач организации эффективного доступа к дан­ным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индекс­ных структур состоит в использовании В-деревьев, листьями кото­рых являются ссылки на документы.
Списки адресов {а} в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации эффективного доступа к дан­ным индекс может храниться, например, в трех разных файлах, свя­занных указателями. Первый файл — индексный файл состоит из полей: слово; указатели пересылок. Второй файл - пересылок, со­стоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.
В инвертированных матричных индексах может также храниться дополнительная информация. Например, данные о месте вхождения термина, статистические данные о термине, слова, связанные пара­дигматическими отношениями с данным термином, и др.
Информация о месте вхождения термина это — зона, абзац, пред­ложение и номер слова в предложении. Эти данные могут указы­ваться для каждого вхождения термина в документ и для каждого документа, содержащего данный термин. Данные о положении сло­ва используются для реализации некоторых видов контекстного по­иска.
В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть число вхождений термина в доку­мент. Частота документа есть число документов, содержащих дан­ный термин. Данные о частоте встречаемости используются в раз­личных схемах поиска, основанных на весах или рангах терминов.
Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит автоматическое связывание инверти­рованных списков всех терминов, синонимичных указанному в за­просе. Это значительно повышает полноту поиска.
В дополнение к прямой и инвертированной схемам в ИПС ис­пользуется так называемый атрибутный индекс. Он позволяет хра­нить данные о документе, не содержащиеся непосредственно в его тексте. Например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекать­ся из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту пред­ставления структурированной информации — т.е. это таблица с зара­нее заданными полями. На рис. 20.4 представлен пример организа­ции поискового файла — атрибутного индекса, в котором все доку­менты характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, назва­ние. Поиск по атрибутному индексу осуществляется средствами об­работки запросов СУБД — выдаются только те документы, значе­ния атрибутов которых удовлетворяют условиям запроса.
Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно мень­ше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

Автор
Вид документа
Дата издания
Название
Правительство РФ
Постановление №1172
7.11.96
Об утверждении Положения о порядке контроля за вывозом из РФ товаров и технологий двойного назначения, экспорт которых контролируется
Центральный банк РФ
Приказ
№ 02-368
27.09.97
О введении в действие Инструк­ции № 49 «0 порядке регистра­ции кредитных организаций и лицензирования банковской деятельности»
ГТКРФ
Письмо
№ 01-14/1104
1.10.96
0 применении Положения о таможенном перевозчике
Рис. 20.4. Пример атрибутного индекса

В современных ИПС реализованы как атрибутное индексирова­ние, так и инвертированное матричное. Это позволяет, например, отыскать все документы, созданные за определенный период време­ни, и при этом содержащие конкретную фразу. Первая часть поис­ка — по дате - выполняется с помощью атрибутного индекса, а вто­рая часть - по заданному набору слов — на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись доку­ментами, принятыми каким-либо органом, или за определенный период (дату).

20.7. Гипертекстовые технологии поиска документальной информации

Гипертекст (нелинейный текст) это организация текстовой ин­формации, при которой текст представляет собой множество фраг­ментов с явно указанными ассоциативными связями между этими фрагментами.
Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эф­фективно, чем при традиционных методах поиска.
Формально гипертекст можно представить в виде сети или гра­фа, где узлами являются фрагменты текста, а дуги отображают отно­шения, связывающие эти фрагменты. Доступ к информации осуще­ствляется не путем последовательного просмотра текста, как в обыч­ных информационно-поисковых системах, а путем движения от од­ного фрагмента к другому.
В самом общем виде взаимодействие пользователя с гипертекс­товой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выпол­нять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране.
Считают, что первым идею гипертекста, не используя самого термина «гипертекст», выдвинул в 1945 г. Венневер Буш, советник президента Рузвельта по науке. Им был предложен проект техниче­ской системы нового типа (или лучше сказать - технической среды), названный им «Metex». Основное преимущество этой системы со­стояло в возможности соединения и совместного просмотра отдель­но существующих, но ассоциативно связанных единиц информации (статей, текстовых документов, фотографий, чертежей). Система «Metex» представлялась в виде своеобразной библиотеки с простым доступом к любому документу и возможностью переходить от любо­го документа к смежным, связанным с ним по смыслу. Пользователь должен был иметь возможность самостоятельно устанавливать нуж­ные ему связи между документами, вводить собственные документы, связывать их с существующим содержимым библиотеки. Таким об­разом, основная идея предложенного проекта состояла в возможно­сти фиксации смысловых связей между элементами информации и доступа к этой информации по системе связей, т.е. принципы систе­мы «Metex» полностью соответствуют современным представлениям о сути гипертекста.
Первая компьютерная система, реализующая идею гипертекста, создана в 1968 г. Она носила чисто научно-исследовательский харак­тер и обеспечивала возможность пользователям в соответствии со своими представлениями формулировать, наращивать систему свя­зей между элементами информации и просматривать информацию как систему связей.
Термин «гипертекст» ввел Т.Нельсон. Он определил гипертекст как «соединение текста на естественном языке с создаваемой ком­пьютером возможностью интерактивного создания внутри него но­вых ветвей или динамичной организации нелинейного текста, кото­рый уже не может быть напечатан обычным образом на обычной странице».
Г. Нельсон был разработчиком гипертекстовой системы, кото­рая использовалась для ведения документации по проекту космиче­ского корабля «Аполлон».
В 1987 г. фирма Apple выпустила первую гипертекстовую систе­му для персональных машин — пакет HyperCard для компьютеров Macintosh. С этого времени гипертекстовая технология приобретает массовый коммерческий характер.
Гипертекст можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются са­мим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограни­чения на характер связей (как, например, в иерархических структу­рах).
Элементы гипертекста (текстовые фрагменты) называются узла­ми. Узлы, между которыми возможен переход, считаются смежны­ми, а сама возможность перехода называется «связь». Совокупность смежных узлов образует «окрестность» данного узла.
Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует «близости» или «небли­зости» их содержания, равно минимальному количеству промежу­точных узлов.
В общем случае, в качестве узла могут выступать: слово; слово­сочетание; предложение; абзац; параграф; документ; собрание доку­ментов, относящихся к одной теме; отдельные сообщения и т.п.
Характер связей между узлами может быть различным. Переход может осуществляться между: текстом и комментарием к нему, между разными редакциями текста, между текстом и его возможными продолжениями, между текстами отвечающими или возражающими друг другу, между текстами, пересекающимися по содержанию, и т.д.
Создание гипертекста состоит прежде всего в формировании системы переходов от узла к узлу (системы ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так и пользователем в процессе работы с гипертек­стом.
Движение в гипертекстовой сети, совершаемое в процессе чте­ния гипертекста, называется «навигацией».
Если гиперсеть имеет сложную, разветвленную структуру, воз­никает проблема ориентации пользователя, т.е. определения, в ка­ком месте сети в данный момент он находится. Проблема ориента­ции присутствует и при работе с традиционным линейным текстом большого объема, но в этом случае пользователь имеет только два направления поиска — «выше» или «ниже». Гипертекст предлагает больше возможностей в выборе направлений движения, поэтому в этом смысле работать с гипертекстом сложнее. Поэтому многие ги­пертекстовые системы облегчают проблему ориентации в гипертек­сте, предоставляя наглядное изображение структуры связей.
В некоторых современных гипертекстовых системах существует возможность запоминания направлений поиска пользователя в про­цессе навигации. Такую информацию можно рассматривать как аль­тернативу обработки информации по правилам логического вывода (экспертные системы). Примером использования такого подхода могут служить системы, базирующиеся на технологии CBR (Case Based Reasoning — вывод, основанный на прецедентах).
Гипертекстовая технология реализуется в конкретной гипертек­стовой системе, которая состоит из двух частей: гипертекста (базы данных) и гипертекстовой оболочки.
Гипертекстовая оболочка осуществляет следующие основные функции:
поддержка ссылочных связей;
создание, редактирование и наращивание гипертекста;
прямой доступ;
поддержка ссылочных связей;
просмотр (browsing — броузинг);
выделение виртуальных структур.
Поддержка ссылочных связей позволяет поддерживать ранее зафиксированные связи между узлами сети.
Функция создания, редактирования и наращивания гипертекста принципиально отличает технологию гипертекста от технологии баз данных, в которых концептуальная схема данных заранее задана. Она позволяет вводить новые узлы, редактировать содержание узлов, ус­танавливать связи между узлами.
Прямой доступ позволяет осуществлять прямой доступ к узлам
сети по их именам.
Просмотр (browsing — броузинг) - операция, характерная только для гипертекста. Означает поиск информации посредством просмо­тра гипертекстовой сети, при этом возможно запоминание пути сле­дования, чтобы при последующем аналогичном запросе поиск про­исходил по зафиксированному пути следования.
Реальные гипертекстовые системы в зависимости от специали­зации могут обладать различным набором вышеперечисленных функ­ций.
Гипертекстовые технологии широко используются в различных
прикладных системах:
в настольных издательских системах — для создания документов большого объема со свойствами гипертекста (т.е. с системой ссылок);
в системах управления документами (СУД) — например, для све­дения в один итоговый документ информации, содержащейся в раз­нородных документах;
в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществле­ния навигации.
Наиболее известным инструментом создания гипертекста оста­ется система HyperCard, входящая в набор базовых программных средств для машины Macintosh.
Одним из перспективных направлений развития гипертекстовых систем является технология гипермедиа — соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука, видео). Для разработки гипермедийных приложений фирма Apple разработала среду программирования АМТ (Apple Media Tool), в которой основным объектом разработки является не «карта», как в HyperCard, а «экран». С помощью этих средств создаются различные электронные издания — справочники, энциклопедии; разрабатыва­ются обучающие программы.
Гипертекстовые технологии нашли широкое применение и при организации поиска документальной информации в сети Internet, на­пример в сервисе World Wide-Web (WWW).
Сервис Web построен на основе архитектуры «клиент-сервер». В состав Web-системы входят следующие составляющие:
язык гипертекстовой разметки документов HTML (Hyper Text Markup Language);
универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);
протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol);
средства просмотра Web-страниц (броузеры).
Язык HTML это средство для формирования гипертекстовых документов. Гипертекстовые ссылки встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на другом сервере Web.
Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает доступ к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера, имени файла. На­пример, сервер Государственной публичной научно-технической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/.
Протокол обмена данными служит для установления связи с документами формата HTML независимо от его местонахождения.
В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.
Одно из них концентрируется на представлении в узлах гипер­текста разнородной, но семантически связанной информации - тек­ста, рисунков, графиков, фотографий, видео, звука.
Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысло­вое упорядочение документов, обеспечивающих решение многоэтап­ной задачи или разработку сложных проектов
Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных) и, преж­де всего, Web-технология.

20.8. Системы автоматизации документооборота

Автоматизация документооборота заключается в комплексной автоматизации задач разработки, согласования, распространения, поиска и архивного хранения документов организации.
Постоянное увеличение количества информации, необходимой для принятия правильного управленческого решения, приводит к тому, что традиционные методы работы с документами становятся неэффективными. Так, по сведениям компании Delphi, 15% бумаж­ных документов безвозвратно теряются и для их поиска сотрудники тратят до 30% своего рабочего времени. При переходе к электрон­ным документам и автоматизации документооборота рост произво­дительности сотрудников увеличивается на 25—50%, сокращается время обработки одного документа более чем на 75%, на 80% умень­шаются расходы на оплату площади для хранения документов (оцен­ка Nortan Nolan Institute).
Тенденцию перехода от традиционных технологий организации документооборота к компьютерным отражают следующие цифры: соотношение количества бумажных и электронных документов че­рез пять лет составит 50 на 50%, через десять лет — 30 на 70%; коли­чество электронных документов удваивается за год, а бумажных до­кументов растет только на 7% (данные компании XPLOR).
В конце 80-х - начале 90-х гг. появились и начали интенсивно развиваться ряд новых технологий, успешно используемых в совре­менных системах автоматизации документооборота:
технологии обработки изображений документов (Imaging
System);
системы оптического распознавания символов (Optical Character
Recognition System, OCR);
системы управления документами, СУД ( Document Management
System, DMS);
полнотекстовые базы данных (Full-Text System);
системы автоматизации деловых процедур, АДП (Work-Flow
System);
программное обеспечение для рабочих групп (Groupware).
Системы обработки изображений документов предназначены для ввода, обработки, хранения и поиска графических образов бумаж­ных документов. Подобные системы целесообразно применять в организациях с большим объемом документооборота. Техническое обеспечение систем включает высокоскоростные сканеры, документ-ные контроллеры (выполняют быструю и высокоэффективную ком­прессию/декомпрессию документов и обеспечивают скоростную ра­боту со сканерами и принтерами), библиотеки-автоматы на базе оптических накопителей с автоматической подачей дисков. Компью­терные образы документов находятся на сервере изображений и про­сматриваются на рабочих станциях-клиентах.
Системы обработки изображений осуществляют сканирование документов для записи на сервер, их классификацию по различным критериям, передачу изображений на рабочую станцию для просмо­тра, модификацию или печать. Подобные системы предусматривают также определение маршрута передачи изображений по сети, их рас­сылку по факсу или электронной почте, поиск изображений по от­дельным элементам.
Так как файлы изображений достигают больших размеров, су­ществуют различные варианты организации их хранения. В целях экономии памяти на запоминающем устройстве большинство сис­тем сжимают изображения и создают специальный индекс изобра­жений, где содержатся соответствующие значения атрибутов доку­ментов, например наименование, автор, тема.
В высокопроизводительных системах реализованы технологии, позволяющие увеличить скорость работы. Например, предвари­тельная выборка и перенос изображений с медленных оптических носителей на более быстрые магнитные; адаптируемое кэширова­ние, позволяющее хранить часто используемые изображения в памяти сервера; вывод на лазерный диск; групповое сканирова­ние, обеспечивающее считывание нескольких страниц за одну операцию.
Многие системы обработки изображений включают программ­ное обеспечение оптического распознавания символов (OCR).
Применение OCR позволяет решить проблему перевода бумаж­ных документов в электронную форму в виде текстового файла. Системы OCR позволяют получать электронную копию документа с печатного листа либо копию документа, пришедшего по факсу. Су­ществуют экспериментальные системы, позволяющие подобным образом обрабатывать также и рукописные материалы (Intelligent Character Recognition).
Кратко, функционирование системы OCR можно представить следующим образом. С помощью сканирующего устройства считы­вается изображение документа. В результате распознавания текста изображение документа отображается в файл, отформатированный как текстовый. Таким образом, бумажный документ, минуя низко­производительный и трудоемкий ручной ввод, автоматически преоб­разуется в электронную форму.
Выделяют два класса систем OCR - обучаемые и интеллектуаль­ные. Принцип действия систем первого класса основан на поточеч­ном сравнении оцифрованного символа с образцом из справочника. При совпадении образца и символа последний считается распознан­ным и добавляется в результирующий файл. При таком способе рас­познавания размеры образца и шрифта документа должны совпадать, т.е. в системе необходимо иметь маски для каждого размера каждого типа шрифта, поэтому подобная система более эффективна в случае однотипного и качественного текста. Во втором случае «маска» символа заменяется на его «образ», который может быть использован для любых размеров шрифтов.
Для повышения точности распознавания интеллектуальные си­стемы могут выполнять ряд проверок результирующего текста, на­пример осуществлять частотный анализ текста и сравнивать частоту появления данного символа в тексте с его частотой в языке оригина­ла, или обнаруживать неправильное сочетание символов исходя из правил орфографии.
В реальных системах OCR сочетаются различные распознава­тельные механизмы, что дает возможность обрабатывать любые шрифты и любые тексты.
На сегодняшний день известно несколько достаточно качествен­ных программных продуктов по распознаванию текста, в том числе — две системы отечественных фирм, ориентированных прежде всего на распознавание русскоязычных текстов (FineReader и CuneiForm). Средняя скорость работы системы OCR на оборудова­нии средней мощности составляет примерно одну машинописную страницу в минуту. Качество распознавания - в среднем одна - две ошибки на 1000 знаков в тексте среднего качества.
Можно рекомендовать следующие критерии выбора системы OCR:
совместимость с существующим или приобретаемым программ­ным и аппаратным обеспечением;
скорость сканирования и распознавания преобладающего в дан­ной организации типа текста, например: факс — русский язык, ксеро­копия различного качества, машинопись различного качества и др.;
качество распознавания текстов различных типов, например количество ошибок на 1000 знаков;
способность распознавать редкие шрифты;
способность обучения новым символам;
наличие элементов семантического анализа текста;
наличие модуля проверки орфографии;
удобство пользовательского интерфейса.
Системы управления документами (СУД) предназначены для ав­томатизации хранения, поиска и управления электронными доку­ментами разнообразных форматов, в том числе и изображениями документов. Можно сказать, что СУД фактически выполняют роль СУБД для неструктурированной информации.
Развитые системы управления документами осуществляют сле­дующие функции:
индексирование документов;
полнотекстовый поиск по ключевым словам;
управление конфигурацией документа с установлением взаимо­связи между отдельными структурными компонентами;
ассемблирование документов, позволяющее объединить все ча­сти составного документа для отображения на экране;
организация доступа к документу независимо от места его хра­нения;
поиск и управление документами с помощью ключевых компо­нентов, таких, как оглавление или название раздела;
многоуровневая защита данных, которая разрешает доступ к документам только отдельным пользователям или устанавливает виды доступа, например «только для чтения»;
администрирование учета и архивирования;
организация выдачи/возврата документа;
контроль версий документа;
рассылка документов.
Выполнение функции выдачи/возврата аналогична блокировке записи в БД. Если документ уже выдан, другие пользователи редак­тировать его не могут. Он остается доступным только для просмотра и копирования.
Функция контроля версий используется для отслеживания раз­личных версий документа, позволяет использовать предыдущие ре­дакции документа, которые для экономии памяти часто автоматиче­ски архивируются.
Функция рассылки документов осуществляется путем интегри­рования системы с приложениями электронной почты. Это позволя­ет перемещать документы по сети масштаба предприятия и переда­вать документы от одного сотрудника к другому.
Развитие сети Internet определяет появление ряда новых функ­ций современных СУД. Например, возможность помещения доку­ментов на Web-узле; поддержка обмена документами по интрасети между сотрудниками фирмы, а по Internet - с клиентами и партне­рами фирмы.
Системы управления документами базируются на архитектуре клиент-сервер, состоящей из четырех основных элементов:
центрального приложения, находящегося на сервере;
программ клиентов, работающих на сетевых рабочих станциях и образующих пользовательский интерфейс;
программного обеспечения для индексирования и поиска, раз­мещенного на сервере СУБД и работающего с базой данных, в кото­рой регистрируется место хранения документа;
документов, которые рассматриваются системой как объекты, состоящие из файлов различных типов - текстов, изображений, и могут храниться как на жестких дисках рабочих станций, так и на серверах.
Лидером на мировом рынке СУБД является компания Documentum (продукт Enterprise Document Management).
Программное обеспечение для рабочих групп (groupware) предназ­начено для организаций, сотрудникам которых по характеру их дея­тельности требуется постоянный обмен документами. Осуществ­ляет задачи хранения, просмотра и совместного использования до­кументов. Системы класса groupware позволяют автоматизировать такую деятельность, которая не вписывается в стандартные схемы реляционных баз данных. Например, взаимодействие большого чис­ла людей, исполняющих различные работы в физически удаленных друг от друга местах. Такие приложения могут обрабатывать как структурированную, так и неструктурированную информацию. Основными функциями ПО для рабочих групп являются: электронная почта;
поддержка видеоконференций/совещаний; управление изображениями документов; совместное использование документов; маршрутизация документов; календарное планирование.
Лучшими системами класса groupware считаются: Lotus Notes компании Lotus Development, Link Works компании Digital Equipment, Group Wise компании Novel.
Продукт Lotus Notes - это среда с архитектурой клиент-сервер, предназначенная для разработки и совместного использования при­ложений коллективной работы. В Lotus Notes входят три основные составляющие:
средства маршрутизации и обработки документов; средства обеспечения защиты/управления документами; распределенная база данных (документов). В базах данных Lotus Notes хранятся документы различных фор­матов, в том числе структурированная информация, различные тек­сты, электронные таблицы, изображения, видео- и аудиоинформа­ция. Lotus Notes позволяет создавать OLE-серверные приложения, т.е. графики, электронные таблицы, рисунки можно встраивать в документы. Специальные приложения Lotus Notes могут быть связа­ны с записями и полями реляционных баз данных. Также имеется возможность полнотекстового поиска.
Lotus Notes имеет развитую систему управления доступом, кото­рый осуществляется на нескольких уровнях: базы данных, документа или частей документа. Управлять доступом можно также на уровне одного пользователя или групп пользователей. В системе выделяется восемь видов доступа: от открытости для всех пользователей до пол­ного запрета доступа.
Важнейшим достоинством Lotus Notes является возможность синхронизации баз данных. Базы данных разных компьютеров син­хронизируются через определенные интервалы времени путем ми­нимально необходимого для этого обмена по каналам связи. Тира­жирование (процесс двусторонней синхронизации копий распреде­ленной базы данных) дает возможность пользователям различных сетей работать с одной и той же информацией. Через заданные ин­тервалы времени серверы Lotus Notes связываются друг с другом и синхронизируют все изменения в документах и списках управления доступом.
Lotus Notes интегрирован с системой электронной почты Notes Mail, позволяющей посылать корреспонденцию другим пользовате­лям или группам.
Базовыми средствами для разработки приложений в Lotus Notes являются формы, представления и макрокоманды. Представления — это форма вывода данных на экран или принтер (аналогичны отче­там в реляционных СУБД).
Достоинством Lotus Notes является высокая платформенная не­зависимость. Система работает на платформах OS/2, Windows NT, UNIX различных версий, Macintosh System 7. Приложения Lotus Notes достаточно легко масштабируются, их можно адаптировать как к малой рабочей группе, так для организации работы в масштабе предприятия.
В последнюю версию Lotus Notes 4.0 включены средства совме­стимости с Internet (встроен броузер, редактор Web-страниц, почто­вая программа, работающая со стандартным Internet-протоколом); расширены инструменты разработки приложений (включен язык LotusScript, являющийся расширенным аналогом Visial Basic).
Система Group Wise компании Novel включает средства электрон­ной почты, личного и группового календарного планирования, управ­ления заданиями и документами. Последние версии системы базиру­ются на архитектуре клиент-сервер и поддерживают стандарты Internet, отличаются высокой производительностью и масштабируемостью.
Основными составляющими системы являются хранилище до­кументов (библиотека) и три объектно-ориентированные базы дан­ных в формате Novel. Библиотека содержит документы (тексты, эле­ктронные таблицы, графические файлы). Все операции с документа­ми регистрируются. Доступ к документам осуществляется под кон­тролем средств защиты.
Первая БД хранит так называемые сообщения (почтовые, рече­вые сообщения, факсы, расписания встреч, перечень заданий, за­метки). Вторая БД содержит информацию о связях между пользова­телями и сообщениями/документами. Третья БД хранит характерис­тики документов.
В GroupWise имеется возможность поиска данных как по полно­му тексту, так и с помощью фильтров. Для обеспечения безопаснос­ти применяются пароли и средства управления правами доступа.
Достоинством последней версии GroupWise являются развитые средства управления документами. В систему интегрирована СУБД SoftSolutions, которая ранее выпускалась той же компанией, но от­дельным продуктом.
Продукт Link Works также относится к классу groupware и явля­ется объектно-ориентированной офисной системой. Предоставляет конечным пользователям возможность управления как их персональ­ными, так и связанными с рабочей группой документами при помо­щи единой объектно-ориентированной среды для настольных сис­тем. Администратор размещает групповые и персональные папки документов на серверах Link Works, а конечные пользователи наст­раивают среду настольных систем на обмен документами между пер­сональными и групповыми папками. В состав Link Works входят: система персонального документооборота (графический аналог ра­бочего стола); электронная почта; организация совместного исполь­зования документов и контроля версий.
Системы автоматизации деловых процедур (ЛДП) предназначены для создания сложных прикладных систем коллективной обработки документов в процессе осуществления конкретных бизнес-процес­сов. Документальные потоки на предприятии привязываются к су­ществующим бизнес-процессам и регламенту их взаимодействия. При жесткой маршрутизации документа заранее прописывается дви­жение документа по всем рабочим местам. Определяются права поль­зователей на документ в каждой точке маршрута. При свободной маршрутизации исполнитель может определить дальнейший путь движения документа, обычно на один уровень.
Примером систем АДП может служить продукт фирмы Staffware. Документы в системе обрабатываются по принятому в организации алгоритму и перемещаются в рамках корпоративной системы между отдельными подразделениями и исполнителями по заранее определенным маршрутам. Система основана на техноло­гии клиент-сервер, интегрируется с программными продуктами, работающими на платформах Windows NT, Windows 95, UNIX, В состав системы может входить графический построитель процедур (Graphical Workflow Definer), описывающий документопоток в виде диаграмм с указанием логических шагов, маршрутизации, предель­ных сроков и форм отчетов. Является инструментом для разра­ботки модели бизнес-процессов.
В последнее время наблюдается тенденция сближения и пересе­чения функциональных возможностей вышеописанных систем. Так, в системах, классифицируемых как groupware, могут использоваться технологии полнотекстовых баз данных, систем управления докумен­тами и автоматизации деловых процедур. Поэтому в современных системах автоматизации документооборота вышеуказанные техноло­гии могут применяться как в качестве отдельных, так и интегриро­ванных компонент.

Литература к главе 20

1. Дескрипторный словарь по информатике. - М., ВИНИ­ТИ,1991. - 162 с.
2. Ланкастер Ф. Информационно-поисковые системы. - М., Мир, 1972. - 310 с.
3. Михайлов А., Черный А. Основы информатики. — М., Наука, 4968.-456с.
4. Монастырский И. Информационно-поисковые системы. — М., Экономика, 1983.'-206 с.
5. Озкарахан Э. Машины баз данных. - М., Мир, 1989. - с. 539-643.
6. Субботин М. Гипертекст. Новая форма письменной коммуни­кации. - М., Знание, 1994.
7. Сэлтон Г. Автоматическая обработка, хранение и поиск ин­формации. - М., Советское радио, 1973. — 560 с.
8. Тихомиров В.П. Основы гипертекстовой информационной технологий. - М., МЭСИ, 1993.










































Глава 21 ЭКСПЕРТНЫЕ СИСТЕМЫ В
ОБЕСПЕЧЕНИИ УПРАВЛЕНЧЕСКОЙ ДЕЯТЕЛЬНОСТИ

21.1. Введение в искусственный интеллект

Начало современного этапа развития систем искусственного интеллекта (ИИ) может быть отнесено к середине 50-х гг. Этому способствовала программа, разработанная А.Ньюэллом и предназ­наченная для доказательства теорем в исчислении высказываний и названная «ЛОГИК-ТЕОРЕТИК». Некоторые авторы называют эту систему экспертной и связывают определение ее назначения с ана­лизом ее возможностей, проведенных Клодом Шенноном и Марви-ном Минским.
Эти работы положили начало первому этапу исследований в области ИИ, связанному с разработкой программ, решающих задачи на основе применения разнообразных эвристических методов. Эв­ристика — совокупность логических приемов и методических пра­вил, теоретического исследования и отыскания истины, методика поиска доказательств. Эвристические правила — неформальные пра­вила, используемые в целях повышения эффективности поиска в данной предметной области.
Данный метод решения задачи при этом рассматривался как свойственный человеческому мышлению «вообще», для которого характерно возникновение «догадок» о пути решения с последую­щей проверкой их. Эвристическому методу противопоставлялся ис­пользуемый в ЭВМ алгоритмический (процедуральный) метод, ко­торый интерпретировался как механическое осуществление задан­ной последовательности шагов, детерминированно приводящей к правильному ответу. Такая трактовка эвристических методов реше­ния задачи и обусловила появление и распространение термина ИИ.
Второй этап исследований в области ИИ — создание интеграль­ных роботов.
Третий этап исследований в области ИИ характеризуется сме­щением центра внимания исследователей с проблем создания авто­номно функционирующих систем, самостоятельно или в условиях ограниченного общения с человеком решающих в реальной среде поставленные задачи, к созданию человеко-машинных систем, ин­тегрирующих в единое целое интеллект человека и способности ЭВМ для достижения общей цели - решения задачи, поставленной перед подобной системой.
Проблематика ИИ довольно обширна. Список дисциплин по искусственному интеллекту постоянно увеличивается. Сегодня в него входят представление знаний, решение задач, экспертные системы, средства общения с ЭВМ на естественном языке, обучение, когни­тивное моделирование, стратегические игры, обработка визуальной информации и робототехника.
Представление знаний является наиболее важной областью ис­следований по искусственному интеллекту. Это основа всех осталь­ных дисциплин. Знания имеют форму описаний объектов, взаимо­связей и процедур. Наличие адекватных знаний и способность их эффективно использовать означают «умение».
Создание общей теории или метода представления знаний явля­ется стратегической проблемой. Такая теория открыла бы возмож­ность накопления знаний, которые нужны ежедневно для решения все новых и новых задач. Однако для достижения поставленной цели необходимо найти способ выражения общих закономерностей пред­метных областей (ПО), в чем и состоит суть проблемы представле­ния знаний.
Решение задач сводится к поиску пути из некоторой исходной точки в целевую. Человек делает это весьма эффективно с помощью дедуктивного логического вывода (рассуждений), процедурального анализа, аналогии и индукции. Люди способны также учиться на собственном опыте. Компьютеры в общем случае решают задачи только с использованием дедуктивного логического вывода и проце­дурального анализа.
Тип задачи определяет метод, наиболее подходящий для ее ре­шения. Задачи, которые сводятся к процедуральному анализу, вооб­ще говоря, лучше всего решаются на компьютере. Учетные и анали­тические задачи служат примерами процедуральных задач, решае­мых компьютером быстрее и надежнее, чем человеком. Задачи же, связанные с использованием аналогии или индукции, эффективнее решаются человеком. Задачи, требующие дедуктивных рассуждений, представляются наиболее вероятными кандидатами для решения с помощью экспертных систем (систем, основанных на знаниях).
Экспертные системы представляют собой класс компьютерных программ, которые выдают советы, проводят анализ, выполняют классификацию, дают консультации и ставят диагноз. Они ориенти­рованы на решение задач, обычно требующих проведения экспертизы человеком-специалистом. В отличие от программ, использующих процедуральный анализ, экспертные системы решают задачи в узкой предметной области (конкретной области экспертизы) на основе логических рассуждений. Такие системы часто способны найти ре­шение задач, которые неструктурированны и плохо определены. Они справляются с отсутствием структурированности путем привлечения эвристик, что может быть полезным в тех ситуациях, когда недоста­ток необходимых знаний или времени исключает возможность про­ведения полного анализа.
Машины обладают своим собственным языком для представле­ния знаний и решения задач. Язык можно определить как набор символов, используемых для представления знаний (семантика), и правил, предназначенных для обработки этих символов (синтаксис) и решения задач. Человек работает наиболее эффективно, если ом владеет специальными языками, которые развиваются до уровня потребностей конкретной предметной области.
Если правила трансляции с естественного языка в машинный и наоборот выражены в виде совокупности знаний (символов и проце­дур), то логично предположить, что могут быть разработаны средст­ва, позволяющие компьютеру понимать постановку задачи на есте­ственном языке, а затем на естественном же языке выдавать ее реше­ние. Это основная тема исследований по разработке средств обще­ния с ЭВМ на естественном языке. Здесь можно выделить четыре ключевые проблемы.
Машинный перевод — использование компьютеров для перево­да текстов с одного языка на другой.
Информационный поиск - обеспечение с помощью компьюте­ров доступа к информации по конкретной тематике, хранящейся в большой базе данных.
Генерация документов — применение компьютеров для преобра­зования документов, имеющих определенную форму или заданных на специализированном языке, в эквивалентный документ в другой форме или на другом языке.
Взаимодействие с компьютером - организация диалога между пользователем и компьютером.
Считается, что способностью обучения должна быть наделена практически каждая прикладная программа, которая может понадо­биться пользователю. Десять-пятнадцать лет назад большая часть обработки данных при решении задач проводилась программистами вычислительных центров. Программисты фактически выполняли роль посредников, являясь как бы связующим звеном между ЭВМ и теми, кто использовал полученные данные и принимал решения. С появлением персонального компьютера взаимоотношения между пользователем и вычислительной техникой, а следовательно, и роль программиста резко изменились. Вместо того чтобы заставлять поль­зователя преодолевать сложности программирования, проще обучить компьютер сложностям выполнения конкретной задачи, стоящей перед пользователем. Это, конечно, не означает, что необходимость в программистах отпадет, но несколько меняет их роль во взаимоот­ношениях между компьютером и пользователями.
Целью когнитивного моделирования является разработка тео­рии, концепций и моделей человеческого мышления и его функций. Оно позволяет реализовывать не только диагностические и лечебные функции, но и выявлять процессы, протекающие в сознании челове­ка при решении задач. Однако вовсе не следует, что лучшими ком-ггьютерами являются те, которые моделируют работу человеческого мозга, но можно сделать вывод о том, какого типа компьютеры нуж­ны, как спроектировать компьютер, который бы расширил возмож­ности мышления человека и позволил бы ему более эффективно решать задачи.
Современные роботы уже облегчили труд (особенно неквалифи­цированный) многих рабочих, занятых в сфере производства, безу­пречно выполняя свою работу. Исследования в области робототех­ники входят как составная часть в исследования по искусственному интеллекту, ставящие целью оснастить компьютеры средствами ви­зуальной обработки и манипулирования объектами в некоторой сре­де. Эти исследования ведутся в трех основных направлениях:
разработка воспринимающих элементов (в частности, для визу­альной информации) и распознавание информации, поступающей от систем восприятия;
создание манипуляторов и систем управления ими;
выявление эвристик для решения задач перемещения в прост­ранстве и манипулирования объектами (планирование деятельнос­ти).

21.2. Системы, основанные на знаниях,
и экспертные системы

Разработка систем, основанных на знаниях, является составной частью исследований по искусственному интеллекту и имеет целью создание компьютерных методов решения проблем, обычно требую­щих привлечения специалистов. В конце 70-х гг. специалисты, рабо­тающие в области ИИ, начали понимать нечто весьма важное: эф­фективность программы при решении задач зависит от знаний, которыми она обладает, а не только от формализмов и схем вывода, которые она использует. Была принята принципиально новая кон­цепция, которую чрезвычайно просто сформулировать: чтобы сде­лать программу интеллектуальной, ее нужно снабдить множеством высококачественных специальных знаний о некоторой предметной области.
Понимание этого факта привело к развитию специализирован­ных программных систем, каждая из которых является экспертом в некоторой узкой предметной области. Эти программы получили на­звание экспертных систем.
Типичная экспертная система состоит из следующих основных компонентов: механизма вывода (интерпретатора правил), базы зна­ний (БЗн), включающей рабочую память (РП) или базу данных (БД) и базу правил, компонентов приобретения знаний, объяснительного и диалогового.
База знаний в ЭС предназначена для хранения долгосрочных знаний, описывающих рассматриваемую предметную область, и включает в себя базу данных (РП), которая предназначена для хра­нения исходных и промежуточных данных решаемой в текущий мо­мент задачи, и базу правил, описывающих целесообразные преобра­зования данных этой области.
Механизм вывода, используя исходные данные из РП и знания из БЗн, формирует такую последовательность правил, которые, бу­дучи примененными к исходным данным, приводят к решению зада­чи. Одним из важных вопросов, возникающих при проектировании управляющей компоненты систем, основанных на знаниях, является выбор метода поиска решения, т.е. стратегии вывода. От выбранного метода поиска будет зависеть порядок применения и срабатывания правил. Процедура выбора сводится к определению направления поиска и способа его осуществления. Процедуры, реализующие по­иск, обычно «зашиты» в механизм вывода, поэтому в большинстве систем инженеры знаний не имеют к ним доступа и, следовательно, не могут в них ничего изменять по своему желанию.
При разработке стратегии управления выводом необходимо от­ветить на два вопроса:
1. Какую точку в пространстве состояний принять в качестве исходной? Дело в том, что еще до начала поиска решения система, основанная на знаниях, должна каким-то образом выбрать исходную точку поиска. От выбора этой точки зависит и метод осуществления поиска - в прямом или в обратном направлении.
2. Как повысить эффективность поиска решения? Чтобы добить­ся повышения эффективности поиска решения, необходимо найти эвристики разрешения конфликтов, связанных с существованием нескольких возможных путей для продолжения поиска в простран­стве состояний, поскольку требуется отбросить те из них, которые заведомо не ведут к искомому решению.
В системах с обратным выводом вначале выдвигается некоторая гипотеза, а затем механизм вывода в процессе работы как бы возвра­щается назад, переходя от нее к фактам, и пытается найти среди них те, которые подтверждают эту гипотезу. Если она оказалась правиль­ной, то выбирается следующая гипотеза, детализирующая первую и являющаяся по отношению к ней подцелью. Далее отыскиваются факты, подтверждающие истинность подчиненной гипотезы. Обрат­ный поиск применяется в тех случаях, когда цели известны и их сравнительно немного.
В системах с прямым выводом по известным фактам отыскива­ется заключение, которое из этих фактов следует. Если такое заклю­чение удастся найти, то оно заносится в рабочую память.
В системах диагностики чаше применяется прямой вывод, вто вре­мя как в планирующих системах более эффективным оказывается об­ратный вывод. В некоторых системах вывод основывается на сочета­нии упомянутых выше методов — обратного и ограниченного прямого. Такой комбинированный метод получил название циклического.
В системах, база знаний которых насчитывает сотни правил, весьма желательно использование стратегии управления выводом, позволяющей минимизировать время поиска решения и тем самым повысить эффективность вывода. К числу наиболее известных стра­тегий относятся поиск в глубину, поиск в ширину, разбиение на подзадачи и альфа-бета алгоритм.
Суть поиска в глубину состоит в том, что при выборе очередной подцели в пространстве состояний предпочтение всегда, когда это возможно, отдается той, которая соответствует следующему, более детальному уровню описания задачи. При поиске в ширину, напро­тив, система вначале проанализирует все признаки, находящиеся на одном уровне пространства состояний, даже если они относятся к различным объектам, и лишь затем перейдет к признакам следующе­го уровня детальности.
Специалисты в какой-либо узкой области выше оценивают по­иск в глубину, поскольку он позволяет собрать воедино все призна­ки, связанные с выдвинутой гипотезой. Универсалы отдают предпо­чтение поиску в ширину, так как в этом случае анализ не ограничи­вается заранее очерченным кругом признаков. Особенности прост­ранства поиска во многом определяют целесообразность примене­ния той или иной стратегии.
При стратегии разбиения на подзадачи в исходной задаче выде­ляются подуровни, решение которых рассматривается как достиже­ние промежуточных целей на пути к конечной цели. Если удается правильно понять сущность задачи и оптимально разбить ее на си­стему иерархически связанных целей — подцелей, то можно добить­ся того, что путь к ее решению в пространстве поиска будет минима­лен. Однако если задача плохо структурирована, то сделать это не­возможно.
Иногда задача поиска сводится к уменьшению пространства состояний путем удаления в нем ветвей, неперспективных для поис­ка успешного решения. Поэтому просматриваются только те верши­ны, в которые можно попасть в результате следующего шага, после чего неперспективные направления исключаются из дальнейшего рассмотрения. Этот метод - альфа-бета алгоритм - нашел широкое применение в основном в системах, ориентированных на различные игры, однако он может использоваться и в продукционных системах для повышения эффективности поиска.
Компонент приобретения знаний реализует процесс наполнения ЭС знаниями.
Объяснительный компонент поясняет, как система получила ре­шение задачи (или почему она не получила решения) и какие знания она при этом использовала, что облегчает эксперту тестирование и отладку системы и повышает доверие пользователя к полученному результату.
Диалоговый компонент ориентирован на организацию дружест­венного интерфейса для всех категорий пользователей и использует­ся как в ходе решения задач, так и приобретения знаний, объясне­ния результатов работы.
Существует много.определений понятия «системы, основанные на знаниях», в частности они определяются как «интеллектуальные компьютерные программы, использующие знания и процедуры вы­вода для решения проблем, которые настолько сложны, что для их решения необходимо привлечение эксперта». Терминология по ис­кусственному интеллекту пока еще окончательно не установилась, поэтому словосочетания «экспертные системы» (ЭС) и «системы, основанные на знаниях» будем употреблять как синонимы, хотя счи­тается, что любая ЭС есть система, основанная на знаниях, но по­следняя не всегда является экспертной системой. В системах, осно­ванных на знаниях, правила (или эвристики), по которым решаются проблемы в конкретной предметной области, хранятся в,базе зна­ний. Проблемы ставятся перед системой в виде совокупности фак­тов, описывающих некоторую ситуацию, и система с помощью базы знаний пытается вывести заключение из этих фактов. Можно ска­зать, что качество экспертной системы определяется размером и качеством базы знаний (правил или эвристик). Система функциони­рует в следующем циклическом режиме: выбор (запрос) данных или результатов анализов, наблюдение, интерпретация результатов, ус­воение новой информации, выдвижение с помощью правил времен­ных гипотез и затем выбор следующей порции данных или результа­тов анализов. Такой процесс продолжается до тех пор, пока не по­ступит информация, достаточная для окончательного заключения.
Более простые системы, основанные на знаниях, функциониру­ют в режиме диалога, называемом режимом консультации. После запуска система задает пользователю ряд вопросов о решаемой зада­че, требующих ответа: «да» или «нет». Ответы служат для установле­ния фактов, по которым может быть выведено окончательное заклю­чение.
В любой момент времени в системе содержатся три типа знаний:
структурированные статические знания о предметной области; после того как эти знания выявлены, они уже не изменяются;
структурированные динамические знания — изменяемые знания о предметной области; они обновляются по мере выявления новой информации;
рабочие знания, применяемые для решения конкретной задачи или проведения консультации.
Все перечисленные выше знания хранятся в базе знаний. Для ее построения требуется провести опрос специалистов, Являющихся экспертами в конкретной предметной области, а затем систематизи­ровать, организовать и снабдить эти знания указателями, чтобы впос­ледствии их можно было легко извлечь из базы знаний.
Системы, основанные на знаниях, обладают рядом специфиче­ских свойств:
1. Экспертиза может проводиться только в одной конкретной области.
2. База знаний и механизм вывода являются различными компо­нентами (оказывается возможным сочетать механизм вывода с дру­гими базами знаний для создания новых экспертных систем).
3. Наиболее подходящая область применения — решение задач дедуктивным методом, т.е. правила или эвристики выражаются в виде пар посылок и заключений типа «если — то».
4. Эти системы могут объяснять ход решения задачи понят­ным пользователю способом. Обычно мы не принимаем ответ эксперта, если на вопрос «Почему?» не можем получить логич­ный ответ. Точно так же мы должны иметь возможность спросить систему, основанную на знаниях, как было получено конкретное заключение.
5. Выходные результаты являются качественными (а не количе­ственными).
6. Системы, основанные на знаниях, строятся по модульному принципу, что позволяет постепенно наращивать их базы знаний.
Области применения систем, основанных на знаниях, могут быть сгруппированы в несколько основных классов, в том числе прогно­зирование, планирование, контроль и управление, обучение.
Существует ряд прикладных задач, которые решаются с помо­щью систем, основанных на знаниях, более успешно, чем любыми другими средствами. При определении целесообразности примене­ния таких систем нужно руководствоваться следующими критерия­ми.
1. Данные и знания надежны и не меняются со временем.
2. Пространство (или область) возможных решений относитель­но невелико.
3. В процессе решения задачи должны использоваться формаль­ные рассуждения.
4. Должен быть по крайней мере один эксперт, способный явно сформулировать свои знания и объяснить методы применения этих знаний для решения задач.
Но даже лучшие из существующих экспертных систем имеют определенные ограничения по сравнению с человеком-экспертом, которые сводятся к следующему:
1. Большинство экспертных систем не вполне пригодны для применения конечным пользователем. Если пользователь не имеет некоторого опыта работы с такими системами, у него могут возник­нуть серьезные трудности. Многие системы оказываются доступны­ми только тем экспертам, которые создавали их базы знаний. Поэто­му необходима разработка соответствующего пользовательского ин­терфейса, обеспечивающего конечному пользователю свойственный ему режим работы.
2. Навыки системы не всегда возрастают после сеанса экс­пертизы.
3. Все еще остается проблемой приведение знаний, полученных от эксперта, к виду, обеспечивающему их эффективную машинную реализацию.
4. Экспертные системы неспособны обучаться, не обладают здра­вым смыслом. Человек-эксперт при решении задач обычно обраща­ется к своей интуиции или здравому смыслу, если отсутствуют фор­мальные методы решения или аналоги таких задач.
5. Экспертные системы неприменимы в больших предметных областях.
6. В тех областях, где отсутствуют эксперты, применение экс­пертных систем оказывается невозможным.
7. Имеет смысл привлекать экспертные системы только для ре­шения когнитивных задач.
8. Системы, основанные на знаниях, оказываются неэффектив­ными при необходимости проведения скрупулезного анализа, когда число «решений» зависит от тысяч различных возможностей и мно­гих переменных, которые изменяются во времени. В таких случаях лучше использовать базы данных с интерфейсом на естественном языке.
Однако системы, основанные на знаниях, имеют определенные преимущества перед человеком-экспертом:
1. У них нет предубеждений.
2. Они не делают поспешных выводов.
3. Эти системы работают систематизированно, рассматривая все детали, часто выбирая наилучшую альтернативу из всех возможных.
4. База знаний может быть большой и достаточно стабильной. Будучи введены в машину один раз, знания сохраняются навсегда.
5. Системы, основанные на знаниях, устойчивы к «помехам». Эксперт пользуется побочными знаниями и легко поддается влия­нию внешних факторов, которые непосредственно не связаны с ре­шаемой задачей.
Технологию построения экспертных систем называют инже­нерией знаний. Этот процесс требует специфической формы вза­имодействия создателя экспертной системы, которого называют инженером знаний, и одного или нескольких экспертов в некото­рой предметной области. Инженер знаний «извлекает» из экспер­тов процедуры, стратегии, эмпирические правила, которые они используют при решении задач, и встраивает эти знания в экс­пертную систему.
В результате появляется система, решающая задачи во многом так же, как человек-эксперт.
21.3. Характеристики экспертной системы

Рассмотрим характеристики экспертной системы более подроб­но. Ядро экспертной системы составляет база знаний, которая со­здается и накапливается в процессе ее построения. Знания выраже­ны в явном виде и организованы так, чтобы упростить принятие решений. Важность этой особенности экспертной системы невоз­можно переоценить.
Накопление и организация знаний - одна из самых важных ха­рактеристик экспертной системы.
Последствия этого факта выходят за пределы построения про­граммы, предназначенной для решения некоторого класса задач. Причина в том, что знания — основа экспертных систем — являются явными и доступными, что и отличает эти системы от большинства традиционных программ. Они обладают такой же ценностью, как и любой большой объем знаний, и эти знания могут широко распро­страняться посредством специальных и общих литературных источ­ников.
Наиболее полезной характеристикой экспертной системы явля­ется то, что она применяет для решения проблем высококачественный опыт. Этот опыт может представлять уровень мышления наибо­лее квалифицированных экспертов в данной области, что ведет к решениям творческим, точным и эффективным. Именно высокока­чественный опыт в сочетании с умением его применять делает сис­тему рентабельной, способной заслужить признание на рынке. Это­му способствует также гибкость системы. Система может наращи­ваться постепенно в соответствии с нуждами бизнеса или заказчика. Это означает, что можно вначале вложить сравнительно скромные средства, а потом наращивать возможности системы по мере необхо­димости.
Другой полезной чертой экспертных систем является наличие у них прогностических возможностей. Экспертная система может функционировать в качестве модели решения задачи в заданной области, давая ожидаемые ответы в конкретной ситуации и показы­вая, как изменятся эти ответы в новых ситуациях. Экспертная систе­ма может объяснить подробно, каким образом новая ситуация при­вела к изменениям. Это позволяет пользователю оценить возможное влияние новых фактов или информации и понять, как они связаны с решением. Аналогично, пользователь может оценить влияние но­вых стратегий или процедур на решение, добавляя новые правила или изменяя уже существующие.
База знаний, определяющая компетентность экспертной систе­мы, может также обеспечить новое качество — институциональную память. Если база знаний разработана в ходе взаимодействия с веду­щими специалистами в данной предметной области, то она пред­ставляет некоторую политику или способы действия этой группы людей. Этот набор знаний становится сводом очень квалифициро­ванных мнений и постоянно обновляющимся справочником оптимальных стратегий и методов, используемых персоналом. Ведущие специалисты уходят, но их опыт остается, что весьма важно для де­ловой сферы.
Важным свойством экспертных систем является возможность их применения для обучения и тренировки персонала. Экспертные си­стемы могут быть разработаны с расчетом на подобный процесс обу­чения, так как они уже содержат необходимые знания и способны объяснить процесс своего рассуждения. Необходимо только добавить программное обеспечение, поддерживающее соответствующий тре­бованиям эргономики интерфейс между обучаемым и экспертной си­стемой, также должны быть включены знания о методах обучения и возможном поведении пользователя.
Выше подчеркивалось, что основой экспертной системы являет­ся совокупность знаний, структурированная в целях упрощения про­цесса принятия решений экспертной системой. Так как же организу­ются и представляются знания?

21.4. Знания и модели их представления

Для специалистов в области искусственного интеллекта термин «знания» означает информацию, которая необходима программе, чтобы она вела себя «интеллектуально».
Функционирование средств интеллектуального интерфейса опи­рается на развитые методы работы со знаниями: их представление, хранение, преобразование и т.п.
Под термином «знания» при этом понимается вся совокупность информации, необходимой для решения задачи, включающая в себя в том числе информацию о:
системе понятий предметной области, в которой решаются за­дачи;
системе понятий формальных моделей, на основе которых ре­шаются задачи;
соответствии систем понятий, упомянутых выше;
текущем состоянии предметной области;
методах решения задач.
При этом система знаний должна быть организована таким об­разом, чтобы обеспечить взаимодействие вычислительной системы с пользователем в системе понятий и терминов предметной области.
Что же такое знания и чем они отличаются отданных в системах машинной обработки?
Знания — это целостная и систематизированная совокупность понятий о закономерностях природы, общества и мышления, накопленных человечеством в процессе активной преобразующей произ­водственной деятельности и направленная на дальнейшее познание и изменение объективного мира.
Следовательно, интеллектуальная деятельность человека связа­на с поиском решений в новых, нестандартных ситуациях. Отсюда, задача называется интеллектуальной, если алгоритм ее решения ап­риори неизвестен. При этом задача и ее решение понимаются в са­мом широком смысле. Решение задачи — это любая деятельность (человека или машины), связанная с выработкой планов и действий, необходимых для достижения определенной цели; выводом новых закономерностей и т.п. Любая интеллектуальная деятельность опи­рается на знания о предметной области, в которой ставятся и реша­ются задачи. Предметной областью обычно называют совокупность взаимосвязанных сведений, необходимых и достаточных для решения данной задачи или определенной совокупности задач.

<< Пред. стр.

страница 17
(всего 19)

ОГЛАВЛЕНИЕ

След. стр. >>

Copyright © Design by: Sunlight webdesign