46028 (665335), страница 9
Текст из файла (страница 9)
Естественно, что при таком положении дел в моделях, предназначенных для описания работы ИПС так же должно быть введено понятие профиля и выявлена его актуальность для информационного поиска.
Определим операцию расширения запроса как:
LT x r0 = q1 (2.2)
В данном выражении LT - это транспонированная матрица L. Однако, это не совсем точно. Обычно пользователь не использует свое право отметки релевантных документов и только их термины используются в расширенном запросе или получают больший вес перед терминами других документов. Поэтому в выражение (2.2) надо ввести еще матрицу - F, призванную учитывать фактор пользователя.
LT x Fk-1 x rk-1 = qk (2.3)
L x qk = rk;
Как видно из (2.3) матрицы Fk-1 составляют систему фильтров пользователя, при помощи которых он корректирует свой запрос. Эти фильтры имеют в реальных системах конкретную интерпретацию. Так в WAIS и Lycos пользователь просто помечает релевантные документы. В этом случае фильтры превращаются в диагональные матрицы, которые в релевантных документах имеют главную диагональ с единицами, а в нерелевантных - с нули. Но, в общем случае, на диагонали можно размещать и веса релевантности. Эти фильтры могут быть и недиагональными. В этом случае пользователь будет взвешивать документы не только самостоятельно, но и с учетом их связи с другими документами массива, как релевантными, так и нерелевантными, например с учетом его гипертекстовых связей. Но в любом случае совершенно естественно предположить, что система предпочтений пользователя в течение одной сессии работы с ИПС остается неизменной, иначе пользователь просто не знает, что же он в самом деле ищет. Тогда все фильтры одинаковы и не изменяются от шага к шагу:
F0 = F1 = F2 = ... = Fk-1 = Fk = F (2.4)
В конечном итоге, если пользователь просто переберет все документы массива, то можно составить диагональную матрицу, например, состоящую из нулей и единиц.
Процесс коррекции запроса не бывает бесконечным. Обычно он завершается, когда пользователь устает просматривать найденные документы, и приходит к выводу, что нашел искомое, либо действительно больше нет новых релевантных документов. В принципе, даже при прямом просмотре, второй результат является концом процедуры поиска информации. Это значит, что начиная с некоторого вектора отклика этот самый отклик не изменяется:
(L x LT x F) x rk-1 = rk; (2.5)
(A x F) x r = lr:rk = lrk-1.
Из (2.5) следует, что процесс коррекции запросов по релевантности должен сходиться к собственному вектору матрицы ( L x LT x F). Если при этом пользователь хочет добиться максимального различия документов по степени релевантности, которая фактически определяется значениями компонентов вектора r, тогда речь идет о собственном векторе при максимальном собственном числе. Аналогичный результат можно получить и для набора терминов, которые характеризуют информационную потребность пользователя.
Однако, кроме профилей пользователя при моделировании взаимодействия пользователя и информационной системы. Существенную играет роль сам информационный массив, а точнее набор информационных образов документов массива, скажем, в ранжировании документов по степени релевантности. А именно об этом и идет речь в линейной модели индексирования и поиска информации. Чем ближе оказываются документы к информационной потребности пользователя, тем проще структура матрицы F. Идеальный случай, если эта матрица будет единичной - тогда пользователь вообще не нуждается в ручной коррекции, а система сама проранжирует все документы.
Приведенная трактовка процедуры коррекции запроса и профиля информационной системы имеет аналоги в других методах анализа информационных потоков. Если надо различить какие-либо группы пользователей по их тематике с применением некоторой информационной структуры, то можно прибегнуть к факторному анализу статистики посещения страниц. В этом случае главные компоненты будут задаваться собственными векторами корреляционной матрицы, которая позволяет определить направление максимального разброса показателей посещений, что соответствует собственному вектору при максимальном собственном числе.
2.3. Программная реализация
В данном разделе описывается программа, реализующая изложенные выше алгоритмы индексирования и обработки запроса.
2.3.1. Выбор средств программирования
Для написания программы была выбрана интегрированная система программирования Borland C++ Builder 6.0 и объектно‑ориентированный язык C++, так же использовался компилятор С++ 5.02 фирмы Borland и язык программирования С++. Эти средства позволяют создавать прикладные программы, предназначенные для работы на ПЭВМ IBM PC AT под управлением оболочки Windows 95 и более поздних версий, а так же операционной системы Windows NT и использующие общепринятые для Windows элементы пользовательского интерфейса. Программы такого типа в настоящее время признаны в качестве стандарта ПП, поскольку наиболее широко распространены, удобны для пользователей и не требуют долгого их обучения.
Предпочтение было отдано системе Borland C++ Builder благодаря тому, что она позволяет программисту очень быстро и удобно разрабатывать пользовательский интерфейс. Это свойство особенно ценно из-за того, что, как показывает практика, работа над интерфейсом занимает бльшую часть (до 80%) времени создания ПП. Еще одним преимуществом выбранной системы является высокая (по сравнению со многими другими средствами программирования) эффективность генерируемого компилятором кода, что весьма существенно для данного ДП, т.к. в нем применяется метод, требующий большого количества вычислений.
2.3.2. Описание программного продукта
Программа индексирования и поиска документов имеет следующие функциональные возможности:
-
индексирование документов заранее, в режиме off-line
-
быстрое пополнение индекса в режиме on-line
-
реализация поиска по комбинациям слов
-
запоминание координат слов в документах
-
сортировка найденных документов по компактности вхождения слов
-
ранжирование найденных документов по их релевантности
-
выделение форматов
-
выделение кодировак
-
правильная обрабатка буквы «ё»
-
выделение предложений
-
наличие списка шумовых слов
2.3.3. Разработка программной документации
В документацию к ПП на КЗ “Автоматизированная система документооборота учереждение” входят тексты исходных модулей программы. Программная документация на КЗ “Автоматизированная система документооборота учереждение” разработана в соответствии с требованиями ГОСТ 19.301-76, ГОСТ 19.503-79 и ГОСТ 19.504-79.
2.3.4. Результаты опытной эксплуатации КЗ “СИСТЕМА ДОКУМЕНТООБОРОТА УЧЕРЕЖДЕНИЯ” и технические предложения по ее развитию
Опытная эксплуатация разработанного МО КЗ и ПП показала, что он соответствует требованиям ТЗ на данный комплекс и решает поставленную перед ним задачу.
В большинстве случаев удаётся проинтерпретировать главные компоненты и построить на их базе требуемые оценки.
Для того чтобы подтвердить эффективность разработанного алгоритма, были проведены испытания, дающие определенное представление о скорости и качестве поиска при использовании различных средств поиска.
Для испытаний использовался ПК с процессором Pentium – 166MMX, RAM 64 Mb, HDD Quantum Fireball TM 2,1 GB и операционной системой MS Windows NT 4.0 Workstation.
Массив данных для поиска: 273 файла в 54 каталогах, общим объемом 53,5 Mb.
Испытываемые средства поиска:
Windows NT Server Explorer;
Medialingua Text Pilot (программа смыслового поиска документов "Следопыт" российской компании "Медиалингва");
"Евфрат 99", система автоматизации делопроизводства компании Cognitive Technologies.
Программа, реализующая алгоритм, предложенный в данном дипломном проекте.
Для составления запроса использовались слова "поиск", все словоформы которого содержат исходное слово и "автоматизация", не обладающее этим свойством.
Полученные результаты:
Время поиска: 30, 15, 13 и 9 секунд соответственно.
Количество обнаруженных документов: для слова "поиск" – 34 документа для каждого средства поиска, для слова "автоматизация" – 2, 16, 18 и 22 документов соответственно.
Проведенное исследование не претендует на абсолютную объективность. Тем не менее, очевидно, что применение предложенного алгоритма существенно увеличивает эффективность поиска.
Выявлены следующие недостатки разработки (большинство из которых предполагалось заранее):
недостаточная релевантность документов в ответе на запрос, объясняющаяся необходимость дополнительной настройки стоп-словарей и словарей основ;
Для устранения вышеперечисленных недостатков требуется донастроить программный продукт под область деятельности заказчика и повысить компьютерную грамотность персонала учереждения.
Выводы по главе 2
В данной главе решены следующие задачи:
1. Выполнена постановка задачи на разработку КЗ “Реализация функций поиска и архивации информации в системе документооборота учереждения”
2. Рассмотрены преимущества полнотекстовой индексации документов как основа для математического аппарата решения поставленной задачи и разработана математическая модель, реализующая выбранный алгоритм индексации документов.
3. Разработано математическое и программное обеспечение КЗ “Реализация функций поиска и архивации информации в системе документооборота учереждения”. Программная документация содержит 237 строк исходного кода Visual C++.
4. Разработанный математический аппарат признан пригодным для автоматизации проводимых в министерстве работ по повышению эффективности функционирования учереждения.
В перспективе возможно применение разработанных методов и построенных моделей в других учреждениях Российской Федерации.
ГЛАВА 3. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ПРИКЛАДНЫХ ЗАДАЧ
3.1. Деловая игра по курсу "Гражданская оборона"
3.1.1. Постановка задачи и ее спецификация
Гражданская оборона страны - составная часть системы общегосударственных оборонных мероприятий, проводимых в мирное и военное время в целях защиты населения и народного хозяйства от оружия массового поражения и других современных средств нападения противника, а также для спасательных и неотложных аварийно-восстановительных работ в очагах поражения и зонах катастрофических разрушений в результате стихийных бедствий.
Задачи, решаемые гражданской обороной, определяют принципы ее организационного построения. Гражданская оборона организуется по территориально-производственному принципу, что позволяет при необходимости обеспечить использование в своих интересах людских и материальных ресурсов для успешного решения задач с наименьшим отрывом людей от их производственной деятельности. Производственный принцип заключается в организации ГО на каждом предприятии или объекте. При территориально - производственном принципе построения формирований гражданской обороны полную ответственность за организацию и состояние ГО, за постоянную готовность ее сил и средств к проведению спасательных и аварийно - восстановительных работ несет начальнику гражданской обороны объекта - руководитель предприятия. Поэтому система гражданской обороны тесно связана со всей структурой науки и производства.
Эффективность функционирования формирований и служб гражданской обороны определяется степенью подготовки и уровнем специальных навыков персонала, в первую очередь инженерно-технических работников как руководителей подразделений и служб в структуре ГО.
Происшествия на объектах, связанных с работой с радиоактивными материалами а также авария на Чернобыльской АЭС в 1986 г. показали необходимость поддержания высокого уровня подготовленности формирований ГО и готовности к ликвидации последствий аварий, отчего зависит спасение жизни людей нескольких поколений и сохранение значительных материальных ценностей.
Повышение профессионального уровня личного состава формирований гражданской обороны может обеспечиваться своевременным проведением учебно-подготовительных, тренировочных и контрольных занятий.
Большую помощь в этом может оказать применение современных средств обучения, автоматизации и, в частности, электронно-вычислительной техники. Это позволит значительно повысить эффективность и качество обучения при одновременном снижении времени и материальных затрат (например, за счет применения обучающих, тестирующих и имитирующих программ для ЭВМ вместо занятий на материальной части и тренировок на объектах).
3.1.2. Характерискика воздействия ядерного оружия
Поражающее действие ядерного взрыва определяется механическим воздействием ударной волны, тепловым воздействием светового излучения, радиационным воздействием проникающей радиации и радиоактивного заражения. Для некоторых элементов объектов поражающим фактором является электромагнитное излучение (электромагнитный импульс) ядерного взрыва.
Распределение энергии между поражающими факторами ядерного взрыва зависит от вида взрыва и условий, в которых он происходит. При взрыве в атмосфере примерно 50 % энергии взрыва расходуется на образование ударной волны, 30-40 % - на световое излучение, до 5 % - на проникающую радиацию и электромагнитный импульс и до 15 % - на радиоактивное заражение.