47167 (571946), страница 2
Текст из файла (страница 2)
В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.
Для устранения многозначности (омонимии и полисемии) ключевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.
Разработка тезауруса без использования компьютерных технологий - достаточно длительный и трудоемкий процесс.
Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной области. Результаты такой обработки обычно представляются в виде матрицы «документ-термин», (рис.1). Элемент матрицы на пересечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подобия между словами, определяемые в зависимости от частоты, с которой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.
| Документы | Частота слова в документе | ||||||
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
| D1 D2 D3 D4 | |||||||
Рис.1. Пример матрицы «термин-документ»
Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (синонимии), отношение подчинения и ассоциативные отношения.
6. Сфера применения и перспективы развития информационно-поисковых тезаурусов
В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.
Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:
1. Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).
2. Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.
3. Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих, из общего стиля документа.
Заключение
В условиях конкурентной борьбы, необходимости постоянного повышения качества работы органа управления и всего предприятия в целом на руководителя обрушивается мощный поток информации, прежде всего документальной, и у него возникают проблемы с ее переработкой. Необходимы специальные методы информационной обработки документов, организации быстрого и эффективного поиска документальной информации. Именно информационно-поисковые тезаурусы служат решению этой проблемы.
Считаю, что в моей работе достаточно подробно и логично изложены способы использования и построения информационно-поискового тезауруса, а также сфера его применения и перспективы развития.
Литература
1. Ивасенко А.Г. Информационные технологии в экономике и управлении: учебное пособие / А.Г.Ивасенко, А.Ю.Гридасов, В.А.Павленко.- 2-е изд., стер.- М.: КНОРУС, 2007.- 160с.
2. Информатика для юристов и экономистов / Симонович С.В. и др.- СПб.: Питер, 2001.- 688с.: ил.
3. Информатика: Базовый курс/С.В.Симонович и др.- СПб.: Питер, 2002.- 640с.: ил.
4. Михеева Е.В. Информационные технологии в профессиональной деятельности: учебное пособие.- М.: ТК ВЕЛБИ, Изд-во Проспект, 2007.- 448с.
5. Организация работы с документами: Учебник / Под ред.проф.В.А.Кудряева.- 2-е изд., перераб. и доп.- М.: ИНФРА-М, 2001.- 592с.- (Серия «Высшее образование»).














