Главная » Просмотр файлов » Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы

Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 7

Файл №1094956 Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы) 7 страницаПрограммные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956) страница 72018-02-16СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

С другой стороны, алгоритмы проекта “Микрокосмос” (США), В.А.Тузова,В.А.Фомичева, И.С.Циликова и др., предназначенные для проведения семантическогоанализа текстов на уровне, близком к восприятию естественно-языковых текстов человеком, весьма сложны в практической реализации.В работе описан разработанный алгоритм автоматического поиска и подсчета ключевых слов из заданного словаря, представляющих собой словосочетания сложнойструктуры, учитывающий морфологию русского языка.

Для рассмотрения в качествеключевых слов терминов–словосочетаний предложено использовать, наряду с традиционным индексомNtx − Ptx − Nw ,оригинальный индексNtr − Ptr − Nw ,где Ntx — номер текста, Ptx — позиция слова в тексте, Nw — номер слова из лексическогословаря, Ntr — номер термина, Ptr — позиция слова в термине.Алгоритм построения индекса терминов включает следующие этапы:1. Разбиение термина на отдельные слова.2. Создание предварительного индекса, содержащего триады “номер термина” —“позиция слова в термине” — “слово в символьном представлении”.3. Добавление встретившихся неизвестных слов в лексический словарь библиотеки,где им присваиваются ид.

номера.4. Переработка индекса в формат “номер термина” — “позиция в тексте” — “номерслова из лексического словаря”.5. Сбор статистики о длинах терминов для реализации поиска и идентификациисоставных терминов.6. Сбор статистики о количестве вхождений отдельных слов в термины для оптимизации поиска путем исключения из рассмотрения терминов, заведомо отсутствующих в тексте.Алгоритм построения индекса текстов аналогичен, но в нем отсутствует этап 3.Алгоритм подсчета вхождений терминов в текст (или тексты) включает этапы:1.

Подсчет возможных комбинаций “текст” — “термин”, основанный на статистикевхождения отдельных слов.2. Нахождение всех потенциально возможных мест вхождения каждого термина втекст (тексты) на основе наличия хотя бы одного общего слова из лексическогословаря. Позиция каждого потенциально возможного вхождения фиксируется.3. Рассмотрение каждого из возможных мест вхождений с точки зрения соответствия термину в целом.

Актуальность вхождения определяется наличием рядомс соответствующей позицией других слов, входящих в термин.4. Исключение учета вхождений, поглощаемых более длинными вхождениями.5. Сбор статистики вхождений для каждой пары “текст” — “термин”.22В качестве основы базового лексического словаря программной библиотеки координатного индексирования использован свободно распространяемый словарь Ispell. Работа по генерации всех словоформ нового слова для пополнения словаря весьма трудоемка: для существительного — 12 словоформ, для прилагательного — 24 словоформы(многие словоформы будут повторяться). В распространенных текстовых процессорахи редакторах (Word, Writer, WinEdit) словари пополняются лишь конкретной вводимойсловоформой.Для автоматизации работы было построено веб-приложение, автоматически генерирующее все словоформы заданного слова (существительного или прилагательного)русского языка.

В основе работы веб-приложения лежит алгоритм Г.Г.Белоногова, использующий разбиение слов языка на флективные классы, т.е. типы словоизменения,каждому из которых ставилась в соответствие система окончаний всех словоформслова-представителя (основа, как правило, остается неизменной; в противном случаеизменения основы контролируется вручную).Множество всех флективных классов F можно представить какF =6[Fi =i=16[i{fik }lk=1,i=1где флективным классам существительных мужского рода одушевленных соответствует i = 1, существительных мужского рода неодушевленных — i = 2, существительныхженского рода одушевленных — i = 3, существительных женского рода неодушевленных — i = 4, существительных среднего рода — i = 5, прилагательных — i = 6, приэтом числа элементов в указанных надклассах образуют вектор ¯l = (19, 16, 8, 12, 11, 12).Нетрудно видеть, что эти числа зачастую слишком велики для эффективной работы пользователя по выбору нужного класса, поскольку специалистами в области когнитивной психологии показано, что эффективный выбор возможен, если количествовариантов не превышает 7–9.Для решения данной проблемы нами предложена модификация алгоритмаГ.Г.Белоногова, состоящая в автоматическом анализе окончаний нормализованной словоформы внутри каждого надкласса с целью его автоматического разбиения на несколько подмножеств:F =mi[j=1mi[Fij =lij{fijk }k=1,j=1что приводит к значительному уменьшению количества элементов, из которых предстоит сделать выбор, поскольку ¯l1 = (12, 2, 2, 2, 1), ¯l2 = (10, 3, 3), ¯l3 = (4, 3, 1), ¯l4 = (6, 4, 2),¯l5 = (5, 5, 1), ¯l6 = (4, 4, 2, 1, 1).При работе с новым словом эксперт устанавливает при необходимости его начальную форму и указывает его тип: независимое существительное, прилагательное илизависимое слово-дополнение в родительном падеже.

Зависимое слово сразу добавляется в словарь, так как единственной формой слова (применительно к соответствующемуконтексту) является оно само. При выборе независимого существительного на следующем шаге необходимо указать его род и одушевленность. Для прилагательного дополнительные характеристики не указываются.

Далее программа автоматически проводитпредварительный анализ окончания слова, отсеивая те классы, к которым данное слово заведомо принадлежать не может. После этого нужно выбрать флективный класс,которому соответствует слово. Для выбора предоставляется таблица возможных флективных классов, которые определяются словом-представителем и его несколькими характерными словоформами (рис. 2).23Рис. 2. Выбор флективного класса.Количество объектов-альтернатив в подавляющем большинстве случаев доведенодо рекомендуемого когнитивной психологией (около 9 альтернатив). Для существительных мужского рода ситуация неулучшаема (например, слова “волос”, “голос” и “колос”относятся к разным флективным классам).В алгоритме решения аналогичной задачи Е.А.Каневского классы словоформ определялись без учета теоретических исследований Г.Г.Белоногова путем непосредственного анализа типов окончаний.

Это приводит к появлению более 10 тыс. классов длясуществительных и 2,5 тыс. классов для прилагательных. (к одному классу отнесеныслова, у начальных форм которых совпадают 3 последние буквы), что делает данныйалгоритм трудновоспроизводимым. Однако даже столь детальное разбиение не способно дать абсолютно точное различение слов по типу склонения, к тому же “эмпирический” характер вызывает определенные вопросы относительно полноты описанияклассов.В пятой главе обсуждаются вопросы автоматизации процессов классификациии кластеризации электронных документов.В § 5.1 изложена методика создания тезаурусов и онтологий на основе предметного указателя специализированных энциклопедий, которая обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенныхтерминов, позволяя провести начальный, наиболее трудоемкий, этап построения онтологии с минимальным привлечением специалистов — экспертов в данной предметнойобласти.Методика, предложенная автором в 2003 году, имеет оригинальный характер.

Создатели РуТез (Б.В.Добров и др., 2005 г.) также предложили использовать для составления тезауруса предметные указатели энциклопедий, но без механизма установлениясвязей.Блок-схема алгоритма представлена на рис. 3.В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или несколькихэнциклопедий). В качестве дескрипторов (т.е. терминов, являющихся именами классовблизких по смыслу понятий) полагаются названия статей энциклопедии, а связаннымис ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях. Основным преимуществом такого метода является то, что дляустановления связей между терминами не требуется быть экспертом (и даже специалистом) в данной предметной области.

Суть метода состоит в следующем. Пусть внекотором томе содержится k статей, тогда номера их начальных страниц образуютнеубывающую последовательность (n1 , n2 , . . . , nk ). Если i-я статья занимает несколькостраниц (ni+1 − ni > 1), то термины, бесспорно к ней относящиеся (находящиеся настраницах nj таких, что ni < nj < ni+1 ), связываются с дескриптором автоматически,24что значительно сокращает объем ручной работы. Если же 0 ≤ ni+1 − ni ≤ 1, то пользователю предлагаются еще не связанные на данный момент термины со страницы ni(и, при необходимости, ni+1 ) для отсеивания “избыточных” терминов вручную.Рис.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее