Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 18

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 18 страницаДиссертация (1137276) страница 182019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 18)

Моренко мы разработали небольшую ути­литу WikiDP (Wiki Download and Parse) для извлечения дерева категорий изВикипедии. Она устроена так: пользователь вводит название категории из Ви­кипедии и получает на выходе дерево категорий, лежащее под этой категорией.В программе WikiDP мы учили все перечисленные трудности.

Во-первых, припопадании в новую категорию мы проверяем, была ли уже она посещена, еслида, то переходим к следующей категории, если нет, выполняем обход даннойкатегории – так мы избегаем циклы. Во-вторых, мы предлагаем пользовате­лю ввести ограничение на глубину дерева категорий, после чего программаWikiDP показывает пользователю все подкатегории на заданном расстоянии отисходной категории и пользователь может выбрать нужные ему подкатегории.Используя WikiDP мы смогли извлечь из Википедии необходимые статьи.Пользовательский интерфейс WikiDP представлен на Рис. 6.2. Для рабо­ты с утилитой пользователь должен ввести в поле “Название категории” назва­ние категории Википедии, которая его интересует.

При этом, пробелы следуетзаменить на знак нижнего подчеркивания “_” . После этого возможны три сце­нария работы с утилитой:– Создать дерево категорий: сохранить в файл “data.txt” дерево катего­рий, корнем которой будет введенная категория;– Скачать статьи по дереву: извлечь из Википедии все тексты статей,принадлежащих к введенной категории и всем ее подкатегориям. Приэтом, если дерево категорий содержит цикл, WikiDP не сможет завер­шить работу и войдет в бесконечный цикл;– Скачать статьи данной категории: извлечь из Википедии все текстыстатей, принадлежащих к введенной категории. Этот сценарий не содер­жит угрозы бесконечного цикла, поскольку не предполагает перехода вподкатегории.Флажок “Названия статей” позволяет управлять пользователю содержа­нием дерева категорий: если он находится в положении “включено”, в деревокатегории будут включены названия статей.

В обратном случае, названия ста­тей в дерево категорий включены не будут.106Рисунок 6.2 — Пользовательский интерфейс WikiDPРисунок 6.3 — Извлеченное дерево категорий категории “Дискретнаяматематика” без названий статейНа Рис. 6.3 приведен пример извлеченного дерева категорий категории“Дискретная математика” без названий статей.107ЗаключениеВ работе предложена теоретико-множественная модель представленияколлекций текстовых документов. В отличии от классических моделей – век­торной, вероятностной или языковой моделей – в предлагаемой теоретико-мно­жественной модели коллекции текстовых документов текст рассматривается некак набор термов, а как последовательность символов.

Представлением текстаслужат все символьное последовательности фиксированной длины и короче иих частоты. Утверждается, что только такое модельное представление текстапозволяет создать меру релевантности «строка – текст», не зависящую от раз­мера входной коллекции и учитывающую нечеткие (то есть, с различием нанесколько символов) совпадения между строкой и текстом. Вводится понятиемаксимального совпадения – такого совпадения между строкой и текстом, ко­торое при добавлении к нему символа слева и справа, перестает быть совпа­дением.

Именно максимальные совпадения и их частоты служат основной длявычисления нечетких оценок релевантности.Для вычисления частот теоретико-множественной модели предлагаетсяиспользовать метод аннотированного суффиксного дерева, который позволяетза линейное от размера текста время найти всего его фрагменты заданной дли­ны и короче, а также вычислить их частоты.

В работе впервые построена модельнормированного аннотированного суффиксного дерева и введена ассоциирован­ная с ней естественно интерпретируемая мера релевантности СУВСС, а такжеметод ее вычисления nAST-k. Предлагаемая мера релевантности СУВСС пред­ставляет собой среднюю условную частоту символа в максимальном совпадениии позволяет находить оценки релевантности строки тексту, которые– не зависят от размера входного текста или коллекции текстов;– учитывают нечеткие совпадения между входной строкой и текстом.Мера релевантности СУВСС была использована для построения таблиц реле­вантности «строка – текст», которые в дальнейшем используются для решенияконкретных практических задач.Предложены и верифицированы методы для решения следующих задач:1.

Метод рубрикации научных статей AnnAST в соответствии с системойрубрик, заданной таксономией. Метод позволяет получить для каждойнаучной статьи некоторое фиксированное количество таксономических108тем, отражающих содержание научной статьи. Множество таксономи­ческих тем формируется в соответствии с оценками СУВСС. Показано,что использование СУВСС в задаче рубрикации статей более эффек­тивно, чем использование косинусной меры релевантности и меры ре­левантности BM 25. Метод AnnAST применен к коллекции аннотацийнаучных статей журналов ACM по информатике.2.

Метод пополнения таксономии предметной области ReTAST-w. Методсостоит из двух основных этапов. На первом этапе эксперт задает ос­нову таксономии, на втором этапе таксономия автоматически пополня­ется за счет ресурсов Википедии. Дерево категорий используется длядостраивания промежуточных уровней, названия статей – в качествелистьев в новой таксономии, тексты статей – в качестве источникауточнений листьев. При этом, мера релевантности СУВСС использу­ется на двух шагах метода: для очистки данных Википедии от шума идля определения связей между названиями категорий и темами таксо­номии.

Метод применен для пополнения таксономий а) теории вероят­ностей и математической статистики, б) численных методов, при этомосновы таксономии были заданы по паспортам ВАК соответствующихспециальностей.3. Метод фильтрации обсценной лексики fAST. Метод используется дляочистки от обсценной лексики собственной коллекции текстов. Устанав­ливается аналогия между очисткой от обсценной лексики и поискомпо однословному ключу с поправкой на оптимизируемый критерий.Демонстрируется эффективность метода fAST по сравнению со стан­дартными методами поиска по однословным ключам и редакционномурасстоянию по полноте и временной эффективности.В работе приведено описание двух программных комплексов.

Программ­ный комплекс WikiDP используется для скачивания статей и дерева категорийрусскоязычной Википедии и работает в интерактивном режиме. Программныйкомплекс EAST полностью реализует pipeline для построения таблиц релевант­ности «строка – текст», начиная предобработки текстов и разбиения их на стро­ки фиксированной длины и заканчивая вычислением СУВСС и построениемискомых таблиц релевантности «строка – текст для входных списков строк иколлекции текстов».109Нельзя не сказать об ограничениях вычислительного плана, связанныхс необходимостью создания и поддержки аннотированного суффиксного дере­ва для сколь-нибудь значительной коллекции тестов. В этом плане нельзя неупомянуть еще одну нашу инновацию – переход от рассмотрения текста как еди­ной строки к рассмотрению его как совокупности коротких строк.

В какой-тостепени это снижает чувствительность метода, так как разрывает связи меж­ду словами, далеко находящимися друг от друга в тексте. Вместе с тем, этосущественно понижает глубину получаемого дерева и, следовательно, вычис­лительную трудоемкость метода. Вероятно, дальнейшие успехи по ускорениюработы метода могут получиться на путях его параллелизации и перехода кдистрибутивным вычислениям.110Список литературы1.

Salton G., Buckley D. Term Weighting Approaches in Automatic TextRetrieval // Information Processing & Management. — 1988. — Т. 24, №5. — С. 513—523.2. Robertson S., Zaragoza H. The Probabilistic Relevance Framework: BM25and Beyond. — Now Publishers Inc., 2009.3. Ponte J. M., Croft W. B. A Language modeling Approach to InformationRetrieval // Proc. Conference on Research and Development in InformationRetrieval. — ACM. 1998. — С. 275—281.4. Zamir O., Etzioni O. Web Document Clustering: a FeasibilityDemonstration // Proc.

International Conference on Research andDevelopment in Information Retrieval. — ACM. 1998. — С. 46—54.5. Pampapathi R., Mirkin B., Levene M. A Suffix tree Approach to Anti-spamE-mail Filtering // Machine Learning. — 2006. — Т. 65, № 1. — С. 309—338.6. Manning C. D., Schütze H. Foundations of Statistical Natural LanguageProcessing. Т. 999. — MIT Press, 1999.7. Martin D., Jurafsky D. Speech and Language Processing. An introductionto natural language processing, computational linguistics, and speechrecognition. — 2000.8. Harris Z. S.

Distributional Structure // Word. — 1954. — Т. 10, № 2—3. —С. 146—162.9. Berry M. W., Browne M. Understanding Search Engines: MathematicalModeling and Text Retrieval. Т. 17. — Siam, 2005.10. TF-ICF: A New term Weighting Scheme for Clustering Dynamic DataStreams / J. W. Reed [и др.] // Proc. International Conference on MachineLearning and Applications. — IEEE.

2006. — С. 258—263.11. Raghavan V. V., Wong S. K. M. A Critical Analysis of Vector Space Modelfor Information Retrieval // Journal of the American Society for informationScience. — 1986. — Т. 37, № 5. — С. 279.11112. Turney P. D., Pantel P. From Frequency to Meaning: Vector Space Modelsof Semantics // Journal of Artificial Intelligence Research. — 2010. — Т.

37,№ 1. — С. 141—188.13. Rehurek R., Sojka P. Software Framework for Topic Modelling with LargeCorpora // Proc. Workshop on New Challenges for NLP Frameworks. —Citeseer. 2010.14. Bird S., Klein E., Loper E. Natural Language Processing with Python. —O’Reilly Media, Inc., 2009.15.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6510
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее