Диссертация (1137241), страница 11

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 11 страницаДиссертация (1137241) страница 112019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 11)

В таких чащах в среднем содержится10 синтаксических групп в каждом предложении и 10 дуг междупредложениями, которые дают нам до 40 расширенных групп.Поэтому для сопоставления таких чащ разбора необходимо попарнообобщить около 50 синтаксических групп и 40 расширенных групп изодной чащи с таким же множеством групп для другой.

С учетомобобщения отдельных существительных и глагольных групп этосоставляет порядка 2 * 45 * 45 обобщений, сопровождаемыхпроверкой вхождения результатов друг в друга. Каждое обобщениесостоит не более чем из 12 сравнений строк, если принять среднийразмер группы за 5 слов. Следовательно, в среднем обобщение двухчащ включает в себя 2 * 45 * 45 * 12 * 5 операций. Так как сравнениестрок занимает несколько микросекунд, обобщение занимает всреднем 100 миллисекунд без использования индекса. Однако в71промышленной поисковой системе, где группы хранятся в обратноминдексе,операцияобобщенияможетбытьвыполненазафиксированное время, не зависящее от размера индекса [70].2.8 Кластеризация результатов поиска2.8.1 Решетка замкнутых описаний на чащахОбработка результатов поиска и их интерпретация ‒ одно изважнейших направлений в промышленном информационном поиске.Проблемаотображениярезультатовчастосводитсякихранжированию по одному числовому показателю ‒ релевантности.

Вэтом случае результаты выводятся последовательно в соответствии сэтим значением. Однако в реальных системах ранжированиепроизводится не только не только по релевантности, но и по месту,времени, ожидаемому доходу от результатов поиска и другимпараметрам.Также существуют и альтернативные варианты отображениярезультатов поиска, использующие различные виды кластеризации[109, 110]. На практике, как правило, используется комбинация двухподходов: сначала результаты ранжируются по релевантности и изних отбираются N лучших.

А затем эти результаты тем или инымобразом группируются. Основное преимущество кластеризациизаключается в том, что похожие или дублирующие друг другарезультаты поиска объединяются, так что пользователь можетработать с кластерами результатов, а не с отдельными результатамипоиска.Одним из наиболее перспективных методов кластеризацииявляется концептуальная кластеризация, объединяющая объекты врешетку замкнутых множеств. Такая кластеризация удобна, например,когда поисковая выдача содержит результаты из разных источников:72новости, документы, картинки.

Если речь идет о социальном поиске,то кластеризация позволяет группировать ответы и темы попользователям и сообществам. Кроме того, решетка автоматическиформирует иерархию и позволяет работать на нужном уровнесходства (например, с большими группами не очень похожихрезультатовилисмаленькимигруппамипочтиодинаковыхрезультатов).ПростейшимявляетсявариантомиспользованиеНедостаткомвданномконцептуальнойрешетокслучаепонятийявляетсякластеризации[103,104,105,108].необходимостьпредварительного задания множества признаков и проведенияшкалирования для получения формального контекста. При этомнеизбежна частичная потеря или огрубление информации.Более сложным случаем является построение решетки на основезамкнутых структурных описаний ‒ узорных структур.

В этом случаемы сможем полностью использовать краткое текстовое описаниерезультата ‒ поисковый сниппет.Весь необходимый аппарат уже был введен выше. Структурнымописанием каждого результата будет являться чаща разбора.Решеточная операция пересечения – это операция сходства чащразбора. Имея данную операцию, для построения самой решеткиможно использовать любой стандартный алгоритм, например,AddIntent [19]. Также в главах 1 и 2 были введены проекции узорныхструктур. Проекция предоставляет нам приближенное структурноеописание, а также способ пересечения этих описаний.

Использованиепроекций для чащ позволяет улучшить временную и вычислительнуюсложность построения решетки: от операций на графах мы переходимк операциям на деревьях.73Важный момент заключается в том, что используемое описаниеможно расширять. Чаща разбора ‒ это первое «измерение» в описаниипоискового результата. Помимо этого, можно также добавлять другиеизмерения, например, временной интервал, для которого актуаленданный результат, целевую аудиторию (например, в виде множества)и т.д.

С математической точки зрения, для добавления новогоизмерения необходимо определить коммутативную и ассоциативнуюоперацию сходства на таких описаниях, которая во многих случаяхвводится естественным образом. Например, для множеств этопересечение, для интервалов ‒ объединение. Необходимо такжеотметить, что кластеризацию можно применять к произвольнымнаборам коротких текстов, а поисковая выдача просто является однимиз приложений данного подхода.2.8.2 Алгоритм кластеризации2.8.2.1 Кластеризация с использованием полного описанияТаким образом, алгоритм кластеризации в случае использованияобобщения на полном описании выглядит следующим образом:1. Взять множество текстов (поисковую выдачу) T.2. Для каждого результата ti T построить чащу разбора pi  P .3.

Используяоперациюобобщениячащразборавкачестверешеточной операции пересечения  , построить узорную решеткуT , P, , для всех текстов с помощью любого стандартногоалгоритма (например, AddIntent или Замыкай-По-Одному).4. Получить иерархические кластеры ‒ узорные понятия решетки.2.8.2.2 Кластеризация с использованием проекцийПри использовании приближенного представления абзацевалгоритм немного модифицируется:741. Взять множество текстов (поисковую выдачу) T.2.

Для каждого результата ti T построить проекцию чащи разбора  pi    P .3. Используя операцию обобщения проекций в качестве решеточнойоперации пересечения, построить проекцию узорной решеткиT , P , ,  длявсехтекстовспомощьюлюбогостандартного алгоритма (например, AddIntent или Замыкай-ПоОдному).4. Получить иерархические кластеры ‒ проекции узорных понятийрешетки.2.8.3 Пример кластеризации на проекцияхРассмотрим 3 новости и построим для них проекцию узорнойструктуры:1) At least 9 people were killed and 43 others wounded in shootings andbomb attacks, including four car bombings, in central and western Iraq onThursday, the police said.

A car bomb parked near the entrance of the localgovernment compound in Anbar's provincial capital of Ramadi, some 110km west of Baghdad, detonated in the morning near a convoy of vehiclescarrying the provincial governor Qassim al-Fahdawi, a provincial policesource told Xinhua on condition of anonymity.2) Officials say a car bomb in northeast Baghdad killed four people, whileanother bombing at a market in the central part of the capital killed at leasttwo and wounded many more.

Security officials also say at least twopolicemen were killed by a suicide car bomb attack in the northern city ofMosul. No group has claimed responsibility for the attacks, which occurredin both Sunni and Shi'ite neighborhoods.3) A car bombing in Damascus has killed at least nine security forces, withaid groups urging the evacuation of civilians trapped in the embattledSyrian town of Qusayr. The Syrian Observatory for Human Rights said onSunday the explosion, in the east of the capital, appeared to have beencarried out by the extremist Al-Nusra Front, which is allied to al-Qaeda,although there was no immediate confirmation.

In Lebanon, security75sources said two rockets fired from Syria landed in a border area, andIsraeli war planes could be heard flying low over several parts of thecountry.Нижнее понятие соответствует наиболее общему описанию ивсем объектам, имеющим это описание. В данном случае это пустоемножество объектов и все максимальные по вложению группы из трехновостей.На следующем уровне мы получаем понятия, каждое из которыхсодержит 1 объект и его описание.Узорное содержание для первой новости:[[NP [JJS-least CD-9 NNS-people ], NP [CD-43 NNS-others ], NP [NNSshootings CC-and NN-bomb NNS-attacks ], NP [NNS-shootings ], NP [NN-bomb NNSattacks ], NP [CD-four NN-car NNS-bombings ], NP [JJ-central CC-and JJ-westernNNP-Iraq ], NP [JJ-central ], NP [JJ-western NNP-Iraq ], NP [NNP-Thursday ], NP[DT-the NN-police ], NP [DT-A NN-car NN-bomb ], NP [DT-the NN-entrance IN-ofDT-the JJ-local NN-government NN-compound IN-in NNP-Anbar POS-'s JJ-provincialNN-capital IN-of NNP-Ramadi ,-, DT-some CD-110 NN-km NN-west IN-of NNPBaghdad ], NP [DT-the NN-entrance ]…, и т.д.Узорное содержание для второй новости:[[NP [NNS-Officials ], NP [DT-a NN-car NN-bomb IN-in JJ-northeast NNPBaghdad ], NP [DT-a NN-car NN-bomb ], NP [JJ-northeast NNP-Baghdad ], NP [CDfour NNS-people ], NP [DT-another NN-bombing IN-at DT-a NN-market IN-in DT-theJJ-central NN-part IN-of DT-the NN-capital ], NP [DT-another NN-bombing ], NP[DT-a NN-market IN-in DT-the JJ-central NN-part IN-of DT-the NN-capital],…и т.д.Узорное содержание для третьей новости:[[NP [DT-A NN-car NN-bombing IN-in NNP-Damascus ], NP [DT-A NN-carNN-bombing ], NP [NNP-Damascus ], NP [JJS-least CD-nine NN-security NNS-forces], NP [NN-aid NNS-groups VBG-urging DT-the NN-evacuation IN-of NNS-civiliansVBN-trapped IN-in DT-the JJ-embattled JJ-Syrian NN-town IN-of NNP-Qusayr ], NP[NN-aid NNS-groups ], …)76Понятие верхнего уровня содержит группы, которые являютсяобщими для всех текстов.

В данном случае все 3 текста повествуют овзрывах машин возле столиц (car bombing near capitals), чтовыражается фрагментами [DT-a NN-car NN-bombing ], [DT-the NNcapital ], [VBN-killed ], [JJS-least CD-* NN-* ]. Символ ‘*’ означает«произвольное слово, относящееся к данной части речи».Другие группы в данном узорном содержании соответствуютсинтаксическим шаблонам: [IN-of DT-the ], [NNS-* IN-* DT-* NN-* ].На уровне пересечения пар текстов наиболее интересным являетсяпонятие, содержащее тексты 1 и 2. Они описывают одно и то жесобытие, поэтому место происшествия совпадает: [NN-* NN-* IN-inNNP-baghdad]. В обоих текстах используются одинаковые термины:[NN-* NN-bomb NN-attack ], [NNS-attacks], и информация опострадавших: [VBD-wounded], [VBD-were VBN-killed ], [CD-* NNSpeople ], [CD-four NNS-* ].Рис 2.3.

Проекция узорной структуры для новостных текстов2.9 ВыводыВ работах [57, 71] было показано, как использование богатогонабора лингвистической информации – синтаксических связей междусловами – улучшает релевантность поиска. Для того чтобы, помимо77синтаксической информации, воспользоваться и семантической, былоиспользовано понятие чащи разбора и предложен способ вычислениясходствамеждутекстами,основанныйнаобобщениисоответствующих им чащ разбора. Также была построена и примененак задаче повторного ранжирования результатов поиска по ключевымсловам технология обобщения чащ разбора, представляемых в виденаборов групп.Для построения чащ использовались различные виды связеймеждусловамивпредложениях:кореферентныесвязи,таксономические отношения, такие как «быть частным случаем»,«быть обобщением», «та же сущность» и т.д., а также семантическиесвязи, полученные на базе теории риторических структур и теорииречевых актов. Было показано, что если ответ содержится внескольких предложениях, то применение чащи позволяет повыситьрелевантность поиска.Также было показано, что операция сходства или обобщенияабзацев текста может быть естественным образом определена спомощью математического аппарата узорных структур.

При этомобобщение с использованием общих подграфов точно описывается втерминах пересечения описаний объектов, а синтаксические ирасширенные группы соответствуют взятию проекций от исходныхописаний.Традиционное машинное обучение на языковых структурахограничено работой с формами и частотами ключевых слов. В то жевремябольшинствосемантическихтеорийнеявляютсявычислительными, они моделируют определенный набор отношениймежду последовательными состояниями. В данной работе былапредпринята попытка совместить два подхода: использовать всюинформацию, полученную из дерева синтаксического разбора,78дополнив ее сведениями из семантических теорий, допускающихвычислительную обработку.793.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.