Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 10

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 10 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 10 страницы из PDF

Так, например, по крайней мере, может быть оказываются ближе кколлокациям в шкалах словарь vs. грамматика и инвентарные vs. конструктивныеединицы, но ближе к конструкциям в шкале номинация vs. предикативная единица,парадигматика vs. синтагматика.29Цели исследования и способы решения поставленных задач вынуждают насдвояко рассматривать анализируемые единицы с точки зрения того, включают ли онислоты или представлены в виде фиксированного лексического наполнения. Слотыили, другими словами, лексические элементы, которые могут варьироваться, насинтересуют в тех конструкциях (или «скорее конструкциях»), в которых наличиеслотов – и варианты их заполнения – важны для решения определенных задач(прежде всего, задач анализа текстов).

Сошлемся на приведенные выше примерыконструкций введения источника информации, где слот представляет собой тотсамый источник информации: сообщает X, сообщает Интерфакс со ссылкой на N. Вслучае исследования, например, производной служебной лексики мыостанавливаемся на варианте представления в виде фиксированного лексическогонаполнения: в зависимости от, а не в зависимости от X. Причина выбора такоговарианта рассмотрения в предполагаемой информационной незначимости возможныхвидов заполнения слота – для решения задач анализа текстов. Если при анализекакой-либо коллекции выявляется явное статистическое предпочтение одного илинескольких вариантов заполнения потенциального слота X, производный предлог«сдвинется» в сторону конструкции со слотом (напр., представим себе такуюколлекцию, где в конструкции в зависимости от X, X предпочитает приниматьзначение цели, задачи или гипотезы).§ 2.4.Типы коллокаций и конструкций.

Принцип шкалированияОписание материалаГлавное требование к материалу и методике в экспериментальном исследовании– в данном случае это вычислительный эксперимент – адекватность целям и задачам.Применительно к лекциям это требование дополняется еще важностью доказательнойсилы и наглядности. В качестве основного материала в наших иллюстративныхпримерах использовались три коллекции новостных и научных текстов:• портала www.lenta.ru 2009; общий объем проанализированных текстов: более66000000 «токенов» (словоупотребленией и знаков препинания);• материаловконференции«Корпуснаялингвистика»2004-2008года(монотематическая коллекция); объем коллекции составляет около 220000«токенов»;• материалов международной конференции «Диалог» «Компьютерная лингвистикаи интеллектуальные технологии» за 2003-2009 годы; объем коллекции составляетоколо 2500000 «токенов».Привлекался также дополнительный материал (новостные источники,отличающиеся от Ленты.ру по жанру, предметной области, стилевым и прочимхарактеристикам, связанным со степенью информационной насыщенности): «РИАНовости», «РосБизнесКонсалтинг», «Компьюлента», «Независимая газета»20.Дополнительный материал анализируется только тогда, когда описанные наматериале Лента.ру особенности характеризуют новостные тексты только одногожанра (напр., текстов сообщений новостной ленты), и отличаются при смене жанра(или других стилевых параметров).20Эта часть работы подробно описывается в [162].30Морфологическая разметка коллекций осуществлялась В.В.

Бочаровым припомощи свободно распространяемого программного обеспечения АОТ (www.aot.ru).Для разметки использовался, в первую очередь, модуль морфологической анализа;модуль синтаксического анализа использовался для частичного снятияморфологической омонимии. В тех случаях, когда полностью снять омонимию неудавалось, для анализа использовалась первая из предложенных анализатором лемм,т.е. неоднозначность разбора просто игнорировалась. При выделении коллокацийучитывались знаки препинания: рассматривались любые последовательности слов втексте, не разделенных знаками препинания.Главной задачей методики было намерение разделения биграмм – уже на этапеприменения статистических мер – на указанной шкале от коллокаций кконструкциям21. Нами использовались две меры: MI [10] и t-score [11].MI=log2 f (с1 , c2 ) × N ,(1)f (с1 ) × f (c2 )t − score =f (с1 ) × f (c 2 )Nf (с1 , c 2 )f (с1 , c 2 ) −(2)гдеci – коллокаты;f(c1,c2) – абсолютная частота встречаемости коллокации с1 с2, с учетом порядкаколлокатов внутри биграммы;f(c1), f(c2) – абсолютные частоты с1 и с2 в корпусе;N – общее число словоупотреблений в корпусе.С точки зрения теории вероятности, мера MI (mutual information, коэффициентвзаимной информации) является способом проверить степень независимостипоявления двух слов в тексте — если слова полностью независимы, то вероятность ихсовместного появления равна произведению вероятностей появления каждого из них,т.

е. произведению частот, а значение меры MI равно нулю.Недостатком меры MI является ее свойство завышать значимость редкихсловосочетаний. Чем более редки слова, образующие коллокацию, тем выше будетдля них значение MI, что делает данную меру совершенно «беззащитной» передопечатками, окказионализмами, иностранными словами и другим информационнымшумом, который неизбежен в большой коллекции. Поэтому для данной мерыиспользуется порог отсечения по частоте. К сожалению, правильный подбор порогаотсечения оказывается чрезвычайно сложной задачей.

Верно и обратное: мера MIоказывается беззащитной в том случае, если хотя бы один из коллокатов имеет(сверх)высокую частоту встречаемости, напр., она не сможет выделить такиепредлоги как в качестве, в зависимости, в отличие (от) в силу того, что предлог «в»всегда имеет сверхвысокую частоту.Другой мерой, которая использовалась в данном исследовании, стала мера tscore, которая учитывает частоту совместной встречаемости ключевого слова и егоколлоката, отвечая на вопрос, насколько не случайной является сила ассоциации(связанности) между коллокатами.Подробнее о методике для рассматриваемого типа исследования см. (Ягунова, Пивоварова 2011; Пивоварова2010).2131Данная мера используется гораздо реже, чем мера MI, в частности, потому чтоона является лишь несколько модифицированным ранжированием коллокаций почастоте. Очевидно, что значение данной меры тем выше, чем выше частотаколлокации в коллекции.

Хотя данная мера содержит коррекционный компонент —вычитание деленного на размер коллекции произведения частот коллокатов, однакоэта поправка отражается лишь на самых частотных словах. Stubbs [Stubbs 1995]показывает (на примере английского языка), что значение меры t-score длязнаменательных слов примерно равно √f(n, c) и лишь для служебных заметно меньшеэтого значения.

В литературе эта особенность часто трактуется как малопригодностьэтой меры для поиска терминологических словосочетаний и номинаций; для этойцели она, как правило, не используется. Естественно, что мера t-score, в отличие отMI, не преувеличивает значимость редких коллокаций и не требует использованияпорогов отсечения.В нашем исследовании мы учитывали порядок коллокатов внутри биграммы.Меру MI можно обобщить для любого числа коллокатов, в данном случае мырассматриваем результаты, полученные с помощью [72]:MI = log 2f ( c1 , c 2 ,..., c i ) ∗ ( N (i −1) )f ( c1 ) ∗ f ( c 2 ) * ...

* f (c i ),(1а)где i – число коллокатов, остальные условные обозначения те же, что и дляформул 1 и 2.Обобщение меры t-score для коллокаций длиннее, чем биграммы, в литературене встречается. Причиной этого может быть тот факт, что мера t-score являетсяаппроксимацией частоты, которая за счет поправочного коэффициента «понижает»значимость словосочетаний, состоящих из двух очень частотных слов (например,двух союзов или союза и предлога). Поскольку сами коллокаты очень частотны, такиеколлокации становится частотными просто в силу вероятностных причин. Однакочем больше число коллокатов входит в коллокацию, тем меньше сила этого эффекта(не говоря уже о сомнительности появления в тексте, например, трех союзов подряд).Поэтому для многословных коллокаций использование t-score не представляетсяосмысленным, а сама частота становится более надежным источником информации,чем для биграмм.

В нашей работе для многословных сочетаний используетсясобственно частота коллокации (вместо расширенного варианта t-score).Вопрос о выборе первичной лексической единицы анализа – лексемы и/илисловоформы – для русского языка (как языка с развитой морфологией) всегдарешается неоднозначно; эти единицы отражают разные аспекты и уровни лексикограмматической информации об исследуемых единицах (см.

ниже).MI-коллокацииКак уже говорилось, под типичными коллокациями в нашей классификации мыпонимаем прежде всего неоднословные номинации и сложные термины. Более того,такие колокации зачастую выходят за пределы «чистой фразеологии», их целостностькак единой номинации оказывается более значимым признаком, а под устойчивостьюпонимается скорее степень неслучайности совместной встречаемости слов.Коллокации достаточно часто выступают в качестве важной и частотнойединицы словаря.

В этом смысле «ядерные» колокации могут рассматриваться нетолько на шкале от «коллокации до конструкции», но и на дополнительной шкале «отслова до коллокации».32А что такое «слово»? Не углубляясь в неоднозначность определения – казалосьбы – ведущей единицы языка и речи, вспомним о наличии противоречий даже на этомуровне. Что является единицей анализа текста: лексема или словоформа? Можносчитать более чем обоснованным и экспериментально доказанным положение о том,что словоформа является ведущей единицей анализа русского текста (лексемавыполняет роль дополнительной единицы анализа, востребуемой лишь в особыхслучаях) [112; 115]. Вероятно, такое противопоставление роли лексемы исловоформы, отчасти обусловлено типологическими характеристиками русскогоязыка как флективного языка с богатой морфологией.При работе с коллокациями выбор основной единицы анализа представляетсобой дополнительный вопрос: лексема или словоформа? 22На материале новостных текстов был проведен предварительныйсопоставительный анализ списка сочетаний, выделяемых для лексем (но несловоформ), списка сочетаний, выделяемых для словоформ (но не лексем) и спискасочетаний, выделяемых и для лексем, и для словоформ (подробнее см.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5193
Авторов
на СтудИзбе
434
Средний доход
с одного платного файла
Обучение Подробнее