Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 10

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 10 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 102020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 10)

Для данной статьи это разумное допущение, т.к. в нейанализируются коллекция и неоднословные единицы (от коллокаций доконструкций), характеризующие коллекцию в целом. На следующих этапах анализа иинтерпретации, когда рассмотрению подлежат характеристики как коллекций, так иконкретных текстов, составляющих эти коллекции, шкалы конкретизируются. Наследующих этапах анализа оценивается то, насколько степень удаленности от«ядерных коллокаций» и/или от «ядерных конструкций» зависит от конкретнойшкалы.

Так, например, по крайней мере, может быть оказываются ближе кколлокациям в шкалах словарь vs. грамматика и инвентарные vs. конструктивныеединицы, но ближе к конструкциям в шкале номинация vs. предикативная единица,парадигматика vs. синтагматика.29Цели исследования и способы решения поставленных задач вынуждают насдвояко рассматривать анализируемые единицы с точки зрения того, включают ли онислоты или представлены в виде фиксированного лексического наполнения.

Слотыили, другими словами, лексические элементы, которые могут варьироваться, насинтересуют в тех конструкциях (или «скорее конструкциях»), в которых наличиеслотов – и варианты их заполнения – важны для решения определенных задач(прежде всего, задач анализа текстов). Сошлемся на приведенные выше примерыконструкций введения источника информации, где слот представляет собой тотсамый источник информации: сообщает X, сообщает Интерфакс со ссылкой на N. Вслучае исследования, например, производной служебной лексики мыостанавливаемся на варианте представления в виде фиксированного лексическогонаполнения: в зависимости от, а не в зависимости от X.

Причина выбора такоговарианта рассмотрения в предполагаемой информационной незначимости возможныхвидов заполнения слота – для решения задач анализа текстов. Если при анализекакой-либо коллекции выявляется явное статистическое предпочтение одного илинескольких вариантов заполнения потенциального слота X, производный предлог«сдвинется» в сторону конструкции со слотом (напр., представим себе такуюколлекцию, где в конструкции в зависимости от X, X предпочитает приниматьзначение цели, задачи или гипотезы).§ 2.4.Типы коллокаций и конструкций. Принцип шкалированияОписание материалаГлавное требование к материалу и методике в экспериментальном исследовании– в данном случае это вычислительный эксперимент – адекватность целям и задачам.Применительно к лекциям это требование дополняется еще важностью доказательнойсилы и наглядности. В качестве основного материала в наших иллюстративныхпримерах использовались три коллекции новостных и научных текстов:• портала www.lenta.ru 2009; общий объем проанализированных текстов: более66000000 «токенов» (словоупотребленией и знаков препинания);• материаловконференции«Корпуснаялингвистика»2004-2008года(монотематическая коллекция); объем коллекции составляет около 220000«токенов»;• материалов международной конференции «Диалог» «Компьютерная лингвистикаи интеллектуальные технологии» за 2003-2009 годы; объем коллекции составляетоколо 2500000 «токенов».Привлекался также дополнительный материал (новостные источники,отличающиеся от Ленты.ру по жанру, предметной области, стилевым и прочимхарактеристикам, связанным со степенью информационной насыщенности): «РИАНовости», «РосБизнесКонсалтинг», «Компьюлента», «Независимая газета»20.Дополнительный материал анализируется только тогда, когда описанные наматериале Лента.ру особенности характеризуют новостные тексты только одногожанра (напр., текстов сообщений новостной ленты), и отличаются при смене жанра(или других стилевых параметров).20Эта часть работы подробно описывается в [162].30Морфологическая разметка коллекций осуществлялась В.В.

Бочаровым припомощи свободно распространяемого программного обеспечения АОТ (www.aot.ru).Для разметки использовался, в первую очередь, модуль морфологической анализа;модуль синтаксического анализа использовался для частичного снятияморфологической омонимии. В тех случаях, когда полностью снять омонимию неудавалось, для анализа использовалась первая из предложенных анализатором лемм,т.е.

неоднозначность разбора просто игнорировалась. При выделении коллокацийучитывались знаки препинания: рассматривались любые последовательности слов втексте, не разделенных знаками препинания.Главной задачей методики было намерение разделения биграмм – уже на этапеприменения статистических мер – на указанной шкале от коллокаций кконструкциям21. Нами использовались две меры: MI [10] и t-score [11].MI=log2 f (с1 , c2 ) × N ,(1)f (с1 ) × f (c2 )t − score =f (с1 ) × f (c 2 )Nf (с1 , c 2 )f (с1 , c 2 ) −(2)гдеci – коллокаты;f(c1,c2) – абсолютная частота встречаемости коллокации с1 с2, с учетом порядкаколлокатов внутри биграммы;f(c1), f(c2) – абсолютные частоты с1 и с2 в корпусе;N – общее число словоупотреблений в корпусе.С точки зрения теории вероятности, мера MI (mutual information, коэффициентвзаимной информации) является способом проверить степень независимостипоявления двух слов в тексте — если слова полностью независимы, то вероятность ихсовместного появления равна произведению вероятностей появления каждого из них,т.

е. произведению частот, а значение меры MI равно нулю.Недостатком меры MI является ее свойство завышать значимость редкихсловосочетаний. Чем более редки слова, образующие коллокацию, тем выше будетдля них значение MI, что делает данную меру совершенно «беззащитной» передопечатками, окказионализмами, иностранными словами и другим информационнымшумом, который неизбежен в большой коллекции. Поэтому для данной мерыиспользуется порог отсечения по частоте. К сожалению, правильный подбор порогаотсечения оказывается чрезвычайно сложной задачей.

Верно и обратное: мера MIоказывается беззащитной в том случае, если хотя бы один из коллокатов имеет(сверх)высокую частоту встречаемости, напр., она не сможет выделить такиепредлоги как в качестве, в зависимости, в отличие (от) в силу того, что предлог «в»всегда имеет сверхвысокую частоту.Другой мерой, которая использовалась в данном исследовании, стала мера tscore, которая учитывает частоту совместной встречаемости ключевого слова и егоколлоката, отвечая на вопрос, насколько не случайной является сила ассоциации(связанности) между коллокатами.Подробнее о методике для рассматриваемого типа исследования см.

(Ягунова, Пивоварова 2011; Пивоварова2010).2131Данная мера используется гораздо реже, чем мера MI, в частности, потому чтоона является лишь несколько модифицированным ранжированием коллокаций почастоте. Очевидно, что значение данной меры тем выше, чем выше частотаколлокации в коллекции. Хотя данная мера содержит коррекционный компонент —вычитание деленного на размер коллекции произведения частот коллокатов, однакоэта поправка отражается лишь на самых частотных словах. Stubbs [Stubbs 1995]показывает (на примере английского языка), что значение меры t-score длязнаменательных слов примерно равно √f(n, c) и лишь для служебных заметно меньшеэтого значения. В литературе эта особенность часто трактуется как малопригодностьэтой меры для поиска терминологических словосочетаний и номинаций; для этойцели она, как правило, не используется.

Естественно, что мера t-score, в отличие отMI, не преувеличивает значимость редких коллокаций и не требует использованияпорогов отсечения.В нашем исследовании мы учитывали порядок коллокатов внутри биграммы.Меру MI можно обобщить для любого числа коллокатов, в данном случае мырассматриваем результаты, полученные с помощью [72]:MI = log 2f ( c1 , c 2 ,..., c i ) ∗ ( N (i −1) )f ( c1 ) ∗ f ( c 2 ) * ... * f (c i ),(1а)где i – число коллокатов, остальные условные обозначения те же, что и дляформул 1 и 2.Обобщение меры t-score для коллокаций длиннее, чем биграммы, в литературене встречается. Причиной этого может быть тот факт, что мера t-score являетсяаппроксимацией частоты, которая за счет поправочного коэффициента «понижает»значимость словосочетаний, состоящих из двух очень частотных слов (например,двух союзов или союза и предлога).

Поскольку сами коллокаты очень частотны, такиеколлокации становится частотными просто в силу вероятностных причин. Однакочем больше число коллокатов входит в коллокацию, тем меньше сила этого эффекта(не говоря уже о сомнительности появления в тексте, например, трех союзов подряд).Поэтому для многословных коллокаций использование t-score не представляетсяосмысленным, а сама частота становится более надежным источником информации,чем для биграмм. В нашей работе для многословных сочетаний используетсясобственно частота коллокации (вместо расширенного варианта t-score).Вопрос о выборе первичной лексической единицы анализа – лексемы и/илисловоформы – для русского языка (как языка с развитой морфологией) всегдарешается неоднозначно; эти единицы отражают разные аспекты и уровни лексикограмматической информации об исследуемых единицах (см.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее