Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 12

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 12 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 12 страницы из PDF

Даже для новостной коллекции в 80% случаев мы наблюдаемпересечение списка словоформных и лексемных биграмм (ср. табл. 4).Данная мера позволяет выделять высокочастотные коллокации (в частности,коллокации с высокочастотыми компонентами – прежде всего, предлогами). Онаэффективна при поиске «общеязыковых устойчивых сочетаний» (например,составных предлогов) и того, что может рассматриваться как устойчивое сочетаниедля данной коллекции. В случае со стилистически однородной новостной коллекциейэта мера описывает стилистические особенности данной коллекции, независимо отконкретной тематики сообщений. Выделяемые биграммы относятся к указаниюисточников информации (напр., по словам, со ссылкой, РИА Новости), места ивремени (в течение, во время, в России).Сравнительно многие из рассматриваемых биграмм принято рассматривать какединое слово (напр., составные служебные и дискурсивные слова в течение, вкачестве, может быть25).

Интересно, однако, что наряду с ожидаемымиобщеязыковыми устойчивыми сочетаниями в списках присутствуют те единицы,которые можно назвать «собственно общеновостными устойчивыми сочетаниями»:напр., РИА Новости, миллион долларов, миллион рублей, ПО ДАННЫЕ, КАКСООБЩАТЬ, СО ССЫЛКА26 (ср.

с Таблицей 4).Выделим несколько основных типов такого рода сочетаний для новостныхтекстов, маркирующих особенности новостных текстов (см. табл. 4):• составные служебные и дискурсивные слова, напр., в течение, в качестве, в ходе,в частности, в результате, пока не, кроме того;• сложные номинации, прежде всего, относящиеся к наименованиям источниковинформации (материал, напр., РИА Новости), при переходе к более объемнымсочетаниям (три- и более граммам) они входят в состав конструкций «введенияисточника информации»;25Ср. единицы в Корпусном словаре неоднословных лексических единиц (оборотов) на базе НКРЯhttp://www.ruscorpora.ru/obgrams.html26Это, очевидно, составные части более длинных выражений «как сообщает корреспондент», «поданным агенства», «со ссылкой на», которые оказываются среди наиболее частотных три- и более грамм37• колокации-клише (напр., миллионов долларов, миллиарда долларов), которые припереходе к более объемным сочетаниям могут входить в состав конструкций;• сочетания, имеющие все показатели конструкций (как правило, компонентыконструкций «введения источника информации»):o с глаголом – напр., сообщает РИА, как сообщает, это сообщать,o с существительным – напр., со ссылкой, по ссылкам.Таблица 4.

Биграммы с наиболее высокими значениями меры t-score (в порядке убываниязначения меры). Материал портала lenta.ru 2009 годаОБ ЭТООДИН ИЗПО СЛОВОА ТАКЖЕПО ДАННЫЕССЫЛКА НАСО ССЫЛКАВ РЕЗУЛЬТАТКРОМЕ ТОТРИА НОВОСТЬВ ЧАСТНОСТЬЭТО СООБЩАТЬМИЛЛИОН ДОЛЛАРВ РОССИЯМИЛЛИАРД ДОЛЛАРВО ВРЕМЯПРИ ЭТОВ КОТОРЫЙКАК СООБЩАТЬО ТОМВ ХОДВ ТОТВ СВОЙПОКА НЕоб этомпо словама такжесо ссылкойссылкой напо даннымкроме тогоРИА Новостиэтом сообщаетпри этомв томв Россииво времяпока нео томв результатенастоящее времямиллионов долларовсвязи ссообщает РИАв результатев частностимиллиарда долларовкак сообщаетДля научных текстов также выделяется ряд типов t-score-сочетаний,маркирующих научный функциональный стиль (см.

табл. 2 и 3):• составные служебные и дискурсивные слова, напр., (по) крайней мере, (в) первуюочередь, (с) точки зрения, (по) меньшей мере, прежде всего;• конструкции и сходные с ними составные обороты: дает возможность, зависитот vs. (в) зависимости от, (в) отличие от vs. отличается от и т.д.Во введении мы сформулировали – в качестве условного приближения –предположение о том, что производная служебная лексика (напр., предлоги втечение, в качестве) и дискурсивные слова (напр., по крайней мере, может быть)расположена в некоторой серединной зоне, равноудаленной и от «ядерныхкодллокаций», и от «ядерных конструкций».

Чем выше предикативность (особеннодля дискурсивных слов и наречных образований), тем они оказываются ближе кконструкциям. Другим параметром является степень устойчивости, чем выше она,тем эти единицы оказываются ближе к полюсам сосредоточения коллокаций как38целостных единиц словаря (мы сейчас абстрагируемся от лингвистического анализапроцессов фразеологизации).Соответственно в предлагаемой схеме – в соответствии с признакомпредикативности – в зависимости от и в отличие от находится ближе к середине, азависит от и отличается от – чуть ближе к конструкциям.Степень устойчивости и/или связанности сочетаний уточняется на основаниирезультатов серии экспериментов с информантами и дальнейшей лингвистическойинтерпретации полученных результатов (подробнее см.

[144; 82])27. Результатыэкспериментов позволили установить дополнительные шкалы, опирающиеся уже нетолько на значения статистических мер, но и на связность, ощущаемую носителямиязыка и эксплицируемую в ходе экспериментов. Такой комплексныйэкспериментальный подход выявил зоны нестабильности в отношении рядасочетаний (терминологических сочетаний, сложных номинаций, производныхслужебных слов и т.д.).В качестве примера зон нестабильности (в соответствии с введениемдополнительных шкал, соответствующих результатам экспериментов) приведемнекоторые данные по устойчивым сочетаниям (производным служебным словам).Для научных текстов в частности и с помощью характеризуются большейцелостностью и связностью, чем в качестве, за счет, на основе; с одной стороны, сдругой стороны, по сравнению с и в отличие от характеризуются меньшейцелостностью, чем с точки зрения и в соответствии с.

Т.е., напр.¸ морфологическаяцельнооформленность в отличие от не явилось для наивных носителей языка(участников этого эксперимента) решающим признаком для признания высокогоуровня целостности и связности.Аналогично, для новостной коллекции, напр., этом сообщает, в результатеявляются менее целостными, чем как сообщает, по данным; сообщает РИАНовости, об этом сообщается обладают большей целостностью и связностью, чемновости со ссылкой, по его словам, об этом сообщает.Данные экспериментов демонстрируют также зависимость от функциональногостиля (типа коллекции), напр., в частности и (в) том числе характеризуется большейцелостностью для научных текстов, чем для новостных (подробнее см.

[144]).Конечно, окончательный результат будет получен на основании сериивзаимодополняющих экспериментов (как по методике, так и по материалу,представленному в анкетах для испытуемых).На рассматриваемом нами материале типичными представителями конструкций(«ядерными конструкциями») являются «конструкции ввода информации» вновостных текстах. В таблице 5 мы привели верхушку списка частотных «пятиграмм»(из рассматриваемого набора только два сочетания не относились к введениюисточника информации; кроме того, мы не стали исключать слова, написанныелатиницей, для иллюстрации того, что в состав этих конструкций в принципе могутвходить наименования информационных агентств любого типа).

Напомним, чтопятиграммы выделялись на основании частоты встречаемости коллокации: длябольших n мера t-score как аппроксимация частоты оказывается избыточной.27Надеемся, что в ближайших публикациях мы сможем показать специфику принятия решенияиспытуемыми при оценке степени устойчивости-связности и дать более тщательную лингвистическуюинтерпретацию параметров, влияющих на принятие решения.39Таблица 5. Наиболее частотные «пятиграммы», являющиеся «конструкциями вводаинформации» в новостных текстах. Материал портала lenta.ru 2009 года (в порядке убывания частотывстречаемости)28.«пятиграмма»РИА Новости со ссылкой насообщает РИА Новости со ссылкойсообщает Интерфакс со ссылкой наcо ссылкой на источник вОб этом сообщает РИА Новости(об) этом сообщает РИА Новости сона источник в правоохранительных органах(со)ссылкойнаисточникправоохранительныхОб этом сообщает официальный сайтОб этом сообщается в пресс-релизеагентство Интерфакс со ссылкой наОб этом сообщает Интерфакс со(об) этом сообщает Интерфакс со ссылкойсообщает AFP со ссылкой наОб этом пишет газета КоммерсантНовости со ссылкой на источникОб этом пишет газета ВедомостиИнтерфакс со ссылкой на источниксообщает ИТАР-ТАСС со ссылкой насообщает агентство Интерфакс со ссылкойОб этом сообщает Associated PressОб этом сообщается на сайтеИнтерфакс со ссылкой на пресс-службуОб этом говорится в официальномгазета Ведомости со ссылкой наНовости со ссылкой на пресс-службугазета Коммерсант со ссылкой наЧастота (ipm)1267811048100799354914968456733в 66886446623060835982598258805841568356705438500249874941492548954591450844404388Наиболее частотная схема такой конструкции сводится к:1 (об этом) + 2 глагол (сообщает, сообщается, пишет, говорится и др.) + 3название информационного агентства + 4 со ссылкой (на) + 5 источник информации.В текстах портала «Лента.ру» наиболее часто в состав конструкции входитглагол сообщает или сообщается, однако это предпочтение носит стилевой характер.Для того чтобы выяснить это, было проведено дополнительное исследование[162].

Предварительные результаты статистического обследования шестиинформационных источников свидетельствуют о том, что конструкции «введенияисточника информации» и особенно глагол, находящийся в вершине такойконструкции, характеризуют информационные источники, прежде всего с точкизрения их главной функции – информационную или публицистическую.

Портал«Лента.ру» относится к ярко выраженным информационно насыщенным источникам(новостные ленты и близкие к ним формы подачи материала). Среди рассмотренныхинформационных источников к информационно насыщенным – ведущим себя вцелом аналогично коллекции портала «Лента.ру» – относятся «РИА Новости»,Среди первых тридцати наиболее частотных «пятиграмм», встретилось двадцать семь конструкций вводаинформации.2840«РосБизнесКонсалтинг»,«Компьюлента».Наиболееяркиесвойствапублицистической направленности (подчеркнутого внимания к адресату (-ам))проявляются для «Независимой газеты» [162].Например, для «Независимой газеты» биграмма ссылкой на стоит на 1551 месте,среди словоформных биграмм, упорядоченных по значению меры t-score, а соссылкой – на 1591-м месте.

Среди лексем первая биграмма со словом «сообщать»КАК СООБЩАТЬ стоит на 967 месте, следующая – СООБЩАТЬ ИНТЕРФАКС – на5096 и т.д. Ср. также с данными «Статистического словаря русской газеты» А.Я.Шайкевича [150] сообщается 492, сообщать – 1614, сообщаться – 29, сообщение –2488, сообщить – 8248 (корпус 1997-го года, 15 млн. словоупотреблений).Для «Независимой газеты» наиболее частотными глаголами в коммуникативнойфункции оказываются сказать, говорить, считать, заявить. Вместо ранееобсуждаемых газетных клише в «Независимой газете» используются болеепривычные «негазетные» способы передачи информации, эти способы весьмаразнообразны, и потому сложно выделить частотные n-граммы, которые можно былобы назвать конструкциями ввода источника информации. В текстах «Независимойгазеты» наиболее частотным оказывается то, что характерно для текстов-интервьюотвечать на вопросы (чуть реже отвечать на вопрос), обратились к X, где X – этопрезиденту, правительству, главе, руководству и т.д.

(в порядке убывания частотывстречаемости).t-score-коллокацииКак уже было сказано, данная мера используется гораздо реже, чем мера MI,поскольку она является лишь несколько модифицированным ранжированиемколлокаций по частоте. Обычно она считается малопригодной для поискаинформационно важных номинаций и терминологических словосочетаний, неиспользуясь для этой цели.Однако все зависит от контекста, в данном случае от степени монотематичностии однородности коллекции. Так, в процессе данной работы над новостнымиколлекциями мы обнаружили, что эта мера оказывается полезна при решении задачио выделении тех единиц, которые характеризуют все (или подавляющеебольшинство) текстов коллекции. Основная масса таких сочетаний характеризуетскорее особенности стиля текстов коллекции, впрочем, используя минимальныйморфологический фильтр из списков t-score-коллокаций, мы могли выделить тесочетания, которые могут рассматриваться как терминологические.

Таким образомбыл получен список терминологических биграмм, общих для всех (илиподавляющего большинства) текстов рассматриваемых коллекций (см. Таблицы 6 и7).Таблица 6. Терминологические биграммы (t-score), выделяющиеся и для лексем, и длясловоформ. Материал конференции «Диалог»лексемные биграммыРУССКИЙ ЯЗЫКПРЕДМЕТНЫЙ ОБЛАСТЬсловоформные биграммырусского языкарусском языкепредметной области41Таблица 7. Терминологические биграммы (t-score), выделяющиеся и для лексем, и длясловоформ.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
426
Средний доход
с одного платного файла
Обучение Подробнее