Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 11

PDF-файл Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 11 Анализ текстовых данных и информационный поиск (63257): Книга - 10 семестр (2 семестр магистратуры)Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика.2020-08-25СтудИзба

Описание файла

PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 11 страницы из PDF

ниже).MI-коллокацииКак уже говорилось, под типичными коллокациями в нашей классификации мыпонимаем прежде всего неоднословные номинации и сложные термины. Более того,такие колокации зачастую выходят за пределы «чистой фразеологии», их целостностькак единой номинации оказывается более значимым признаком, а под устойчивостьюпонимается скорее степень неслучайности совместной встречаемости слов.Коллокации достаточно часто выступают в качестве важной и частотнойединицы словаря. В этом смысле «ядерные» колокации могут рассматриваться нетолько на шкале от «коллокации до конструкции», но и на дополнительной шкале «отслова до коллокации».32А что такое «слово»? Не углубляясь в неоднозначность определения – казалосьбы – ведущей единицы языка и речи, вспомним о наличии противоречий даже на этомуровне.

Что является единицей анализа текста: лексема или словоформа? Можносчитать более чем обоснованным и экспериментально доказанным положение о том,что словоформа является ведущей единицей анализа русского текста (лексемавыполняет роль дополнительной единицы анализа, востребуемой лишь в особыхслучаях) [112; 115]. Вероятно, такое противопоставление роли лексемы исловоформы, отчасти обусловлено типологическими характеристиками русскогоязыка как флективного языка с богатой морфологией.При работе с коллокациями выбор основной единицы анализа представляетсобой дополнительный вопрос: лексема или словоформа? 22На материале новостных текстов был проведен предварительныйсопоставительный анализ списка сочетаний, выделяемых для лексем (но несловоформ), списка сочетаний, выделяемых для словоформ (но не лексем) и спискасочетаний, выделяемых и для лексем, и для словоформ (подробнее см.

статью[159])23.Биграммы, выделяющиеся и для лексем, и для словоформ, оказываются, какправило, наиболее информативными.В список (только) лексемных биграмм попадают составные номинации,характеризуемыемаксимальнойсвободой(максимальнымразнообразием,минимальной ограниченностью) набора выполняемых ими в предложении семантикосинтаксических ролей. Примеры этих биграмм, каждая единица сочетания приведенав нормализованном виде (прописными буквами – здесь и далее):• для новостных текстов – КУРМАНБЕК БАКИЕВ, АЛИШЕР УСМАНОВ,БЕНЕДИКТ XVI, УСЕЙН БОЛТ, СЕРДЕЧНЫЙ ПРИСТУП, ОСАМА БИН,СТИХИЙНЫЙ БЕДСТВИЕ, ЛАМПА НАКАЛИВАНИЕ, РАДОВАН КАРАДЖИЧ,ПОЛЕЗНЫЙ ИСКОПАЕМОЕ, ДЖОННИ ДЕПП, ФИДЕЛЬ КАСТРО, ДОЛИНА СВАТ,САДДАМ ХУСЕЙН, СИМФОНИЧЕСКИЙ ОРКЕСТР, КРОВНЫЙ МЕСТЬ, и т.д.;• для научных текстов – ВИНИТЕЛЬНЫЙ ПАДЕЖ, ИМЕНИТЕЛЬНЫЙ ПАДЕЖ,АКТУАЛЬНЫЙ ЧЛЕНЕНИЕ, ИНСТРУМЕНТАЛЬНЫЙ СРЕДА.Показательна высокая доля, которую имеют в этом классе наименования лиц.Такие номинации, условно говоря, можно сопоставить со словом, котороехарактеризуется достаточно полной парадигмой формоизменения.Словоформные биграммы, как правило, относятся к номинации в определеннойсинтаксической позиции.

Примеры биграмм:• для новостных текстов – парниковых газов, Соединенных Штатов, ЖенскойТеннисной, кредитном портфеле, Палестинской автономии, встречную полосу,Нижнем Новгороде, Федеральную трассу;• для научных текстов – речевой акт, речевых актов, именная группа, именныхгрупп, коммуникативного акта, коммуникативных актов, просодическиххарактеристик, прошедшего времени, речевого сигнала.22Хочется отметить, что различные аудитории, обсуждавшие наши доклады на эту тему, высказывались весьмакатегорично: некоторые аудитории лишь лексемные коллокации считали достойными внимания, другие –напротив – только словоформные. Безусловно, основные особенности, рассмотренные на примере биграммколлокаций, действуют и при увеличении объема сочетания.23Во всех трех случаях под «списком» имеется в виду первая сотня словосочетаний, выявленных тем или инымспособом. Нас интересует, однако, словосочетания с наибольшим значением меры, т.е.

верхние части списков,которые мы в дальнейшем для краткости именуем просто списками.33Кроме того, биграммы этого подкласса могут относиться к части целостнойноминации, например, сочетание речевых актов часто является частью триграммы«теории речевых актов».В этих списках в обоих случаях некоторая составная номинация или терминрезко тяготеет к выполнению некоторой типичной (излюбленной) для неё семантикосинтаксической роли (то есть «излюбленная» роль для этой номинации оказываетсягораздо употребительнее остальных возможных для неё ролей). Такое тяготениеявляется частным проявлением более общего закона тяготения номинативных единицнекоторого грамматико-семантического разряда к выполнению некоторой типичнойдля них семантико-синтаксической функции. Такое тяготение оказывается важным идля однословных номинаций, и для неоднословных.Если данная составная номинация входит в состав некоторого более крупного –трёхсловного или даже более протяжённого, напр., (Женской теннисной) ассоциации,теории (речевых актов) – сочетание является более устойчивым на синтагматическойоси, чем в случае прочих словоформных биграмм (допускающих более свободныесвязи с соседями на синтагматической оси).Таким способом мы выделяем наиболее информационно-нагруженные и точныесочетания, характеризующие данную коллекцию (см.

напр., биграммы в Таблицах 1, 2и 3). Для простоты восприятия в таблицах биграммы представлены в виде сочетанийсловоформ (соответствующей словоформной биграмме). Ведущее место в нейотводится интересующим нас «ядерным коллокациям». Однако в таблицеприсутствуют и сочетания, рассматриваемые нами в следующем пункте MIконструкции (особенно для научных коллекций).Таблица 1. Пример пересечения между биграммами для лексем и для словоформ (дляпервой сотни, в порядке убывания значения меры). Материал портала lenta.ru 2009 годаранг (для ранг (длялексем)словоформ)биграммы11Бритни Спирс22Эльвира Набиуллина323Ле Бурже936Лионель Месси104мысе Канаверал1143бин Ладена149Норильского никеля157дельты Нигера1750Ак Барс1828тротиловом эквиваленте1920тройскую унцию2070Ролан Гаррос2649дель Торо2787дель Потро2933Арбат Престиж3196РАО ЕЭС3235Салават Юлаев3451Арсений Яценюк3642голубых фишек34Таблица 2.

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (впорядке убывания значения меры). Материал конференции «Корпусная лингвистика»24рангБиграммырангБиграммы2 наш взгляд36 одной стороны3 (по) крайней мере37 таким образом4 речевой деятельности40 разрешения неоднозначности5 художественной литературы41 английский язык7 первую очередь43 кроме того9 общим объемом47 Национальный корпус11 корпусная лингвистика48 грамматических категорий13 имена собственные52 устная речь15 математической лингвистики54 база данных16 словарной статьи58 во многих17 свою очередь61 лексических единиц18 предметной области62 дает возможность19 машинного перевода63 зависит от20 точки зрения64 отличие от22 за счет65 русский язык24 речь идет67 корпусные данные25 прежде всего68 отличается от26 большое количество71 зависимости от28 настоящее время72 работы над31 представляет собой79 частей речи32 млн словоупотреблений80 во всех34 другой стороны84 при помощи35 семантических состояний86 морфологической разметкиТаблица 3.

Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (в порядкеубывания значения меры). Материал конференции «Диалог».рангранг12ударном слогеконцептуальных графов283045внешним посессоромоперативной памяти333781416вокального жестакрайней мереXIX векалингвистическогопроцессораположение делпервую очередькартине мирамножественного числа384246172122252624Биграммы616370727385Биграммыинтеллектуальныетехнологиикорпусная лингвистикаотглагольныхсуществительныхзнаки препинанияпедагогическойкоммуникацииосновного тонамашинного переводаустойчивыхсловосочетанийточки зренияменьшей меревряд липредметной областивплоть доБольшую длину списка мы связываем с большей однородностью данной коллекции.35MI-конструкцииБольшинство клише и конструкций выделяется с помощью меры t-score.

Однаконекоторые типы клише и конструкций хорошо извлекаются с помощью меры MI(т.е. основываясь на выраженных сочетаемостных ограничениях). Особенно этиразные типы противопоставлены для новостной коллекции. Прежде всего, эти MIклише и MI-конструкции носят более казенный и (квази)терминологическийхарактер: злоупотребление должностными полномочиями, причинение тяжкоговреда и т.д.Если для новостных биграмм отмечены лишь штучные варианты: конструкцияНАЧИНИТЬ ВЗРЫВЧАТКА для лексем и обогащению урана для словоформ, то всписках триграмм для новостной коллекции клише и конструкции составляют более30%.Примеры:для лексем – УМЫСЛИТЬ ПРИЧИНЕНИЕ ТЯЖКИЙ, КРАТКИЙ ИЗЛОЖЕНИЕПРИВОДИТЬСЯ,ПОДРЫВНЕВСКИЙЭКСПРЕСС,ПРЕВЫШЕНИЕДОЛЖНОСТНОЙ ПОЛНОМОЧИЕ, ПСИХОЛОГИЧЕСКИ ВАЖНЫЙ ОТМЕТКА, ДАПРИЙТИСПАСИТЕЛЬ,ТЯЖКИЙВРЕДЗДОРОВЬЕ,ВРЕМЕННОНЕДЕЙСТВУЮЩИЙЧЕМПИОН,ЗАСЛУГАПЕРЕДОТЕЧЕСТВО,ЭКОНОМИЧЕСКИ АКТИВНЫЙ НАСЕЛЕНИЕ и т.д.;для словоформ – злоупотреблении должностными полномочиями, причинениетяжкого вреда, написания данной заметки, превышении должностных полномочий,краткое изложение приводится, совершил аварийную посадку, покончил жизньсамоубийством, превышение должностных полномочий и т.д.Приведенные примеры иллюстрируют то, что многие из конструкций имеютявно выраженную предикативность.Граница между клише и конструкциями во многих случаях нечеткая.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5168
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее