Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 9

PDF-файл Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 9 Анализ текстовых данных и информационный поиск (63257): Книга - 10 семестр (2 семестр магистратуры)Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика.2020-08-25СтудИзба

Описание файла

PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

[69; 55]18.Если пытаться разделить эти термины «по совокупности пониманий», тополучится некоторое градуальное противопоставление: т.е. «скорее конструкция» vs.«скорее коллокация».Мы предлагаем некоторую схему классификации, задающей основныепараметры такого разделения. В ходе наших исследований эта схема оказаласьплодотворной. Однако на настоящем этапе положения данной классификациипредставляются набором гипотез, которые, несомненно, надо верифицировать, иверификация должна происходить именно с опорой на контекст как материал анализа.Чаще всего, термин «коллокация» используется при решении задачи выделенияи описания неоднословных номинаций (не только в прикладной области).

Ср.примеры из [45: 150]: strong vs. powerful tea ‘сильный vs. *сильный чай’, т.е.сочетаемостные ограничения, диктующие выбор прилагательного strong для‘сигарет, чая и кофе’ (cigarettes, tea and coffee), но powerful, напр., для ‘героина’(heroin). Неоднословные номинации наподобие белый медведь, белый гриб, белое виноили проливной дождь, заклятый враг очевидным образом ложатся в таким образомпонимаемую идею коллокаций.

Более того, такие традиционные признаки как«устойчивость»и«идиоматичность»(ср. [128])визвестнойстепенипереосмысляются. Колокации выходят за пределы исследования «чистойфразеологии», зачастую их целостность как единой номинации оказывается болеезначимым признаком, а под устойчивостью понимается скорее степеньнеслучайности совместной встречаемости слов. Такое понимание устойчивостиощущается носителем языка и может быть выявлено в ходе экспериментов синформантами. Так, например, для анализируемых нами новостных и научныхтекстов среди таких коллокаций выступают самые разные с лингвистической точкизрения неоднословные номинации: непосредственная близость, стихийное бедствие,Нижний Новгород, Саудовская Аравия, Бритни Спирс, Невский экспресс и корпуснаялингвистика, речевой акт, именительный падеж, речевой сигнал, концептуальныйграф, внешний посессор соответственно.Таким образом, коллокации достаточно часто выступают в качестве важной ичастотной единицы словаря.

Ср. цитату «Lexical unit is a word or collocation19» в началеаннотации к статье [19]. Действительно, практические задачи автоматическойобработки текста (напр., информационный и фактографический поиск) чаще всегосвязаны с поиском и идентификацией разнообразных сложных номинаций. Такимобразом выделяются неоднословные термины, могут определяться предметныеобласти и ключевые словосочетания, характеризующие заданную коллекцию текстовили ее подвыборку, и т. п. Именно коллокации, соответствующие неоднословнымноминациям, по всей видимости могут претендовать на статус «ядерныхколлокаций».

В этом смысле можно было бы представить себе даже болеепредставительную шкалу: от слова до коллокации, от колокации к конструкции.Тогда «коллокация» будет представляться как бы в виде промежуточного звена иперевалочного пункта при движении от слова к конструкции.Впрочем, показательно, что даже в этих и других работах «Workshop on extracting and using constructions inNLP» активно используется именно термин «коллокация».19«Лексические единицы – это слова или коллокации».1827Конструкции, напротив, чаще всего представляют собой единицы скореесинтаксического плана. Таким образом, типовые или ядерные коллокации иконструкции часто могут оказаться противопоставленными как парадигматическиеvs.

синтагматические единицы; инвентарные vs. конструктивные единицы; единицы,принадлежащие лексикону vs. синтаксису; номинации vs. предикативные единицы.Предикативность анализируемых единиц понимается, прежде всего, какпотенциальная возможность занять позицию предиката в предложении. Такимобразом, наиболее явная предикативность будет у сочетаний с вершиной в видеглагола в личной форме (хотя, конечно, не исчерпывается этим типом сочетаний).Впрочем, и здесь проявляется неоднозначность, т.

к. предикативныеобразования,обладающиевысокойстепеньювоспроизводимостии/илиидиоматичности, будут, по всей видимости, распределены по шкале(-ам) движения отколлокации к конструкции ближе к конструкциям. Приводимые выше медведь на ухонаступил, ломиться в открытую дверь, плакать навзрыд, в стельку пьяный и т.д.окажутся в зоне конструкций именно благодаря ярко выраженной предикативности.Однако для того, чтобы о них зашла речь, необходимо, чтобы они оказалисьреализованными в текстах и – соответственно – выделимыми с помощьюстатистических мер. Те, кто работает с коллекциями и корпусами, знают, что многиефразеологизмы в текстах встречаются довольно редко.Особое внимание обратим на одно из традиционных свойств конструкций поФилмору [26]: лексические единицы могут быть включены в конструкцию.Следовательно, существует противопоставление с точки зрения включенностификсированных лексем (вернее словоформ) или лексем, принадлежащихфиксированной лексико-семантической группе: напр., А еще N называется! (А ещедруг называется!) (один из многочисленных примеров «синтаксических фразем»,собранных и проанализированных в диссертационном сочинении М.

Копотева [118:125]). К данному типу конструкций относятся многие клише: высокочастотныеконструкции, характерные для определенного типа текстов (например, сообщений изновостных лент), которые носят скорее казенный характер и возможно,воспринимаются как излишне навязчивые. Однако группа клише выделяется, преждевсего, на основании стилевого (и стилистического) набора признаков: к клишеотносятся те сочетания, которые маркируют специфический стиль («казенный»,подчеркнуто навязчивый). Поэтому среди клише мы можем найти не только типовыеконструкции (клишированные конструкции) с ярко выраженной предикативностью.Среди клише могут оказываться также предложно-падежные сочетания (напр., соссылкой, по данным, в настоящее время), дискурсивные слова, производныеслужебные слова, если эти единицы высокочастотны для рассматриваемойколлекции, и их отличают особые стилевые характеристики.

Под устойчивымисочетаниями понимаем, прежде всего, дискурсивные слова, производные служебныеслова, наречные образования и предложно-падежные сочетания наподобие соссылкой, по данным и т.д. Таким образом, клише пересекается и с конструкциями, и сустойчивыми сочетаниями. Использование термина клише в нашей статьецелесообразно именно в силу того, что материал анализируется по многим факторам;клишированность сочетаний выступает как своеобразный дополнительный параметранализа, с одной стороны, необходимый в силу того, что он очевидно связан счастотностью, а с другой – как бы «перпендикулярный» заявленной шкале (-ам) «отколлокации к конструкциям».28Забегая вперед, упомянем, что конструкции-клише – напр., «введения источникаинформации» – высокочастотны в текстах портала lenta.ru: сообщает РИА 17081,сообщает агентство 10590, пишет газета 7722, передает агентство 7683,передает РИА 4487 (эта часть нашего анализа осуществлялась на коллекции [116],около 300 миллионов словоупотреблений; приведенные числа обозначают частотувстречаемости).

Для информационно насыщенных коллекций (наподобие порталаlenta.ru, подробнее см. следующий пункт) конструкции, выделяемые на основаниистатистических мер, могут достигать длины более 5 словоупотреблений (напр.,«сообщает Интерфакс со ссылкой на источник в правоохранительных органах» из«сообщает Интерфакс со ссылкой на N»). Полагаем, что именно такой тип единицзанимает место «прототипической конструкции» на шкале(-ах) «от колокации кконструкциям»: она частотна, синтаксична, предикативна и синтагматична, в вершине(«родитель») глагол в личной форме.Отдельного внимания заслуживает производная служебная лексика (напр.,предлоги в течение, в качестве) и дискурсивные слова (напр., по крайней мере,может быть).

Они чаще всего выступают под маркой «сочетаний, эквивалентныхслову», хотя степень устойчивости этих единиц может существенно различаться, что,в частности, находит отражение в словарях (напр., [96]). Где они должны бытьсосредоточены на шкале(-ах) движения от коллокации к конструкции? Полагаем, чтов качестве условного приближения можно допустить, что они расположены внекоторой серединной зоне, равноудаленной и от «ядерных коллокаций», и от«ядерных конструкций».

Это зона распределения соответствующих «сочетаний,эквивалентных слову» (термин заимствован из «Толкового словарь сочетаний,эквивалентных слову» Р.П. Рогожниковой [143], но, конечно, принципы выделения имножество единиц существенно отличается от того, что представлено в словаре). Чемвыше предикативность (особенно для дискурсивных слов и наречных образований),тем они оказываются ближе к конструкциям. Другим параметром является степеньустойчивости: чем выше она, тем эти единицы оказываются ближе к полюсамсосредоточения коллокаций как целостных единиц словаря (мы сейчасабстрагируемся от лингвистического анализа процессов фразеологизации).Напомним, что предикативность понимается нами как возможность занятьпозицию предиката в предложении, что сравнительно часто может относиться кдискурсивным словам и наречным образованиям.В качестве условного приближения мы сочли, что производная служебнаялексика, наречные образования, а также дискурсивные слова находятся в некоторойсерединной зоне.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5139
Авторов
на СтудИзбе
441
Средний доход
с одного платного файла
Обучение Подробнее