Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 5

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 5 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 5 страницы из PDF

It belongs to the cognitivesciences and overlaps with the field of artificial intelligence (AI), abranch of computer science aiming at computational models ofhuman cognition. Computational linguistics has applied andtheoretical components.Соколова Е.Г.автор словарной статьиНужны ли комментарии? Как видите, то, что в англоязычной традициисвязываетиобъединяет«компьютернуюлингвистику»вединуюмеждисциплинарную область, в отечественной науке часто оказываетсяпредставленным на двух противоположных полюсах. Поэтому нам всегда приходится«во первых строках» определить, что мы (лично, в данной работе и т.д.) понимаемпод «компьютерной лингвистикой».

Конечно, в наших лекциях мы будем склонятьсяк «определению 1». Особо обращаю внимание читателя на то, что «Computationallinguistics has applied and theoretical components», именно «вычислительная» теория(модель) является для меня ведущим аспектом, а прикладной аспект в идеальномслучае является естественным результатом этой модели.Когда и зачем нужны лингвисты? Лингвисты несколько лучше представляютсебе «физическую» природу объекта моделирования. Языковая система уникальна втом смысле, что она полностью не починяется законам ни естественнонаучного, нигуманитарного познания.

Язык многие рассматривают как творение человека, но это всущественной степени заблуждение. Пожалуй, так никогда не скажет лингвист. Язык15– объект принципиально особого свойства. Он сосуществует в природе совместно счеловеком (ср. разнообразные варианты рассмотрения гипотезы лингвистическойотносительности, т.е. степени взаимообусловленности человека, языка и социума(цивилизации).

Для моделирования языковой системы используются инструментымоделирования, пришедшие из физики, из экономики (и/или социологии), изфизиологии, из философии и семиотики (теории о знаках). Лингвистика – хорошаялингвистика – должна уметь оценить рассматриваемый объект во всех этихплоскостях (быть междисциплинарной), конечно, если лингвистика – действительнонаука о языке.

Вернее сказать, это наука о языке (языковой системе) и тексте, формахи способах функционирования этой системы. Может ли на начальном этапе – этапепостановки задачи – компьютерная лингвистика обойтись без лингвиста? Вряд ли.Может ли хотя бы на начальном этапе лингвист обойтись без инструментариясмежных дисциплин? Безусловно, нет.Возможны ли чисто вычислительные методики оценки эффективности работымодели (в конкретной ее реализации для реализации конкретных задач в соответствиис требованиями технического задания)? На наш взгляд, скорее «нет», чем «да». Этиметодики могут дать результаты экспресс-анализа. Однако окончательное слово, нанаш взгляд, остается за лингвистом: лингвистическим анализом результатов илингвистическим экспериментом.

Забегая вперед, зададимся вопросом: лишает лилингвиста работы все большее применение методов статистического анализа? И сразуже ответим: нет. В современном информационном мире лингвистика расширяетсферу своих интересов. Статистические закономерности функционирования языка – итекста – и раньше были (должны были быть) предметом лингвистики. Сейчас онистановятся все более и более значимыми, также как и анализ тех единиц, которыевыделяются на основании этих статистических закономерностей. Наряду сединичными текстами, которыми и раньше занимались лингвисты, объектомлингвистики становятся и коллекции текстов, и информационные потоки как объектынового информационного пространства (см. подробнее главу 2 и 4).Попробую сформулировать свое собственное ощущение от измененияпарадигмы лингвистики, во всяком случае – компьютерной лингвистики7:- изменился главный объект исследования, перестроилась перспектива –компьютерная лингвистика могла (должна) была поставить во главу углаисследование информационных объектов, как минимум, текстов;- компьютернаялингвистикаоказаласьмаксимальновключеннойвэкспериментальную парадигму;- компьютерная лингвистика стала максимально междисциплинарной;- компьютерная лингвистика стала предъявлять повышенные требования к знаниямв области математического моделирования, теории сложных систем ипсихофизиологии (обработке информации у человека);- у компьютерной лингвистики появились новые объекты изучения (коллекции,кластеры и т.д.) и новые экспериментальные возможности (возможностисовременных информационных технологий).Это произошло по следам Круглого стола по проблемам автоматического извлечения лингвистическойинформации («Лингвистика без лингвистов?»).

Вед. Наталья Лукашевич на конференции «Диалог-2011»http://www.dialog-21.ru/dialog2011/materials.asp?id=159065, во время которого я вдруг почувствовала себя непрототипическим лингвистом и захотела дополнительно сформулировать свои представления о «современномлингвисте».716Глава 2.Слово — коллокация – синтаксические конструкции –текст. Единица анализа и контекст.Во второй и третьей и четвертой главах мы рассмотрим не только общиеподходы, но приведем конкретные примеры и те данные, которые были получены входе наших экспериментов с информантами и/или вычислительных экспериментов.Ключевым для этих глав является представление о вариативности инеединственности. Каждый текст (и шире – информационный лингвистическийобъект) обладает неединственной структурой. В зависимости от задачи анализа(человеком и/или автоматом) должна выбираться (и далее – извлекаться)требуемая структура.

Вариативность (и сам по себе набор вариантов) всущественной степени зависят от тех параметров, которые мы уже началиобсуждать в первой главе: функционального стиля, жанра (подстиля), предметнойобласти и т.д.§ 2.1.Инвентарные и конструктивные единицы. Понятие «текущегословаря»Основными вопросами, рассматриваемыми в этом параграфе, является двавопросаo об единицах анализа текста;o о понятии «текущего словаря», учитывающего максимальную подстройку подособенности конкретного текста (в дальнейшем – информационноголингвистического объекта).В качестве единицы анализа (письменного) текста в работах используются, преждевсего, такие стандартные единицы, как лексема и словоформа. Когда и какая из этихединиц важнее – решать исследователю, и выбор задается целью и задачами работы.Впрочем, отметим, что роль словоформы как основной единицы восприятия (анализа)текста подтверждается психолингвистическими экспериментами (особенно длязвучащей речи)8.

Для звучащего текста в качестве основной единицы первичногоанализа используются фонетические слова. Однако приведем немного теории.«Положение о слове как единице словаря означает, что именно словампринадлежит роль тех базовых элементов, которые образуют язык как систему. Всамом деле: язык есть система, система — это элементы, связанные определеннымиотношениями (словарь) и функционирующие в соответствии с определеннымиправилами (грамматикой) для выполнения некоторой задачи, и элементамиоказываются, прежде всего, именно слова. Все остальные виды единиц языкасуществуют либо в отвлечении от слов, которое осуществляется непосредственно илиопосредованно (на нескольких уровнях), либо в результате соединения слов поправилам. И лишь слова непосредственно образуют тот инвентарь, который служитисточником всего в языке и речевой деятельности. Именно поэтому, несмотря намногочисленные и постоянно повторяющиеся попытки «упразднить» слово, оноЭкспериментальная проверка гипотезы о том, что основной единицей перцептивного словаря являетсясловоформа, осуществлялась с помощью нескольких серий свободного устно-устного ассоциативногоэксперимента (эксперименты осуществлялись мной [158] и в рамках диссертационного исследования(Бочкарева 2006)).

Стимулами для такого эксперимента служили словоформы (в словарной и несловарныхформах) и предложно-падежные конструкции. Результаты эксперимента дают основания утверждать, что вусловиях дефицита времени испытуемые непосредственно переходили от словоформы как стимула ксловоформе как реакции, минуя дополнительную процедуру лемматизации.817сохраняет свои позиции в языкознании до сегодняшнего дня» [108: 819-820]. Введемвслед за В.Б.Касевичем понятие инвентарных и конструктивных единиц языка [108].Круг проблем возникает для языков наподобие русского с развитой и морфологией инеоднозначностью парадигм. Слово как единица словаря и как единица морфологиине всегда совпадают. Что является инвентарной единицей: словоформа или лексема?Уменьшительные существительные вроде домик, кошечка несомненно являютсясловами по любым морфологическим критериям, но являются ли они инвентарнымиили создаются по мере надобности в процессе порождения текста с помощьюпростейших правил и единиц, принадлежащих грамматике? В общем случае ихследует отнести к конструктивным, но существуют подъязыки (ребенка илиобращенный к ребенку), для которых это правило, возможно, не выполняется.

И,конечно, то, что эти единицы являются конструктивными при порождении текста, незначит, что они выступают в этом же качестве при анализе текста. При построениидинамической языковой системы для анализа текста нам может быть гораздоразумнее (и выгоднее) отнести эти единицы к инвентарным.К инвентарным единицам относят также единицы, размерностью больше, чемслово. Инвентарными единицами являются безусловные фразеологизмы (например,бить баклуши). Однако степень фразеологизации и идиоматизации в языке можетбыть разной.

Поэтому правильнее было бы сказать, что фразеологизмы и идиомырасположены на шкале от инвентарных к конструктивным единицам. Кроме тогобольшую проблему представляют составные слова: «в отличие от» в современномязыке является инвентарной единицей, но состоит из трех пробельных слов(текстоформ). Каждый прикладник на своей шкуре испытал всю сложность инеоднозначность решения задачи разделения на слова (графематического анализа ипарсинга).

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5193
Авторов
на СтудИзбе
434
Средний доход
с одного платного файла
Обучение Подробнее