Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 31

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 31 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 312017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 31)

Для каждой из указанных частей речи слова сгруппированыв группы синонимов (синсеты), между которыми установлены отношенияантонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое).Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения родвид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формируетобщую онтологию – систему основных понятий о мире.По схеме английского WordNet были построены аналогичные лексическиересурсы для других европейских языков, объединенные под общим названиемEuroWordNet.Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ, типкоторых зависит от используемой в процессоре модели синтаксиса. В первомприближении грамматика представляет собой набор правил, выражающих общиесинтаксические свойства слов и групп слов.

Общее число правил грамматики такжезависит от модели синтаксиса, изменяясь от нескольких десятков до несколькихсотен. По существу, здесь проявляется такая проблема, как соотношение в моделиязыка грамматики и лексики: чем больше информации представлено в словаре, темкороче может быть грамматика и наоборот.98Отметим, что построение компьютерных словарей, тезаурусов и грамматик –объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработкалингвистической модели и соответствующего процессора. Поэтому одной изподчиненных задач КЛ является автоматизация построения лингвистическихресурсов [10, 15].Компьютерные словари часто формируются конвертацией обычных текстовыхсловарей, однако нередко для их построения требуется гораздо более сложная икропотливая работа. Обычно это бывает при построении словарей и тезаурусов длябыстро развивающися научных областей – молекулярной биологии, информатики идр.

Исходным материалом для извлечения необходимой лингвистическойинформации могут быть коллекции и корпуса текстов.Корпус текстов – это коллекция текстов, собранная по определенномупринципу представительности (по жанру, авторской принадлежности и т.п.), вкоторой все тексты размечены, т.е. снабжены некоторой лингвистической разметкой(аннотациями) – морфологической, акцентной, синтаксической и т.п. [3].В настоящеевремя существует не менее сотни различных корпусов – для разных ЕЯ и с различнойразметкой, в России наиболее известным является Национальный корпус русскогоязыка [43].Размеченные корпуса создаются лингвистами и используются как длялингвистических исследований, так и для настройки (обучения) используемых в КЛмоделей и процессоров с помощью известных математических методов машинногообучения.

Так, машинное обучение применяется для настройки методов разрешениялексической неоднозначности, распознавания части речи, разрешения анафорическихссылок.Поскольку корпуса и коллекции текстов всегда ограничены по представленнымв них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), впоследнее время все чаще в качестве более полного лингвистического ресурсарассматриваются тексты сети Интернет [13, 35].

Безусловно, Интернет являетсясамым представительным источником образцов современной речи, однако егоиспользование как корпуса требует разработки специальных технологий.Глава 6.Приложения компьютерной лингвистикиОбласть приложений компьютерной лингвистики постоянно расширяется, такчто охарактеризуем здесь наиболее известные прикладные задачи, решаемые ееинструментами.Машинный перевод [21] – самое раннее приложение КЛ, вместе с которымвозникла и развивалась сама эта область. Первые программы перевода былипостроены более 50 лет назад и были основаны на простейшей стратегии пословногоперевода. Однако довольно быстро было осознано, что машинный перевод требуетполной лингвистической модели, учитывающей все уровни языка, вплоть досемантики и прагматики, что неоднократно тормозило развитие этого направления.Достаточно полная модель использована в отечественной системе ЭТАП [26],выполняющей перевод научных текстов с французского на русский язык.Заметим, однако, что в случае перевода на родственный язык, например, припереводе с испанского на португальский или же с русского на украинский (у которыхмного общего в синтаксисе и морфологии), процессор может быть реализован на99основе упрощенной модели, например, на основе все той же стратегией пословногоперевода.В настоящее время существует целый спектр компьютерных систем перевода(разного качества), от больших интернациональных исследовательских проектов докоммерческих автоматических переводчиков.

Существенный интерес представляютпроекты многоязыкового перевода, с использованием промежуточного языка, накотором кодируется смысл переводимых фраз. Другое современное направление –статистическая трансляция [5], опирающаяся на статистику перевода слов исловосочетаний (эти идеи, к примеру, реализованы в переводчике поисковикаGoogle).Но несмотря на многие десятилетия развития всего этого направления, в целомзадача машинного перевода еще весьма далека до полного решения.Еще одно довольно старое приложение компьютерной лингвистики – этоинформационный поиск и связанные с ним задачи индексирования, реферирования,классификации и рубрикации документов [1, 20, 22].Полнотекстовый поиск документов в больших базах документов (в первуюочередь – научно-технических, деловых), проводится обычно на основе их поисковыхобразов, под которыми понимается набор ключевых слов – слов, отражающихосновную тему документа.

Сначала в качестве ключевых слов рассматривалисьтолько отдельные слова ЕЯ, а поиск производился без учета их словоизменения, чтонекритично для слабофлективных языков типа английском. Для флективных языков,например, для русского потребовалось использование морфологической модели,учитывающей словоизменение.Запрос на поиск также представлялся в виде набора слов, подходящие(релевантные) документы определялись на основе похожести запроса и поисковогообраза документа.

Создание поискового образа документа предполагаетиндексирование его текста, т.е. выделение в нем ключевых слов [12] . Посколькуочень часто гораздо точнее тему и содержание документа отображают не отдельныеслова, а словосочетания, в качестве ключевых слов стали рассматриватьсясловосочетания. Это существенно усложнило процедуру индексирования документов,поскольку для отбора значимых словосочетаний текста потребовалось использоватьразличные комбинации статистических и лингвистических критериев.По сути, в информационном поиске в основном используется векторная модельтекста (называемая иногда bag of words – мешок слов), при которой документпредставляется вектором (набором) своих ключевых слов. Современные интернетпоисковики также используют эту модель, выполняя индексирование текстов поупотребляемым в них словам (в то же время для выдачи релевантных документов онииспользуют весьма изощренные процедуры ранжирования).Указанная модель текста (с некоторыми усложнениями) применяется и врассматриваемых ниже смежных задачах информационного поиска.Реферирование текста – сокращение его объема и получение его краткогоизложения – реферата (свернутого содержания), что делает более быстрым поиск вколлекциях документов.

Общий реферат может составляться также для несколькихблизких по теме документов.Основным методом автоматического реферирования до сих пор является отборнаиболее значимых предложений реферируемого текста, для чего обычно сначалавычисляются ключевые слова текста и рассчитывается коэффициент значимости100предложений текста. Выбор значимых предложений осложняется анафорическимисвязями предложений, разрыв которых нежелателен – для решения этой проблемыразрабатываются определенные стратегии отбора предложений.Близкая к реферированию задача – аннотирование текста документа, т.е.составление его аннотации. В простейшей форме аннотация представляет собойперечень основных тем текста, для выделения которых могут использоватьсяпроцедуры индексирования.При создании больших коллекций документов актуальны задачиклассификации и кластеризации текстов с целью создания классов близких по темедокументов [31].

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.