Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 32

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 32 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 322020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 32)

снабжены некоторой лингвистической разметкой(аннотациями) – морфологической, акцентной, синтаксической и т.п. [3].В настоящеевремя существует не менее сотни различных корпусов – для разных ЕЯ и с различнойразметкой, в России наиболее известным является Национальный корпус русскогоязыка [43].Размеченные корпуса создаются лингвистами и используются как длялингвистических исследований, так и для настройки (обучения) используемых в КЛмоделей и процессоров с помощью известных математических методов машинногообучения. Так, машинное обучение применяется для настройки методов разрешениялексической неоднозначности, распознавания части речи, разрешения анафорическихссылок.Поскольку корпуса и коллекции текстов всегда ограничены по представленнымв них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), впоследнее время все чаще в качестве более полного лингвистического ресурсарассматриваются тексты сети Интернет [13, 35].

Безусловно, Интернет являетсясамым представительным источником образцов современной речи, однако егоиспользование как корпуса требует разработки специальных технологий.Глава 6.Приложения компьютерной лингвистикиОбласть приложений компьютерной лингвистики постоянно расширяется, такчто охарактеризуем здесь наиболее известные прикладные задачи, решаемые ееинструментами.Машинный перевод [21] – самое раннее приложение КЛ, вместе с которымвозникла и развивалась сама эта область.

Первые программы перевода былипостроены более 50 лет назад и были основаны на простейшей стратегии пословногоперевода. Однако довольно быстро было осознано, что машинный перевод требуетполной лингвистической модели, учитывающей все уровни языка, вплоть досемантики и прагматики, что неоднократно тормозило развитие этого направления.Достаточно полная модель использована в отечественной системе ЭТАП [26],выполняющей перевод научных текстов с французского на русский язык.Заметим, однако, что в случае перевода на родственный язык, например, припереводе с испанского на португальский или же с русского на украинский (у которыхмного общего в синтаксисе и морфологии), процессор может быть реализован на99основе упрощенной модели, например, на основе все той же стратегией пословногоперевода.В настоящее время существует целый спектр компьютерных систем перевода(разного качества), от больших интернациональных исследовательских проектов докоммерческих автоматических переводчиков.

Существенный интерес представляютпроекты многоязыкового перевода, с использованием промежуточного языка, накотором кодируется смысл переводимых фраз. Другое современное направление –статистическая трансляция [5], опирающаяся на статистику перевода слов исловосочетаний (эти идеи, к примеру, реализованы в переводчике поисковикаGoogle).Но несмотря на многие десятилетия развития всего этого направления, в целомзадача машинного перевода еще весьма далека до полного решения.Еще одно довольно старое приложение компьютерной лингвистики – этоинформационный поиск и связанные с ним задачи индексирования, реферирования,классификации и рубрикации документов [1, 20, 22].Полнотекстовый поиск документов в больших базах документов (в первуюочередь – научно-технических, деловых), проводится обычно на основе их поисковыхобразов, под которыми понимается набор ключевых слов – слов, отражающихосновную тему документа.

Сначала в качестве ключевых слов рассматривалисьтолько отдельные слова ЕЯ, а поиск производился без учета их словоизменения, чтонекритично для слабофлективных языков типа английском. Для флективных языков,например, для русского потребовалось использование морфологической модели,учитывающей словоизменение.Запрос на поиск также представлялся в виде набора слов, подходящие(релевантные) документы определялись на основе похожести запроса и поисковогообраза документа. Создание поискового образа документа предполагаетиндексирование его текста, т.е.

выделение в нем ключевых слов [12] . Посколькуочень часто гораздо точнее тему и содержание документа отображают не отдельныеслова, а словосочетания, в качестве ключевых слов стали рассматриватьсясловосочетания. Это существенно усложнило процедуру индексирования документов,поскольку для отбора значимых словосочетаний текста потребовалось использоватьразличные комбинации статистических и лингвистических критериев.По сути, в информационном поиске в основном используется векторная модельтекста (называемая иногда bag of words – мешок слов), при которой документпредставляется вектором (набором) своих ключевых слов.

Современные интернетпоисковики также используют эту модель, выполняя индексирование текстов поупотребляемым в них словам (в то же время для выдачи релевантных документов онииспользуют весьма изощренные процедуры ранжирования).Указанная модель текста (с некоторыми усложнениями) применяется и врассматриваемых ниже смежных задачах информационного поиска.Реферирование текста – сокращение его объема и получение его краткогоизложения – реферата (свернутого содержания), что делает более быстрым поиск вколлекциях документов. Общий реферат может составляться также для несколькихблизких по теме документов.Основным методом автоматического реферирования до сих пор является отборнаиболее значимых предложений реферируемого текста, для чего обычно сначалавычисляются ключевые слова текста и рассчитывается коэффициент значимости100предложений текста.

Выбор значимых предложений осложняется анафорическимисвязями предложений, разрыв которых нежелателен – для решения этой проблемыразрабатываются определенные стратегии отбора предложений.Близкая к реферированию задача – аннотирование текста документа, т.е.составление его аннотации. В простейшей форме аннотация представляет собойперечень основных тем текста, для выделения которых могут использоватьсяпроцедуры индексирования.При создании больших коллекций документов актуальны задачиклассификации и кластеризации текстов с целью создания классов близких по темедокументов [31]. Классификация означает отнесение каждого документа копределенному классу с заранее известными параметрами, а кластеризация –разбиение множества документов на кластеры, т.е. подмножества тематическиблизких документов.

Для решения этих задач применяются методы машинногообучения, в связи с чем эти прикладные задачи называют Text Mining и относят кнаучному направлению, известному как Data Mining, или интеллектуальный анализданных [27].Очень близка к классификации задача рубрицирования текста – его отнесение кодной из заранее известных тематических рубрик (обычно рубрики образуютиерархическое дерево тематик).Задача классификации получает все большее распространение, она решается,например, при распознавании спама, а сравнительно новое приложение –классификация SMS-сообщений в мобильных устройствах. Новое и актуальноенаправление исследований для общей задачи информационного поиска –многоязыковой поиск по документам.Еще одна относительно новая задача, связанная с информационным поиском –формирование ответов на вопросы (Question Answering) [9]. Эта задача решаетсяпутем определения типа вопроса, поиском текстов, потенциально содержащих ответна этот вопрос, и извлечением ответа из этих текстов.Совершенно иное прикладное направление, которое развивается хотя имедленно, но устойчиво – это автоматизация подготовки и редактированиятекстов на ЕЯ.

Одним из первых приложений в этом направлении были программыавтоматической определения переносов слов и программы орфографическойпроверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простотузадачи переносов, ее корректное решение для многих ЕЯ (например, английского)требует знания морфемной структуры слов соответствующего языка, а значит,соответствующего словаря.Проверка орфографии уже давно реализована в коммерческих системах иопирается на соответствующий словарь и модель морфологии. Используется такженеполная модель синтаксиса, на основе которой выявляются достаточно частотныевсе синтаксические ошибки (например, ошибки согласования слов).

В то же время вавтокорректорах не реализовано пока выявление более сложных ошибок, к примеру,неправильное употребление предлогов. Не обнаруживаются и многие лексическиеошибки, в частности, ошибки, возникающие в результате опечаток или неверногоиспользования схожих слов (например, весовой вместо весомый). В современныхисследованиях КЛ предлагаются методы автоматизированного выявления иисправления подобных ошибок, а также некоторых других видов стилистических101ошибок [25, 29]. В этих методах используется статистика встречаемости слов исловосочетаний.Близкой к поддержке подготовки текстов прикладной задачей является обучениеестественному языку, в рамках этого направления часто разрабатываютсякомпьютерные системы обучения языку – английскому, русскому и др. (подобныесистемы можно найти в Интернете).

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.