187014 (596734), страница 6

Файл №596734 187014 (Искусственный интеллект) 6 страница187014 (596734) страница 62016-07-302016-07-30СтудИзба

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 6)

природу сегментов индивидуального звука (гласные/согласные),

структуру слога,

структуру морфем (приставки, корни, суффиксы),

лексикон,

уровень синтаксиса фраз и предложений и

долгосрочные ограничения речи (long-term discourse constraints) .

Ниже рассматривается влияние ограничений и способ их воздействия производство сигнала речи. Необходимо также принять во внимание тот факт, что человеческий аппарат восприятия также должен быть смоделирован, он сам по себе накладывает на процесс восприятия дополнительные ограничения. Недавно процесс восприятия был изучен с помощью метода сигнального подавления барабанных перепонок через возбуждение нервных клеток, которые образовывают примерно 30 тысяч нервных окончаний слухового нерва. Но изучение нервных окончаний способно только прояснить формирование простых синтетических гласных. Перед исследователями встало новое главное направление в области изучения воспроизводства речи, связанное с интеграцией всей физиологии восприятия человека. В настоящий момент появляются некоторые модели явлений, происходящих в ухе, и не без оснований можно ожидать дальнейшего улучшения понимания процесса распознавания речи из-за более полного понимания характеристик этого влияния.

Что касается уровня артикуляторного контроля, первым уровнем является индивидуальный фонетический сегмент, иначе говоря, - фонема. Во многих естественных языках их примерно 40. Но их набор существенно различатется. Поэтому, например, английские гласные могут быть носовыми, даже ненамеренно, в то время как во французском носализация гласных является фонетическим контрастом, и поэтому влияют на значение произносимого. Во французском языке носовая коартикуляция доминирует в гласных и существенно влияет на восприятие фонем и следовательно на главный смысл значения. Хотя все говорящие имеют одинаковый голосовой аппарат, использование его разное. Так например, использование кончика языка или прищелкивание, как в некоторых африканских языках. Ясно, что природа артикуляционных движений имеет сильное влияние на метод воспроизведения речи. Эти ограничения всегда активно используются в практических системах.

На следующем уровне лингвистической структуры фонетические сегменты сгруппированы в согласные/гласные, а следовательно и в слоги. Далее, в зависимости от роли фонетического сегмента внутри этих слогов их реализация может быть сильно изменена. Так например, начальный согласный в слоге может быть реализован как абсолютно отличный от конечной позиции. Согласные очень крепко связываются между собой, что опять же влияет на последующие ограничения. Например, в английском если начальная группа согласных состоит из трех фонем, первая фонема должна быть /s/, следующей фонемой должен быть непроизносимый согласный, третьей или /r/ или /l/, как например, в слове /scrape/ или /split/. Говорящие на родном языке избегают этих ограничений или могут активно их использовать во время процесса восприятия. Из выше приведенных примеров очевидно, что хотя и существуют сильные ограничения, влияющие на слушателя, но их сила не является решающей во время произнесения речи. То есть любое моделирование процесса восприятия может быть активным и может оказать большую помощь в понимании главного смысла.

Другой пример, показывающий необходимость применения сфокусированного поиска, может быть представлен в восприятии конечного согласного. Среди многих ключевых слов для распознавания конечного согласного существует спектральная природа шума, воспроизводимого при освобождении конечной перемычки и перехода резонанса второй форманты в гласный, следующий за этой перемычкой. Многие исследователи изучали эти влияния, и результаты их исследований показали, что ограничивающее влияние обоих вышеописанных характеристик на восприятие варьируется природой следующего гласного, и следовательно, мощная стратегия распознавания должна иметь некоторые знания о твердой позиции гласного перед конечным согласным перед тем, как будет сделано само распознавание конечного согласного. Конечные согласные дают яркий пример весьма интересного комплекса фонетики, используемого для лингвистической окраски. Например, при рассмотрении слов rapid и rabid обнаруживается 16 фонетический различий.

Кроме сегментного и слогового уровней существуют ограниченные влияния из-за структуры морфем, которые являются минимальными синтаксическими единицами языка. Они включают в себя приставки, корни, суффиксы. Можно себе представить, что это синтаксис на слоговом и на морфемном уровнях, также как и нормально распознанный синтаксис, характеризующийся способом, в котором английские слова объединяются во фразы и предложения. Возможно представить данные ограничения как последствия рассмотрения грамматики вне контекста. В этом виде ограничений много “шумных” вариаций сегментов речи, которые так же относятся и к иерархическим синтаксическим ограничениям.

Дополнительные ограничения на природе входа новой лексики в язык могут являться уровнем слова. Многие исследования обнаружили, что характеристика слов при введении разбиения на 5 жестких классов фонетических сегментов может быть сокращена до минимума, часто имея единственное в своем роде распознавание. Далее слишком усиливается эффект порядка двух букв и фонетических сегментов с тех пор как в изучении английских и французских словарей было обнаружено, что более 90% слов имели единственное значение и только 0,5% имели 2 и больше альтернатив. На фонемном уровне было обнаружено, что все слова в английском словаре из 20 тысяч слов имели одно значение из-за беспорядочных фонемных пар. Этот пример помогает показать, что все еще существует ограничивающее влияние на лексическом уровне, которое еще не определено в современных системах распознавания речи. Естественно, что исследования в этой области продолжаются.

Кроме уровня слов синтаксис имеет дополнительное ограничительное влияние. Его влияние на последовательный порядок слов часто характеризуется в системах фактором, который в свою очередь характеризует количество возможных слов, которые могут следовать за предыдущим словом в процессе произнесения. Синтаксис также имеет ограничительные влияния на просодические элементы, такие как ударение, например в случае, когда ударение слов в incline и survey варьируется в зависимости от части речи. Возможно для того, чтобы охарактеризовать ударение в слове, нужно принять во внимание не только индивидуальное слово, но вышеприведенные дополнительные ограничения синтаксиса.

Далее, кроме синтаксического уровня ограничения доминируют над семантикой, прагматикой и речью, что плохо осознается людьми, однако имеет очень важное значение для процесса распознавания.

Несмотря на сложность описания характеристик источников различных ограничений, немаловажную роль играют современные системы влияния, которые представлены всеми возможными вариантами произнесения звуков. Например, система HARPI университета Сarnegie-Mellon University является системой, в которой звуковоспроизведение описывается как путь через комплексную сеть. В этом способе ограничения структуры слога, слова и синтаксиса связаны одной структурой. Структура контроля, используемая для поиска, является адаптацией динамичной программной техники. Более сильный подход был предложен моделями использования цепей Маркова. Эти модели использовались как единая структура, где возможности могут быть точно изучены экспериментальным путем. Закодированные представления спектральной трансформации воспроизводства речи используются для нахождения самого правильного пути через сеть, и недавно были получены очень хорошие результаты. Очень важно подчеркнуть использование такого формально- структурного подхода, который способствует автоматичному определению классов символов через структурирование и параметризацию.

При другом подходе базы данных и связанные с ними процессы обработки используются структурой контроля. Этот подход был изучен системой HEARSAJ 2, которая была разработана в институте Сarnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структура данных, которая содержит всю информацию о воспроизведении звуков, изучается с точки зрения конкретных ограничений. Но как выше указано, каждое из этих ограничений имеет особую внутреннюю модель, и полный анализ не может быть произведен. Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами, а также средства для интеграции. Несмотря на то, что структура включает в себя несколько весьма различных источников знаний и ее вклад в понимание речи очень общий, она также имеет большое количество степеней свободы, которые могут быть использованы для тщательного системного воспроизведения. В отличие от этого, техника, основанная на цепях Маркова, имеет математическую поддержку. Чтобы иметь возможность сфокусированного исследования ограничений взаимодействия и интеграции в контексте, необходимо применять обе системы. Те системы, которые описывают ограничение взаимодействия, сфокусированы во многом на воспроизведении знаний, и они относительно слабо контролируемы, а системам с математической поддержкой, которые в свою очередь имеют великолепную технику для установления параметров и оптимизации изучения, не достает использования комплексной структуры данных, необходимых для характеристики ограничений высокого уровня, таких как синтаксис. Оба направления в настоящий момент находятся в процессе развития.

В заключение следует сделать акцент на влияние производственной технологии на эти системы. Технология интеграции не является большой проблемой для систем распознавания речи, наоборот, это является архитектурой этих систем, включая способ представления ограничений. Необходимо провести грандиозные эксперименты и найти новые способы, которые необходимы для ограничительного влияния взаимодействия.

Во многих способах распознавание речи имеет типичный пример стремительно развивающегося класса высоко интегрированных комплексных систем, которые должны использовать лучшую компьютерную технику и самые последние достижения современного математического обеспечения.

Морфологический анализ научного текста несловарного типа

В современных системах МА существуют два основных принципа выведения морфологических признаков слова с помощью анализа его структуры:

Представление грамматической информации в словаре основ и в словаре флексий (с включением формальной процедуры деления слова на основу и окончание и последующее сравнение со словарями).

Извлечение грамматической информации из слова путем его графемного анализа.

В описываемой системе, представляющей собой подсистему автоматического анализа научно-реферативного текста, выбирается второй принцип. Используется он на первом этапе анализа, допускающем приписывание единицам текста дизъюнктивных кодов, репрезентирующих грамматические омонимы. Обусловлено это тем, что любой морфологический анализ (МА), проводимый в пределах слова, не может обеспечить стопроцентного однозначного определения его морфологических характеристик, поскольку проявление последних в действительности происходит в синтагматике, на уровне связей слов в предложении. Поэтому в системе МА предусмотрен второй этап анализа, который корректирует результаты первого с помощью анализа грамматического контекста единиц с дизъюнктивными кодами. Кроме того, и на первом, и на втором этапах МА в отдельных случаях возникает необходимость обращения к информации о значении слова, например для снятия грамматической омонимии существительных. Предлагается задание списка лексем или отдельных лексем в виде цепочек начальных буквосочетаний слова, общих для всех словоформ. Возможность задавать семантическую информацию таким образом вытекает из ограниченности лексического состава текстов анализируемого подъязыка (в тексте длиной 108 тысяч словоупотреблений различных лексем знаменательных лексем насчитывается всего 6653). Доля использования семантической информации при флективном анализе – 11,5 %, при контекстном анализе – 9,1 %.

Общие задачи МА можно определить следующим образом:

Однозначное идентифицирование единиц текста в терминах лексико-грамматических классов.

Определение внутри класса словоизменительных характеристик словоформ (грамматический подкласс).

Сведение словоизменительных парадигм, приведение словоформ одной лексемы к канонической форме.

Работе алгоритмов собственно морфологического анализа предшествует процедура предредактирования вводимых в машину текстов, ориентированная не только на нужды МА, но и на последующие задачи всей системы автоматического анализа текста. Кроме разбиения текста на машинные слова (слова в форме, удобной для распознования их машиной): пробелами отделяются все знаки препинания, кроме тех случаев, когда они выступают не в своей основной синтаксической функции, текст должен быть также размечен: заглавия реферата и абзацев внутри него. В данной системе приходится еще редактировать текст, приводя в соответствие множество символов естественного языка и представления их в машине. Вместо символов, отсутствующих в устройстве ввода/вывода, ставятся особые пометы, например заглавные буквы, если они не относятся к начальному слова предложения, отмечаются звездочкой и знаком >, если в слове больше одной заглавной, то впереди ставится цефра, указывающая на их количество: 7>фортран (=ФОРТРАН).

Записанный в такой форме текст поступает на вход системы МА. Данная система состоит из пяти подсистемы. В задачи подсистемы 1 входит:

А) выделение тестовых единиц, требующих собственного МА;

Б) анализ слов, не имеющих морфологического статуса, типа формул, сокращенных словосочетаний, слов из букв латинского алфавита; Морфологическим статусом обладают все слова, имеющие в совем составе только русские прописные буквы или ограниченное кол-во знаков препинания, как-то дефис, косая черта и т.п., а также слова, ничинающиеся цепочкой цифр или латинских букв, за которыми следует дефис, и последефисная часть слова состоит из русских прописных букв: 15-й.

В) выявление ошибок, допущенных при перфорации текста.

Подсистема 2 предназначена для обработки текстовых единиц, получивших в процессе предредактирования метку заглавной буквы. Используется открытый список наиболее частотных аббревиатур (ЭВМ) и некоторые словоупотребления, сокращения

Подсистема 3 определяет коды грамматических классов для слов на основе анализа их графемной структуры.

Подсистема 4 определяет коды грамматических подклассов в пределах класса с помощью графематического анализа. Алгоритмы определения подклассов разные для местоимений, наречий, кратких причастий и прилагательных, существительных, слов адъективного типа. Например, род существительного определяется с вероятностью 99,98 % по графемному составу основы. В работе алгоритма определения подкласса существительного каждой словоформе присваивается двухсимвольный код, первая позиция – род, вторая число и падеж, всего выделяются 42 однозначных подклассов и 34 дизъюнктивных (типа компонент – м.р./вин. ед. и ж.р./ род. мн.).

В функции подсистемы 5 входит снятие грамматической омонимии классав и подклассов, полученной в результате работы алгоритмов 2,3,4, на основе контекстного анализа.

Характеристики

Тип файла

Документ

Размер

864,26 Kb

Материал

Искусственный интеллект

Тип материала

Выпускная квалификационная работа (ВКР)

Предмет

Языковедение

Учебное заведение

Неизвестно

Список файлов ВКР

iskusstvennyy-intellekt-1469838367-187014.zip

187014.rtf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.