Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 300

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 300 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3002021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 300)

Простейший способ выполнения этой задачи состоит в использовании так называемого способа Ж сглаживания с добавлением единицы: к результатам подсчета количества всех возможных двухсловных сочетаний добавляется единица. Поэтому, если количество слов в текстовой совокупности равно в(, а количество возможных двухсловных сочетаний равно в, то каждому двухсловному сочетанию с фактическим количеством с присваивается оценка вероятности (с+1) / (~~в) . Такой метод позволяет устранить проблему псловных сочетаний с нулевой вероятностью, но само предположение, что все результаты подсчета количества должны быть увеличены точно на единицу, является сомнительным и может привести к получению некачественных оценок.

Еше один подход состоит в использовании метода 'ск сглаживания с линейной интерполяцией, в котором предусматривается объединение моделей трех-, двух- и однословных сочетаний с помошью линейной интерполяции. Оценка вероятности определяется по следующей формуле, с учетом того, что с,-~ езус,=1: Р(ьг(м, зьа г) = сз Р(ы (ьь зм'-г) + сг Р(ы )и -~) + сг Р(ь' ) Параметры сз могут быть заранее заданными или полученными путем обучения по алгоритму ЕМ. Существует возможность применения значений с,, независимых от количества и-словных сочетаний, с тем, чтобы можно было присвоить больший вес оценкам вероятностей, полученным на основании больших значений количества.

Один из методов оценки языковой модели состоит в следующем. Вначале текстовая совокупность разделяется на обучаюшую совокупность и контрольную совокупность. Затем определяются параметры модели с помошью обучаюших данных. После этого выполняется расчет вероятности, присвоенной контрольной совокупности с помошью данной модели; чем выше эта вероятность, тем лучше. Одним из недостатков этого подхода является то, что вероятность Р ( ыогс(э) при наличии длинных строк становится весьма небольшой; такие малые числовые значения могут вызвать антипереполнение в арифметике с плавающей точкой или просто стать неудобными для чтения. Поэтому вместо вероятности может быть вычислен Ъ. показатель связности (регр)ехйу) модели на контрольной строке слов ь огх(э следующим образом: резЗззвхх ЕЗ.(,д,з <(в) 2-ыдг о~ югйм ых где в( — количество слов мосас)я.

Чем ниже показатель связности, тем лучше модель. Модель п-словных сочетаний, которая присваивает каждому слову вероятность 1у)с, 1105 Глава 23. Вероятностная обработка лингвистической информации имеет показатель связности )с; показатель связности может рассматриваться как средний коэффициент ветвления. В качестве примера того, для чего может использоваться модель и-словных сочетаний, рассмотрим задачу ок сегментации — поиска границ между словами в тексте без пробелов. Решением этой задачи обычно приходится заниматься при обработке текстов на японском и китайском языках, в которых отсутствуют пробелы между словами, но авторы полагают, что для большинства читателей более удобным будет пример из английского.

Приведенное ниже предложение действительно несложно прочитать любому, кто знает английский язык. 1()зеазу(огеадщоп)зщ((поп(зрасез На первый взгляд может показаться, что для решения такой задачи приходится пользоваться всеми знаниями в области синтаксиса, семантики и прагматики английского языка. Но ниже будет показано, что в данном предложении можно легко восстановить пробелы с использованием простой модели однословных сочетаний. В одной и предыдущих глав было показано, что для решения задачи поиска наиболее вероятной последовательности прохождения через решетку вариантов выбора слова может использоваться уравнение Витерби (15.9).

А в листинге 23.1 приведен вариант алгоритма Витерби, специально предназначенный для решения задачи сегментации. Этот алгоритм принимает в качестве входных данных распределение вероятностей однословных сочетаний, Р(щодс)), и некоторую строку. Затем для каждой позиции 1 в данной строке это алгоритм сохраняет в переменной Ьезс [1] значение вероятности наиболее вероятной строки, которая охватывает участок от начала до позиции 1. Кроме того, в этом алгоритме в переменной молод (11 сохраняется слово, оканчивающееся в позиции 1, которое получило наибольшую вероятность.

После того как по методу динамического программирования будут сформированы массивы Ьезс и щодс(з, в алгоритме осуществляется обратный поиск через массив гголс)з для определения наилучшего пути. В данном случае при использовании модели однословных сочетаний, соответствующей оригиналу этой книги, наиболее приемлемая последовательность слов действительно принимает вид я1( гв еазу (о ген ягоп)з зч)гпоц( зрасез" с вероятностью 10 ". Сравнивая отдельные части этого предложения, можно обнаружить, что слово "еазу" имеет вероятность однословного сочетания 2. бх10', а альтернативный вариант его прочтения, Яе аз у", имеет намного более низкую вероятность, 9.8х10 ", несмотря на тот факт, что слова (точнее, имена переменных) "е" и "у" довольно часто встречаются в уравнениях данной книги. Аналогичным образом, другая часть этого предложения характеризуется следующими данными: Р(5мьпиопе") = 0.0004 Р("щьсп") = 0.005 Р("опе") = 0.0008 Р("иьпп опе") = 0.005 х 0.0008 = 0.000004 Листинг 23Л.

Алгоритм сегментации строки нв отдельные слова с помощью уравнения Внтербн. Этот алгоритм восстанавливает наиболее вероятную сегментацию строки на слова после получения строки с удаленными пробелами кппееьоп Чьсетбь-Яеящепсасьол(сехс, Р) тееихпв последовательность наиболее подходящих слов яечпепсе и значения вероятностей слов этой последовательности !106 Часть ЧП. Общение, восприятие и осуществление действий апрпсвг Еехс, строка символов с удаленными пробелами Р, распределение вероятностей однословных сочетаний среди слов п г- ьепдсь(вехе) ыогс(я ь- пустой вектор длины ич1 Ьеяе г — вектор длины пч1, первоначально полностью заполненный значениями 0.0 Ьеяс[0] г — 1.0 г'* Заполнить векторы Ьеяе и ыогс(я с помощью средств динамического программирования *г' Ест Е = 0 Ео и сто Еок у = 0 ео 1-1 С(о иогг( г — еехе[у:Е] и < — Ьепдеи(ыогс]) ЕЕ Р[ыогс(] х Ьеяс[з — ь1 > Ьеяс[Е] еиеп Ьеяс[Е) < — Р[иогс(] Х Ьеяс[Š— и] з я[Е] < — д г'* Теперь восстановить последовательность слов яедиеисе */ яедиеисе г- пустой список г — и мМ1е Е > 0 с)о продвинуть вектор нагоя[Е] в начало последовательности яедиепсе 1 < в Š— Ьепдеи(иогс]я[Е]) г'* Последовательность наиболее подходящих слов, яедпепсе, и значения вероятностей слов этой последовательности *г' кеепкп нес?пенсе, Ьеяс[Е) Поэтому слово "ту[(ЬОО(" имеет в 100 раз более высокую вероятность, чем сочетание слов "гейЬ ОШ", согласно применяемой модели однословных сочетаний.

В данном разделе рассматривались модели и-элементных сочетаний, элементами которых являются слова, но широкое применение находят также модели и-элементных сочетаний, применяемые к другим элементам текста, таким как символы или части речи. Вероятностные контекстно-свободные грамматики В моделях и-элементных сочетаний используются статистические данные о совместном появлении элементов в текстовой совокупности, но эти модели не позволяют учитывать грамматические связи на расстояниях, превышающих и. В качестве альтернативной языковой модели может служить се вероятностная контекстно- свободная грамматика, или РСРО' (РгоЬаЬ|1щйс Соп(ех(-Ргее Огапппаг), которая представляет собой такую грамматику СРО, где каждое правило подстановки имеет связанную с ним вероятность. Сумма вероятностей по всем правилам с одной и той же левой частью равна 1.

Грамматика РСРО для части грамматики языка Ее приведена в листинге 23.2. ' Грамматики РСРО называют также сгнокастическимн контекстно-свободными грамма?никона, или БСЕб (згое]гав?(с сопгехг-(гее вгапипаг). Глава 23. Вероятностная обработка лингвистической информации ))07 -Ь ЬГР ЬР [1.00) -ч Ркспсип [0.10] агате [0.10] гноил [0.20] Лкегсзе Ьчсип [0.50] ЬГР РР [0.10] -ь ]гекЬ [0.60] УР Ь[Р [0.20] чгР РР [0.20] -ь РксрояЕСЕсп ЬГР [1.00] — ь Ькееяе [0.10] ) мияячив [0.15] ) аиепс [0.05] -ь пеев [0.15] ) вюе11в [0.10] ) Поев [0.25] — ь пю [0.05) ) уои [О.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее