Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 310

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 310 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3102021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 310)

Это все, что требуется для алгоритма ЕМ. На основании начальных параметров вычисляются выравнивания, а с помошью выравниваний уточняются оценки параметров. Такая процедура повторяется до полной сходимости. 23.5. РЕЗЮМЕ Основные положения, изложенные в этой главы, перечислены ниже. ° Вероятностные языковые модели, основанные на п-элементных сочетаниях, позволяют получить весьма значительный обьем информации о языке. ° Контекстно-свободные грамматики 1Сопгехг-атее Огапппаг — СГО) могут быть расширены до вероятностных контекстно-свободных грамматик, которые позволяют проше определять их параметры с помошью обучения из имеюшихся данных, а также легче решать задачу устранения неоднозначности. ° В системах информационного поиска используется очень простая языковая модель, основанная на обработке мультимножеств слов, но даже эта модель позволяет достичь высоких показателей полноты и точности на очень больших совокупностях текстов.

° В системах извлечения информации используется более сложная модель, которая включает простейшие синтаксические и семантические конструкции. Для реализации таких систем часто применяются каскады конечных автоматов. ° В практически применяемых системах машинного перевода используется целый ряд методов, начиная от полного синтаксического и семантического анализа и заканчивая статистическими методами, основанными на учете частот слов. 1135 Глава 23, Вероятностная обработка лингвистической информации ° При формировании статистической языковой системы лучше всего опереться на модель, позволяющую эффективно использовать имеющиеся данные, даже если эта модель кажется чрезмерно упрощенной.

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Подход с применением моделей и-буквенных сочетаний для моделирования языка был предложен Марковым [983]. Клод Шеннон (1394] впервые создал модели и-словных сочетаний английского языка. Хомский [250), [25!] указал на ограничения моделей на основе конечных автоматов по сравнению с моделями на основе контекстно-свободных грамматик и пришел к заключению: "Вероятностные модели не позволяют каким-то образом добиться лучшего понимания некоторых основных проблем синтаксической структуры".

Это утверждение справедливо, но в нем игнорируется тот факт, что вероятностные модели обеспечивают лучшее понимание некоторых других основных проблем, а именно тех проблем, которые не могут быть решены с помощью контекстно-свободных грамматик. Замечания, сделанные Хомским, оказали неблагоприятный эффект, выразившийся в том, что в течение двух десятилетий многие исследователи избегали использования статистических моделей. Положение изменилось лишь после того, как указанные модели снова вышли на передний план и стали применяться при распознавании речи [730].

Метод сглаживания с добавлением единицы был предложен Джеффри (728], а метод сглаживания с удалением путем интерполяции разработан Елинеком и Мерсером [732), которые использовали этот метод для распознавания речи. В число других методов входят сглаживание Виггена — Белла [1605) и сглаживание Гуда— Тьюринга [257]. Последний метод также широко применяется при решении задач биоинформатики. Проблематика биостатистическнх и вероятностных задач Ь]1 Р постепенно сближается, поскольку в каждой из этих областей приходится иметь дело с длинными структурированными последовательностями, выбранными из алфавита непосредственных составляющих. Простые модели и-буквенных и и-словных сочетаний не являются единственными возможными вероятностными моделями. В [136) описана вероятностная модель текста, называемая скрытым распределением Дирихле, в которой документ рассматривается как комбинация тем, а каждая из тем характеризуется собственным распределением слов.

Эта модель может рассматриваться как дополнение и уточнение модели скрытой семантической индексации Дирвестера [376) (см. также [1169]); кроме того, она тесно связана с моделью сочетания многочисленных причин [1345]. В вероятностных контекстно-свободных грамматиках [РгоЬаЬ111зг[с Сопгехг-Ргее Огапцпаг — РСРО) устранены все недостатки вероятностных моделей, отмеченные Хомским, и они показали свои преимущества над обычными контекстно- свободными грамматиками. Грамматики РСРО были исследованы Бугом [151] и Саломаа (1346]. В [729] представлен алгоритм декодирования стека, представляющий собой один из вариантов алгоритма поиска Витерби, который может использоваться для определения наиболее вероятной версии синтаксического анализа с помощью грамматики РСРО.

В [63] представлен внешний — внутренний алгоритм, а в [889] описаны области его применения и ограничения. В [236) и [804) обсуждаются проблемы синтаксического анализа с помощью грамматик в виде банка деревьев. 1!36 Часть ЧП. Общение, восприятие и осуществление действий В [1467] показано, как определять с помощью обучения грамматические правила на основе слияния байесовских моделей.

Другие алгоритмы для грамматик РСЗО представлены в [235] и [980). В [282] приведен обзор результатов, полученных в этой области, и даны пояснения к одной из наиболее успешных программ статистического синтаксического анализа. К сожалению, грамматики РСРО при выполнении самых различных задач показывают более низкую производительность по сравнению с простыми и-элементными моделями, поскольку грамматики РСЗО не позволяют представить информацию, связанную с отдельными словами. Для устранения этого недостатка некоторые авторы [281], [237], [7!3] предложили варианты га лексикализоваиных вероятностных грамматик, в которых совместно используются контекстно-свободные грамматики и статистические данные, касающиеся отдельных слов.

Первой попыткой собрать сбалансированную совокупность текстов для эмпирической лингвистики явилось создание коллекции Вгои и Согроз [493]. Эта совокупность состояла примерно из миллиона слов с отметками, обозначающими части речи. Первоначально эта коллекция хранилась на 100 тысячах перфокарт. Банк деревьев синтаксического анализа Пенна [982] представляет собой коллекцию, состоящую примерно из 1,6 миллиона слов текста, для которого вручную выполнен синтаксический анализ с преобразованием в деревья. Эта коллекция помещается на компактдиске.

В издании Вг[!!з[з Ха!!опа1 Согрев [905] данная коллекция была расширена до 100 миллионов слов. В У!ог!д %Ые %еЬ хранится свыше триллиона слов больше чем на 10 миллионах серверов. В последнее время растет интерес к области информационного поиска, обусловленный широким применением поиска в 1и!егпе!. В [1296] приведен обзор ранних работ в этой области и представлен принцип ранжирования вероятностей. В [980] дано краткое введение в проблематику информационного поиска в контексте статистических подходов к решению задач Х[.Р. В [59) приведен обзор общего назначения, заменивший более старые классические работы [492) и [1347). Книга МалаяГл8 бфаЬугез [1606] посвящена решению именно той задачи, о которой говорит ее название, — описанию того, как можно эффективно индексировать, применять сжатие и выполнять запросы применительно к совокупности текстов гигабайтовых размеров.

В рамках конференции ТКЕС, организованной Национальным институтом стандартов и технологии (]х!а!!она! 1пзбщге оГ 8!апоагоз апд Тес[зпо1о8у — МБТ) при правительстве Соединенных Штатов, проводятся ежегодные соревнования между системами информационного поиска и публикуются труды с описанием достигнутых результатов. За первые семь лет таких соревнований производительность участвующих в них программ выросла примерно в два раза.

Наиболее широко применяемой моделью для информационного поиска является модель векторного пространства Салтона [1348]. В первые годы развития этой области указанная работа Салтона была фактически самой влиятельной. Имеются также две альтернативные вероятностные модели. Модель, представленная в этой книге, основана на [1225]. В ней моделируется совместное распределение вероятностей Р ! гз, !2! в терминах Р ! [2) и1 . В другой модели [985], [1297) используется вероятность Р ! гз] О! .

В [879] показано, что обе эти модели основаны на одном и том же совместном распределении вероятностей, но от выбора модели зависит то, какие методы должны применяться для определения параметров с помощью обучения. Описание, Глава 23. Вероятностная обработка лингвистической информации 1137 приведенное в данной главе, основано на обеих этих моделях. В [1522] приведено сравнение различных моделей информационного поиска.

В [! 87] описана реализация машины поиска для %ог10 %к[е %еЬ, включая алгоритм Ра8еКап[г, в основе которого лежит независимый от запроса критерий качества документа, базируюшийся на анализе %еЬ-ссьиок. В [805] описано, как находить авторитетные источники информации в %еЬ с использованием анализа ссылок. В [1411] приведены результаты исследования журнала с данными о миллиарде поисковых операций, выполненных в %еЬ. В [864] приведен обзор литературы по исправлению орфографических ошибок.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6556
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее