Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 305

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 305 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3052021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 305)

Но независимо от применяемого алгоритма кластеризации требуется решить еше одну задачу, прежде чем результаты кластеризации можно будет использовать для представления результируюгцего набора, — найти удобный способ описания кластера. При использовании метода классификации имена категорий уже определены (например, "Еагп)пйз" — доходы), но при кластеризации имена категорий приходится изобретать заново. Один из способов выполнения этой задачи состоит в подборе списка слов, которые являются представительными для этого кластера. Еше один вариант состоит в применении названий одного или нескольких документов, близких к центру кластера.

11!9 Глава 23. Вероятностная обработка лингвистической информации Создание систем информационного поиска До сих пор в этой главе было приведено описание работы систем информационного поиска в общих чертах, но не показано, как добиться эффективного функционирования этих систем для того, чтобы машины поиска 1теЬ могли возвращать искомые результаты обработки коллекции, состоящей из многих миллиардов страниц, за десятые доли секунды. Двумя основными структурами данных любой системы информационного поиска являются лексикон, содержащий списки всех слов в рассматриваемой коллекции документов, и инвертированный индекс, в котором перечислены все места, где каждое слово встречается в коллекции документов.

Лексиконом называется структура данных, которая поддерживает одну важную операцию: после получения определенного слова она возвращает данные о том, в каком месте инвертированного индекса хранятся экземпляры этого слова. В некоторых версиях систем информационного поиска эта структура возвращает также данные об общем количестве документов, содержащих искомое слово. Лексикон должен быть реализован с использованием хэш-таблицы или аналогичной структуры данных, которая обеспечивает быстрое выполнение этой операции поиска.

Иногда в лексикон не включают ряд широко распространенных слов, имеющих малое информационное содержание. Эти слова, называемыми св. запретными словами ("гйе", "оГ, "го", "Ье", "а'* и т.д.), только занимают место в индексе, но не увеличивают ценность результата. Единственным резонным основанием для включения нх в лексикон может служить вариант, в котором лексикон используется для поддержки фразовых запросов, — индекс, содержащий запретные слова, необходим для эффективной выборки результатов для таких запросов, как "Го Ье ог пог го Ье". св. Инвертированный индекс', подобно индексу (предметному указателю), приведенному в конце данной книги, состоит из множества Ж списков позиций — обозначений тех мест, где встречается каждое слово.

Применительно к булевой модели ключевых слов список позиций представляет собой список документов. А список позиций, применяемый в модели однословных сочетаний, представляет собой список пар (документ, количество). Для обеспечения поддержки фразового поиска список позиций должен также включать обозначения позиций в каждом документе, где встречается каждое слово. Если запрос состоит из одного слова (а такая ситуация встречается в 26% случаев, согласно [!4111), его обработка происходит очень быстро. Для этого выполняется единственная операция поиска в лексиконе для получения адреса списка позиций, а затем создается пустая очередь по приоритету. В дальнейшем происходит обработка списка позиций одновременно по одному документу и проверка количества экземпляров искомого слова в документе.

Если очередь по приоритету имеет меньше, чем д элементов (где й — размер желаемого результирующего набора), то пара (документ, количество) добавляется к очереди. В противном случае, если количество экземпляров искомого слова больше по сравнению с соответствующими данными элемента с наименьшими показателями в очереди по приоритету, этот элемент а Термин "инвертированный индекс" бптепеб (паек) является избыточным; лучшим термином был бы просто "индекс". Индекс называют инвертированным поточу, что он задаст порядок расположения слов, отличный от того порядка, в котором слова расположены в тексте, но таковы все индексы.

Тем не менее по традиции в системах информационного поиска применяется термин "инвертированный индекс". 1120 Часть Ъ"г1. Общение, восприятие и осушествление действий с наименьшими показателями удаляется из очереди и добавляется новая пара (документ, количество). Таким образом, поиск ответа на запрос требует затрат времени, пропорциональных 0(н+я1одя), где и — количество документов в списке позиций.

Если запрос состоит из п слов, требуется выполнить слияние п списков позиций, для чеготребуется затраты времени, равные о(пнья1одк). В данной главе теоретический обзор средств информационного поиска представлен с использованием вероятностной модели, поскольку эта модель основана на идеях, уже описанных при изложении других тем в настоящей книге. Но в системах информационного поиска, фактически применяемых на практике, чаШе всего используется другой подход, называемый Ж моделью векторного пространства.

Эта модель основана на таком же подходе с использованием мультимножества слов, как и вероятностная модель. Каждый документ представлен в виде вектора частот однословных сочетаний. Запрос также представляется полностью аналогичным образом; например, запрос (вауеэ хпйогтасхоп гесгхеча1 пос(е11 представляется в виде вектора: ( о, ..., т, о, ..., т, о, ..., т, о, ..., т, о, ... 1 Применяемая здесь идея состоит в том, что суШествует по одному измерению для каждого слова в коллекции документов, а запрос получает оценку 0 по каждому измерению, кроме тех четырех, которые фактически присутствуют в запросе.

Релевантные документы отбираются путем поиска среди векторов документов именно тех векторов, которые являются ближайшими соседями по отношению к вектору запроса в векторном пространстве. Одним из критериев подобия служит точечное произведение между вектором запроса и вектором документа; чем больше это произведение, тем ближе два вектора. С точки зрения алгебры указанные вычисления обеспечивают получение высоких оценок теми словами, которые часто появляются и в документе, и в запросе. А с точки зрения геометрии точечное произведение между двумя векторами равно косинусу угла между этими векторами; максимизация косинуса угла между двумя векторами (находяШимися в одном и том же квадранте) равносильна уменьшению этого угла до нуля.

Это краткое описание далеко не исчерпывает всю проблематику модели векторного пространства. На практике эта модель была развита до такой степени, чтобы в ней можно было учесть целый ряд дополнительных средств, уточнений, исправлений и дополнений. Основная идея ранжирования документов по их подобию в векторном пространстве позволяет внести новые понятия в систему числового ранжирования. Некоторые специалисты утверждают, что вероятностная модель позволила бы выполнять аналогичные манипуляции более научно обоснованным способом, но исследователи в области информационного поиска вряд ли согласятся перейти на другой инструментарий до тех пор, пока не убедятся в явных преимуществах другой модели с точки зрения производительности.

Для того чтобы получить представление о том, с какими масштабами применения средств индексации приходится сталкиваться при решении типичной задачи информационного поиска, рассмотрим стандартную совокупность документов из коллекции ТКЕС (Тех! КЕ!г!еча! Соп(егепсе), состояшую из 750 тысяч документов с общим объемом в 2 Гбайт текста. Лексикон этой коллекции содержит приблизительно 500 тысяч слов, к которым применены операции выделения основы и приведения к нижнему регистру; лля хранения этих слов требуется объем памяти от 7 до 10 Мбайт.

Инвертированный индекс с парами (документ, количество) занимает 324 ! 121 Глава 23. Вероятностная обработка лингвистической информации Мбайт, хотя и остается возможность применить методы сжатия для сокрашения этого объема до 83 Мбайт. Методы сжатия позволяют экономить пространство за счет небольшого увеличения потребностей в обработке. Но если сжатие позволяет держать весь индекс в памяти, а не хранить его на диске, то появляется возможность добиться существенного общего прироста производительности.

Для поддержки фразовых запросов требуется увеличение этого объема примерно до 1200 Мбайт не в сжатом виде или до 600 Мбайт со сжатием. Машины поиска %еЬ действуют в масштабах, превышающих примерно в 3000 раз указанные выше. При этом многие из описанных здесь проблем остаются теми же, а поскольку задача оперирования с терабайтами данных в одном компьютере практически не осу(цествима, индекс разделяется на )г сегментов и каждой сегмент сохраняется на отдельном компьютере. Запрос передается параллельно на все компьютеры, а затем )г результирующих наборов сливаются в один результирующий набор, который предъявляется пользователю. Кроме того, машины поиска ЮеЬ вынужден)я справляться с тысячами запросов, поступающих в секунду, поэтому для них требуется и копий )г компьютеров. Со временем значения )г и и продолжают возрастать.

23.3. ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ 'Ъ. Извлечением информации называется процесс создания записей базы данных путем просмотра текста и выявления экземпляров конкретного класса объектов или событий, а также связей между этими объектами и собь(тиями. Может быть предпринята попытка применить такой процесс для извлечения данных об адресах из %еЬ-страниц и внесения в базу данных информации об улице, городе, штате и почтовом коде или извлечения сведений о происходящих штормах из сообщений о погоде и внесения в базу данных информации о температуре, скорости ветра и количестве осадков. Системы извлечения информации занимают промежуточное положение между системами информационного поиска и полными синтаксическими анализаторами текста, поскольку к ним предъявляются более высокие требования, чем просто преобразование документа в мультимножество слов, но меньшие требования по сравнению с полным анализом каждого предложения.

Простейшим типом системы извлечения информации является система, основанная на атрибутах, поскольку в ней предполагается, что весь текст относится к одному объекту и задача состоит в извлечении атрибутов этого объекта. Например, в разделе 10.5 упоминалась задача извлечения из текста "17(п БХОА Мопйог (ог оп1у $249.99" отношений базы данных, определяемых следующим выражением: 3т и е сотрисепноп1сопе л Язае(п, гпопеп(17) ) л Ргхое(п, 3 (249. 99) ) л леео1исдоп(п, 1280х1024) Определенная часть этой информации может обрабатываться с помощью 'Ъ.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее