Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 47
Текст из файла (страница 47)
Былзадан булевский запрос «(lobster OR lobsters) AND (like OR prefer)» и получен правильныйответ.По материалам оценки поиска ответов на вопросы TREC было подсчитано, чтопри возвращении короткого 50-байтного ответа были получены следующие улучшения:- Цикл 1 – 40%- Цикл 2 – 52%- Цикл 3 – 8%- Всего– 76%17612.3. Предметные области вопросно-ответных системСовременные вопросно-ответные системы можно подразделить на два большихкласса.Первый класс – это вопросно-ответные системы общего назначения, которыедолжны отвечать на широкий круг вопросов на базе сверхбольших текстовых коллекций,например, информации, хранящейся на интернет-сайтах.
Величина используемыхтекстовых коллекций часто позволяет такой системе воспользоваться избыточностьюинформации, и находить такой текст, в котором ответ может быть получен системойнаилучшим образом. На конференциях TREC и CLEF тестируются общие вопросноответные системы.Второй класс вопросно-ответных систем – это вопросно-ответные системы,созданные для ответов на вопросы в рамках конкретных предметных областей, например,поиска информации в технической документации, в коллекции ответов на частые вопросыпользователей и другие.
Такие системы располагают значительно меньшей коллекциейдокументов. В значительной мере для качественного поиска ответов на вопросы этисистемы должны пользоваться знаниями о предметной области, хранимых, в частности, вформе онтологий и тезаурусов (Molla, Vicedo, 2006).Примерами сфер приложений специальных вопросно-ответных систем являютсяправовая сфера, а также многочисленные форумы по техническим проблемам,программному обеспечению, куда обращаются пользователи со своими проблемами.Кажется, что сужение сферы деятельности позволяет точнее настроить вопросноответную систему, и это действительно так.Однако, в предметных областях возникает другая проблема: реальные вопросыпользователей не представляют собой аккуратно построенный в виде одного предложениявопрос.
Чаще, вопрос реального пользователя включает предварительное описаниепроблемной ситуации, своих действий в этой ситуации, может содержать несколькоподвопросов с отдельными вопросительными словами, а также может содержатьзначительно количество вводных слов, и другого рода, бессодержательных слов(помогите, пожалуйста, поясните, help и т.п.).Приведем пример такого вопроса из компьютерного форума:Ноутбук Compaq nx9010, месяц от роду, лицензионная русская XP Home SP1,каждые 3-4 дня загадочно исчезают точки восстановления: просто стираютсясоответствующие папки. Похоже, что при перезагрузке.
Но не уверен. Вкалендаре мастера восстановления - тоже исчезают. На диске свободно 27 Гб,движок стоит на все 12%. На десктопе со времѐн установки XP ничего подобногоникогда не наблюдалось (там без сервиспака). Принятые меры: выключение иснова включение восстановления - ноль внимания. Снесение системы, установказаново - аналогично. Где копать? Машина хорошая, претензий нет. К виндам вовсѐм остальном - тоже. Железо? Винды? Хитрые дрова? Что?Пример реального вопроса в правовой области: •Расскажите, пожалуйста, о туристических и транзитных визах в США.
Чтособой представляют визы, выдаваемые супругам, и визы,связанные собучением? Сколько стоит оформление визы?В работе (Jeon и др., 2005) указывается, что если современные интернетпоисковики демонстрируют достаточно высокое качество обработки 2-3 словныхзапросов, их способность отвечать на сложные вопросы... является явно недостаточными.(Liddy и др., 2004) также пишут о том, что исследования вопросно-ответных системв рамках TREC в наибольшей степени было сконцентрировано на коротких, направленныхна поиск фактов, общезначимых вопросов, поиск ответов на многие из которыхбазируется на избытке информации в интернет. Предложенные подходы достаточно177хорошо работают для вопросов типа TREC, однако хорошие результаты не обязательнообеспечивают успех при обработке вопросов вне конференции TREC.В (Liddy и др., 2004) описывается система обработки реальных вопросов в рамкахболее широкой области аэрокосмической индустрии.
Основные компоненты вопросноответной системы включают: 1)обработка документов 2) модуль язык – логика (L2L) 3)поисковая машина и 4) нахождение абзацев с ответом. Когда пользователь спрашиваетсистему, его вопрос сначала посылается в L2L модуль, который порождает внутреннеепредставление вопроса и идентифицирует фокус вопроса. Поисковая машина возвращает50 лучших документов.
В качестве ответов возвращается 20 лучших абзацев.Вопросы NASA отличаются от вопросов TREC в нескольких аспектах. Во-первых,вопросы NASA задаются в реальное время студентом, и вопрос может бытьмногозначным или предполагает неявное знание, которое не эксплицировано в вопросе.Реальные вопросы обычно пишутся в спешке и могут быть сформулированы снарушением грамматической структуры или содержать орфографические ошибки.Кроме того, вопросы NASA часто подразумевают комплексные ответы.Например, простой вопрос «How doеs the shuttle fly?» («Как летает космическийчелнок?») является слишком широким, возможны несколько его интерпретаций.Вопрос может не специфицировать объект, о котором спрашивается: Do weldingsites yield any structural weaknesses that could be threat for failure?‖Еще один тип вопроса, который кажется простым: At what temperatures do liquidmetals typically exist? Проблема в том, что для разных металлов в разных условиях этатемпература – разная.Еще один сложный тип вопросов требует сравнения двух различных элементов издвух различных документов, ответ из которых должен быть синтезирован вопросноответной системой.(Liddy и др., 2004) указывают, что проблемы плохо сформулированных вопросовуже описаны библиотекарями.
Плохо сформулированные вопросы делятся на следующиекатегории:- слишком широкий вопрос;- вопрос, правильный ответ на который, на самом деле, не удовлетворитпользователя;- вопрос, который связан с недопониманием системы или предмета поиска;- многозначный вопрос;- вопрос, основанный на ошибочной информации.12.4. Поиск ответов на вопрос в вопросно-ответных сервисахОтдельным направлением в развитии вопросно-ответных систем можетрассматриваться поиск уже существующих ответов в вопросо-ответных сервисахглобальных интернет-поисковиков.Во многих странах стали популярными вопросно-ответные сервисы, когдапользователь может обратиться к сообществу пользователей или к экспертам за ответомна свой вопрос.
Такие службы обычно накапливают большие объемы уже отвеченныхвопросов, то есть документов типа «вопрос-ответ». При задании вопроса сервис может,прежде всего, выполнить поиск на предмет того, нет ли уже в его базе вопросно-ответныхдокументов ответа на подобный вопрос.Вместе с тем такие вопросы, будучи сходными по значению, могут бытьсформулированы с помощью совершенно разных лексических средств.
(Jeon и др., 2005)приводят такие примеры близких по содержанию вопросов, не содержащих ни одногообщего слова:1. Is downloading movies illegal?2. Can I share a copy of a DVD online?178Поиск ответов на такие вопросы отличается от основной парадигмы современныхвопросно-ответных систем тем, что нужно найти не короткий ответ на относительноограниченный список типов вопросов, а документ, отвечающий на неограниченныйсписок типов вопросов.Заключение к главе 12Разработка вопросно-ответных систем представляет собой очень интереснуюзадачу на стыке информационного поиска и автоматической обработки текстов.Если коллекция текстов, на которой работает конкретная вопросно-ответнаясистема, достаточно велика и имеется большое количество вариантов представленияодной и той же информации, то могут использоваться относительно «легкие» подходы,основанные на статистике и ключевых словах.Однако для поиска ответов на сложные вопросы требуется использоватьдостаточно глубокую обработку вопроса и текстов, включая распознавание именованныхсущностей, разрешение многозначности, синтаксический и семантический анализ, разныевиды логического вывода и др.
Также при обработке сложных вопросов велик потенциалиспользования таких ресурсов как тезаурусы и онтологии.179Глава 13. Тезаурусы в системах автоматической рубрикации текстовКлассификация/рубрикация информации (отнесение порции информации к однойили нескольким категориям из ограниченного множества) является традиционной задачейорганизации знаний и обмена информацией, рассматривается как одна из классическихзадач информационного поиска.
Распространенность больших информационныхколлекций делает необходимым развитие автоматических методов рубрикации.В данной главе мы рассмотрим основные методы автоматической рубрикации,метрики оценки качества автоматической рубрикации, эксперименты по использованиютезауруса WordNet в данной задаче.13.1.
Методы автоматической рубрикации и оценка их качестваИзвестны две основных технологии автоматической рубрикации:- методы, основанные на знаниях (также именуемые "инженерный подход"), приприменении которых правила отнесения текстов к рубрикам строятсяинженерами по знаниям в форме булевских выражений, правил продукций ит.п.- методы на основе машинного обучения, при применении которых используетсяколлекция документов, предварительно отрубрицированная человеком.Алгоритм машинного обучения строит процедуру классификации документовна основе автоматического анализа заданного множества отрубрицированныхтекстов.Оценка качества автоматической классификации производится путем сравнения сэталонной («правильной») классификацией набора документов, то есть на основеколлекции документов, отрубрицированных вручную.Для оценки эффективности работы систем рубрицирования используются такиехарактеристики, как полнота и точность (Агеев, Кураленок, 2004).Полнота (r – recall) - это отношение R/Q, где R - количество текстов, правильноотнесенных к некоторой рубрике, а Q - общее количество текстов, которые должны бытьотнесены к этой рубрике.Точность (p – precision) – это отношение R/L, где R - количество текстов,правильно отнесенных системой к некоторой рубрике, а L - общее количество текстов,отнесенных системой к этой рубрике.Метрика F-мера часто используется как единая метрика, объединяющая метрикиполноты и точности в одну метрику.
F-мера для данного запроса (рубрики) вычисляетсяпо формуле:2F1 1p rТакже иногда используется метрика аккуратности (accuracy), которая вычисляетсякак отношение правильно принятых системой решений к общему числу решений.ФормальноАккуратность = (R+R-)/D,где R - количество текстов, правильно отнесенных системой к рубрике, R- - числотекстов, правильно не отнесенных системой к рубрике, D – общее число документов вколлекции. Таким образом, знаменатель не зависит от рассматриваемой рубрики.Для оценки эффективности методов машинного обучения для задачиавтоматической рубрикации текстов используются стандартные корпусы текстов,классифицированных по заданным рубрикаторам.180Считается, что наиболее эффективными, но и наиболее трудозатратными, являетсяметоды автоматического рубрицирования, основанные на знаниях.
При рубрицированиитекстов на основе знаний используются заранее сформированные базы знаний, в которыхописываются языковые выражения, соответствующие той или иной рубрике, правилавыбора между рубриками и др., (Goodman, 1991; Hayes, 1992).Так, например, в классической работе по инженерному подходу к автоматическойрубрикации текстов (Hayes, 1992) рубрики определяются на основе сопоставлениякаждой рубрике совокупности специальных шаблонов. Шаблон определяется какконструкция, состоящая из произвольного количества дизъюнкций, конъюнкций,отрицаний. пропусков слов и операторов необязательности.