Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 3
Описание файла
Файл "Диссертация" внутри архива находится в папке "Многоязыковый информационный поиск с использованием мультиагентной платформы". PDF-файл из архива "Многоязыковый информационный поиск с использованием мультиагентной платформы", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
рисунок 1.1) для улучшения описаний документовили запросов с ожиданием того, что общая производительность системыулучшится после введения такой обратной связи [1], [3].Алгоритмы сопоставления используют представления документа изапроса для поиска документов, отобранных системой как релевантные. Однакодокументы,возвращенныесистемой,необязательнодолжныбытьрелевантными с пользовательской точки зрения.
Двумя основными факторами,которые влияют на несоответствие между набором документов, отобранныхсистемой, и теми, предполагаемыми пользователем как релевантные их14конкретному запросу, являются неоднозначность естественного языка ивозможный ограниченный набор знаний пользователей в области запроса.Проблемадвусмысленности(неоднозначности)естественногоязыкаобъясняется тем, что концепция может быть выражена несколькими способами.Например, рассмотрим слово windows (окна).Пользователь использует этослово для поиска документов в операционной системе Windows илидокументов,объясняющих,какклассифицироватьразличныетипыархитектуры, рассматривая формы окон [3]. Формулировка методов дляпреодоления проблемы двусмысленности естественных языков являетсяглавной целью исследований информационного поиска.Помимо традиционного информационного поиска (ИП) или поиска наодном языке, где документы и запросы написаны на одном и том же языке, вобласти исследования ИП рассматриваются еще два типа ИП: кроссязычныйИП в многоязыковой среде и многоязычный ИП (МИП).1.1.1 Анализ многоязыкового информационного поискаВ то время как ИП был активной областью исследований на протяжениимногих десятилетий большая часть его истории имеет очень сильный уклон всторону английского языка, как языка, выбранного для исследовательскихцелей и оценки.
Какими бы они ни были на протяжении этих лет, многиемотивы за почти исключительную работу с английским языком, как языкомИП, они потеряли свою актуальность. Интернет уже больше не являетсяодноязычным, и неанглоязычный контент значительно увеличивается. С 2005года две трети всех пользователей сети Интернет оказались не говорящими наанглийском языке [4].В действительности только одна пятая часть пользователей сети Интернетявляется носителем английского языка. Природа сети Интернет не знает каких-15либо языковых границ.
Люди из разных стран, говорящие на разных языках,используют сеть Интернет. Это однозначно мотивирует развитие и улучшениемногоязычных методов ИП. Люди часто могут быть заинтересованы врелевантной информации на разных языках, которая получена с помощьюодного процесса поиска с использованием многоязычных методов. Это такжепозволяет пользователям выражать потребности в информации на своихродных языках, тогда как результаты поиска могут быть на других [5].МногоязычныйИПпредполагаетхорошеепониманиевопросов,касающихся ИП на одном языке. Для малых европейских языков, таких какголландский и финский, затраты на разработку и поддержку языковойинфраструктуры относительно высоки.
Но положение языков, для которыхразработано небольшое количество вычислительных инструментов, будетосложнятьсяврастущемглобальномобществеввидукультурныхиэкономических причин [4].Кроссязычный ИП является задачей поиска документов, релевантныхзапросу, на некотором языке (языке запроса) в наборе (собрании) документовна некотором другом языке (языке набора (собрания)).Кроссязычный ИП является подобластью ИП, касающейся поискаинформации, записанной на языке, отличном от языка пользовательскогозапроса. Например, пользователь может создать свой запрос на английскомязыке, а получить релевантные документы на французском. Для этогобольшинство систем кроссязычного ИП используют технологии перевода [5-7].Система многоязычного ИП (МИП) помогает пользователям соствитьзапрос на одном языке и осуществлять поиск документов на более чем одномязыке [5, 7, 8– 11].Система МИП находит применение там, где набор данных состоит издокументов на разных языках и пользователи системы ИП могут читать на16некоторых языках, на которых написаны документы.
В большинстве случаевлюди в действительности имеют базовые навыки чтения и понимания нанекотором другом языке, в отличие от их родного языка, на котором ониобычно пишут поисковые запросы. Далее, если пользователи не понимают языкнайденного документа, могут быть использованы системы машинного перевода(МП) для получения текста на родном языке пользователя.Рассмотрим многоязычные системы, о которых есть сведения впериодике.Работа Zhuhadar L., Nasraoui O., Wyattand R., Romero E. [21].
Авторамииспользуется метод перевода запроса для поиска документов на несколькихязыках с техникой расширения для перевода по фразам. Они такжеиспользовали поисковики, применяющие модель векторного пространства длясопоставления терминов запроса с проиндексированными документами, гдеиспользовалось уравнение скоринга. Скоринговый алгоритм основан напредставлении документов вектором. Каждое представление вектора-терминасвязано с каждым полем документа, для которого пользователь делает запросна английском или испанском языке.Работа Capstick, J., Diagne, A.K., etal. [21]. Система MULINEX –полностью реализованный многоязыковой поисковик и навигационная системадля Всемирной паутины. Система позволяет пользователям искать ипросматривать мультиязыковые собрания документов с использованием ихродного языка, чтобы формулировать, расширять и уточнять запросы,просматривать набор результатов и читать найденные документы.Этот мультиязыковой функционал получен благодаря использованиюперевода запросов со словарем, категоризации документов на несколькихязыках и автоматическому переводу аннотаций и документов.
Система17установлена в составе онлайн-служб двух компаний - Интернет контент исервис провайдерах.Работа Maeda A., Sadat F., etal. [21]. Сначала запрос переводится сродного языка пользователя на язык просматриваемых документов с помощьюдвуязычного словаря. При этом первоначальный запрос разделяется на слова сиспользованиемавтоматическиморфологическогопереводитсянаанализатора.целевойязыкЗатемскаждоесловоиспользованиеммашиночитаемого словаря.Работа Qin J., Zhou Y., Chau M., Chen H. [21].
В системе принятсловарно-ориентированный подход, сочетающий в себе перевод фраз, анализсовместного появления перед переводом и после расширение запроса. Подходбыл оценен доменными экспертами и результаты представлены таким образом,что достигается перевод предложений. Достигнут уровень в 74.6% улучшенияточности при сравнении с простым переводом каждого слова.Работа Sethuramalingam S., VasudevaVarma [21]. Языки: английскийхинди, хинди-английский, использован словарно-ориентированный переводзапросов. Для перевода применен подход соответствий, для ранжирования –алгоритм люцена (lucene) BM25.РаботаChandraMohan,Sadanandam,RajuKorra[21].Здесьмультиязыковой словарь основан на переводе каждого слова запроса, асобрания на английском, французском, немецком и хинди обрабатываютсясистемами ИП и МИП.
Для перевода запросов был использован переводчикGoogle. При этом английский язык рассматривался как язык источника, афранцузский, немецкий и хинди – как целевые языки.Работа Hsin-Chang Yang, Chung-Hong Lee [18]. В этой работе авторамипредставлен метод на основе GHSOM (Growing Hierarchical Self-OrganizingMap) для обнаружения соответствий между разными языками и применением18этого метода для задачи МИП.
Эксперименты показали, что этот методпредоставил многообещающий подход для решения задачи МИП.Работа Yoshinaga K., Terano T., Zhong N. [19]. Автором предложен новыйВеб-поисковик, который автоматически классифицирует собранные документы,осуществляет поиск информации на нескольких языках (например, японскомили английском). Это достигается обработкой с помощью формализованногоописания предметной области – онтологии. Они создали многоязычнуюонтологию для применения в качестве указателя словаря. Онтология управляетдля конкретных предметных областей отношениями ключевых слов и их весов,согласно которым классифицируются документы.Перечисленные выше системы позволяют осуществлять автоматическийперевод текста на другой язык и выполнить поиск документов на этих языках.Сравнительные данные по перечисленным выше системам, представлены втаблице 1.
Большинство из них использует перевод запросов методом «словослово». Это приводит к большому количеству ошибок перевода, в своюочередь, приводящих к включению в результаты нерелевантных документов.Также практически во всех системах отсутствует ранжирование найденныхдокументов. Единственная система, использующая ранжирование, применяетдля выполнения классификацию на базе онтологии.Кроме того все эти системы все еще имеют высокий уровень ошибок,которые, например, возникают вследствие неоднозначности терминов исложности грамматики. С неоднозначностью терминов сталкиваются иодноязыковые системы ИП, но для систем МИПошибки неоднозначноститерминов на стадии перевода потенциально [5] могут увеличиться.
Этипроблемы, возможно, не будут решены в ближайшем будущем. Это мотивируетразработку многоязычных методов ИП, которые не зависят от систем19машинного переводаили как минимум способны компенсировать ошибкитаких систем.Таблица 1.1 – Анализ существующих систем МИПАвторыЯзыкиJialunАнглийскийQin, Yilu- китайскийZhou,MichaelChau,Hsinchun Chen,(2006)LeylaАнглийскийZhuhadar,- испанскийOlfaNasraoui,Robert Wyatt,ElizabethRomero(2010)ChandraMohan,Sadanandam,Raju Korra(2013)Английскийфранцузский– немецкий хиндиОсобенностиреализацииПеревод запроса«слово – слово».Перевод запроса пословарю сограниченнымнабором научныхтем.Сложная оценкарелевантности помодели векторногопространства.Перевод запроса«слово – слово».Сбор текстов начетырех языках.НедостаткиОшибки переводазапроса.Дополнительныевременные затраты наобработку нерелевантныхссылок.Отсутствиеранжированиядокументов.Большие временныезатраты на подсчетоценки релевантности иудаление нерелевантныхдокументов.Ошибки переводазапроса.Отсутствиеранжированиядокументов.Узким местом в развитии многоязычных подходов в ИП являютсяязыковыересурсы,которыеявляютсяпосредникамимеждуязыками.Примерами таких ресурсов, которые часто используются в настоящихмногоязычных системах ИП, являются билингвальные словари, такие какИнтерлингва WordNet и EuroWordNet 2.