Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 96

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 96 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 962020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 96)

Смена антропоцентрической картины мира наестественнонаучную картину мираНаивная картина мира отличается еще и тем, что она ставит в свой центр человекаи общество, то есть является антропоцентрической. При переходе к естественнонаучнойкартине мира эта антропоцентричность пропадает, что находит отражение в отношенияхонтологии.Мы заметили это явление в двух проявлениях.Есть знание, которое известно и в наивной картине мира, но из-за того, что вповседневной жизни некоторая сущность чаще всего встречается в той или иной форме,то эта форма и считается основной для сущности.Это явление хорошо видно на примере веществ и их агрегатных состояний ипроявляется уже в различиях в толкованиях, которые даются в толковых словарях иэнциклопедических словарях.Так, в толковом словаре (Ефремова, 2006) первое значение слова вода таково:1. Бесцветная прозрачная жидкость, представляющая собою химическоесоединение водорода и кислорода и содержащаяся в атмосфере, почве, живыхорганизмах и т.п.В Большой Советской энциклопедии термин вода имеет такое определение:окись водорода, H20, простейшее устойчивое в обычных условиях химическоесоединение водорода с кислородом (11,19% водорода и 88,81% кислорода по массе),358молекулярная масса 18,0160; бесцветная жидкость без запаха и вкуса (в толстых слояхимеет голубоватый цвет),Как следствие, в тезаурусе РуТез установлено отношение ВОДА – ЖИДКОСТЬ, вОнтологии по Естественным наукам ВОДА – это СОЕДИНЕНИЕ КИСЛОРОДА СВОДОРОДОМ, ОКСИД НЕМЕТАЛЛА.

Вводится дополнительное понятие ЖИДКАЯ ВОДА(вода в жидкой фазе, вода в жидком состоянии), которая и является видом понятияЖИДКОСТЬ.При этом образованным современникам отлично известно, что СОЕДИНЕНИЕВОДА бывает в разных агрегатных состояниях, но установить отношение междупонятиями ВОДА и ЖИДКОСТЬ в общезначимом ресурсе удобно, так как жидкоеагрегатное состояние воды является наиболее обсуждаемым, другие агрегатные состоянияПАР и ЛЕД воспринимаются как производные от основного.Еще один элемент антропоцентрической картины мира в тезаурусе РуТез – этоналичие таких оценочных понятий как СТИХИЙНОЕ БЕДСТВИЕ, которое оцениваетвоздействие тех или иных явлений на человеческое существование и включает такиепонятия как ЗЕМЛЕТРЯСЕНИЕ, СМЕРЧ, НАВОДНЕНИЕ и др.

Как представляетсяестественнонаучная онтология должна избегать таких оценочных понятий какСТИХИЙНОЕ БЕДСТВИЕ и должна использовать нейтральные классификации:СЕЙСМИЧЕСКОЕ ЯВЛЕНИЕ, МЕТЕОРОЛОГИЧЕСКОЕ ЯВЛЕНИЕ и т.п.24.4.5. ПримерВ качестве примера сравним описание понятия АЗУРИТ в составе Тезауруса РуТези Онтологии по Естественным наукам и технологиям.Азурит – достаточно известный минерал, используется для получения меди имедного купороса, а также для изготовления синей краски.Описание понятия АЗУРИТ втезаурусе РуТезАЗУРИТсинАЗУРИТсинМЕДНАЯ ЛАЗУРЬВЫШЕсинсинсинМИНЕРАЛМИНЕРАЛМИНЕРАЛЬНОЕ ВЕЩЕСТВОМИНЕРАЛЬНЫЙАСЦ1синсинсинсинМЕДЬМЕДНЫЙМЕДНЫЙ КОНЦЕНТРАТМЕДЬМЕДЬСОДЕРЖАЩИЙОписание понятия АЗУРИТ вОнтологии по естественным наукамАЗУРИТ (МИНЕРАЛ)синАЗУРИТсинМЕДНАЯ ЛАЗУРЬсинМЕДНАЯ СИНЬВЫШЕсинсинсинсинсинсинГИДРОКСОКАРБОНАТ МЕДИ(CUOH)2CO3CU2(CO3)(OH)2CU2CO3(OH)2CUCO3-CU(OH)2ВОДНЫЙ КАРБОНАТ МЕДИГИДРОКСОКАРБОНАТ МЕДИВЫШЕсинсинсинМИНЕРАЛ МЕДИМЕДНЫЙ МИНЕРАЛМИНЕРАЛ МЕДИПРИРОДНАЯ МЕДЬВЫШЕ ПРИРОДНЫЕ КАРБОНАТЫсинКАРБОНАТНЫЙ МИНЕРАЛсинМИНЕРАЛ КЛАССАКАРБОНАТОВсинПРИРОДНЫЕ КАРБОНАТЫ359Описание понятия АЗУРИТ втезаурусе РуТезОписание понятия АЗУРИТ вОнтологии по естественным наукамРисунок 24.1 показывает рабочий экран ведения Онтологии ОЕНТ.

В левойверхней части экрана помещен список понятий, курсором выделено рассматриваемоепонятие - АЗУРИТ. В левой нижней части экрана показаны текстовые входы для понятия.Правая верхняя часть экрана представляет список понятий, связанных отношениями срассматриваемым. Курсор установлен на отношении с понятием ГИДРОКСОКАРБОНАТМЕДИ. Правая нижняя часть экрана показывает текстовые входы понятия, выделенногокурсором в правой части экрана.Рисунок 24.2 показывает верхние уровни иерархии понятия АЗУРИТ в Онтологиипо естественным наукам и технологиям (за недостатком места не все существующиеотношения отражены). Ромбиками помечены понятия, которые были экспортированы изтезауруса РуТез.

Мы можем видеть, что прямые отношения понятия АЗУРИТ в тезаурусеРуТез заменились на многоступенчатые структуры, описывающие химический составминерала.На рисунке 24.3 для сравнения показаны верхние уровни иерархии понятияАЗУРИТ в тезаурусе РуТез.При рассмотрении различий в описании одинаковых и близких по смыслу понятийв общезначимой онтологии и предметно-ориентированной онтологии на примереТезауруса РуТез как общезначимой онтологии и Онтологии по естественным наукам какпредметно-ориентированной онтологии мы выявили особенности структуры «стыка»между такими онтологиями.Стык не представляет собой сплошную полосу понятий, принадлежащих обеимонтологиям.

Стык онтологий выглядит как совокупность полос, в которых междууровнями, принадлежащими обеим онтологиям, находятся понятия, принадлежащиетолько одной из онтологий.Различия в антропоцентрической «наивной» картине мира и естественнонаучнойкартине мира, проявляются в несоответствиях между описаниями понятий всоответствующих онтологиях.Полагаем, что сложная картина соответствий между описаниями близких посмыслу понятия в онтологии РуТез и онтологии ОЕНТ объясняются тем, что эти двеонтологии отличаются по способам рассмотрения внешнего мира. Онтология РуТезрассматривает мир через призму современного цивилизованного общества: что известно омире значимому количеству образованных людей современного общества, что важно(воздействует, используется) в жизни современного общества.

Онтология в областиестественных наук и технологий исключает из рассмотрения аспекты общественногомировосприятия и должна описывать в виде онтологической модели устоявшиесявоззрения современной науки, основываясь на материалах научных публикаций.360ВЕЩЕСТВОНЕОРГАНИЧЕСКОЕ ВЕЩЕСТВОХИМИЧЕСКОЕ СОЕДИНЕНИЕМЕТАЛЛЫКИСЛОТА(хим. соединение)МЕТАЛЛОСОДЕРЖАЩЕЕВЕЩЕСТВОЦВЕТНЫЕМЕТАЛЛЫКОМПЛЕКСНОЕСОЕДИНЕНИЕСОЕДИНЕНИЯМЕТАЛЛОВТЯЖЕЛЫЕМЕТАЛЛЫСОЛИ(хим. соединения)МЕТАЛЛОКОМПЛЕКСНОЕСОЕДИНЕНИЕНЕОРГАНИЧЕСКАЯКИСЛОТАУГОЛЬНАЯКИСЛОТАСОЕДИНЕНИЕУГОЛЬНОЙКИСЛОТЫМЕДЬОСНОВНАЯСОЛЬМЕДЬСОДЕРЖАЩЕЕВЕЩЕСТВОСОЛИТЯЖЕЛЫХМЕТАЛЛОВКАРБОНАТЫГИДРООКСОКОМПЛЕКСЫСОЕДИНЕНИЕМЕДИГИДРОКСОКАРБОНАТЫКАРБОНАТЫМЕТАЛЛОВСОЛИ МЕДИМИНЕРАЛКАРБОНАТ МЕДИМИНЕРАЛ МЕДИГИДРОКСОКАРБОНАТ МЕДИАЗУРИТРис.24.2.

Фрагмент Онтологии по естественным наукам и технологиям361ВЕЩЕСТВОХИМИЧЕСКОЕ СОЕДИНЕНИЕНЕОРГАНИЧЕСКОЕ ВЕЩЕСТВОКИСЛОТА(хим. соединение)МЕТАЛЛЦВЕТНЫЕМЕТАЛЛЫТЯЖЕЛЫЕМЕТАЛЛЫСОЛЬ(хим. соединения)НЕОРГАНИЧЕСКАЯКИСЛОТАПРИРОДНОЕ МИНЕРАЛЬНОЕОБРАЗОВАНИЕМЕДЬМИНЕРАЛАЗУРИТРис.24.3. Фрагмент Тезауруса РуТез, аналогичный рис. 24.2.24.4.6. Будущее развитие Онтологии ОЕНТОнтология ОЕНТ рассматривается нами как бесплатный ресурс длянекоммерческого использования.

Понятно, что небольшая группа исслдователей не можетучесть все особенности употребления терминологии в такой широкой сфере научныхисследований.Поэтому мы предполагаем, что с некоторого момента онтология ОЕНТ можетразвиваться при поддержке начного сообщества (технологии Web 2.0), для чего в рамкахпроекта могут быть созданы специальные средства – сервисы анализа и коррекциипонятийно-терминологической сети ОЕНТ, сервисы автоматической классификации иприписывание ключевых слов для пользовательских текстов, сервисы автоматическогореферирования и автоматического расширения запросов к поисковым машинам.Известно, что многие современные терминологические и лексические ресурсыразвиваются благодаря усилиям и критике пользователей.

Так была создана Википедия.Авторы известного ресурса - тезауруса английского языка Wordnet получали сотни писемс информацией о неточностях и ошибках. Такой ресурс как Онтология генов (Geneontology) многократно улучшился в процессе обсуждения научным сообществом.Самым простым методом взаимодействия с научным сообществом являетсяобсуждение содержания и структуры ресурса в форумах и электронной почте.Следующимвозможнымуровнемвзаимодействияявляетсяпредоставлениеисследователям средств для описания фрагментов онтологии (пользовательскойонтологии), которые можно было вставлять в объемлющую онтологию.Но как показывает практика, таких простых методов взаимодействия недостаточнодля создания терминологического ресурса, предназначенного для автоматическойобработки текстов, поскольку:- исследователь может употреблять термины из разных областей,362имеется множество словосочетаний, которые непонятно относить к терминамили нет (как известно, имеются очень большие расхождения между экспертамив процессе разметки термин/нетермин),- важность некоторого словосочетания, его терминологическая природа можетбыть выявлена не на одном тексте, а на некоторой текстовой коллекции.Поэтому необходимо обеспечить ряд сервисов, связанных с автоматическойобработкой научных текстов и помогающих пользователю определить, насколько егопрофессиональный язык отражен в онтологии ОЕНТ.

В число этих сервисов должнывходить такие сервисы как:- автоматическое сопоставление научной публикации с онтологией ОЕНТ(проецирование ОЕНТ на текст публикации), с подсветкой найденных терминови известных взаимосвязей, в том числе с учетом иерархии. Просмотреврезультаты такой обработки текстов, исследователь может легко увидеть, чтоне отражены какие-то важные для его области термины;- автоматическое сопоставление онтологии ОЕНТ с текстовой коллекцией, длясоставления частотного состава терминов ОЕНТ, употребляемых в этойколлекции, а также выявление частотного состава терминологическихсловосочетаний - то есть словосочетаний, которые не сопоставились с ОЕНТ,но могут рассматриваться как термины-кандидаты;- автоматическая рубрикация научных публикаций по одному или несколькимнаучным рубрикаторам - если публикация относится автоматом к неправильнойрубрике, то это означает, что, скорее всего, не учтены какие-то важныетермины.-Заключение к главе 24В этой главе мы рассмотрели использование модели представления знаний,использованной в тезаурусе РуТез, для формирования другого ресурса – Онтологии поестественным наукам и технологиям ОЕНТ.По сочетанию отличительных особенностей, направленных на максимальнуюпригодность для задач информационного поиска, онтология ОЕНТ является уникальнымресурсом в научно-технической сфере.Ожидается, что создание и применение такого ресурса может привести коживлению научных исследований в области автоматического анализа научнотехнической литературы, методов семантического поиска, ускорения обмена научнотехнической информации.Кроме того, ОЕНТ как свободно распространяемый ресурс может служить"образцом" для развития и тестирования методов извлечения знаний из текстов, которыемогли бы автоматически извлекать новые понятия и отношения, вводимые в новыхнаучных публикациях.363ЗАКЛЮЧЕНИЕВ данной книге мы описали ряд широко известных онтологических ресурсов,рассмотрели алгоритмы их применения в различных задачах информационного поиска.Для каждого рассматриваемого алгоритма и системы были приведены данные по оценкамкачества решения задач с использованием такого рода ресурсов.С использованием лингвистических и онтологических ресурсов в решении задачинформационного поиска часто связывается обсуждение возможности использованияболее смысловых, семантических, глубоких методов автоматической обработки текстов,чем при использовании пословных моделей обработки.При этом в сообществе исследователей информационного поиска существует двепротивоположных точки зрения.Большинство исследователей в этой сфере считает, что статистика по текстам иколлекциям и так прекрасно отражает и моделирует семантические явления.Другие исследователи, обычно пришедшие в эту сферу из других областейкомпьютерной науки, компьютерной лингвистики, считают, что создание и применениересурсов могло бы кардинально улучшить информационный поиск.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее