МПЗиО_12_17_ЛингвистичОнтологии (Лекции)
Описание файла
Файл "МПЗиО_12_17_ЛингвистичОнтологии" внутри архива находится в папке "Лекции". PDF-файл из архива "Лекции", который расположен в категории "". Всё это находится в предмете "(мпзио) модели представления знаний и онтологии" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
ПРЕДСТАВЛЕНИЕЗНАНИЙ:ЛИНГВИСТИЧЕСКИЕОНТОЛОГИИСОДЕРЖАНИЕ1. Подходы к созданию онтологий2. Виды лингвистических онтологий3. -ономии и рубрикаторы4. Тезаурусы: Информационно-поисковые тезаурусы РуТез5. Тезаурус WordNet6. Заключение7. Домашнее задание2ФОРМАЛЬНЫЙ ПОДХОДК СОЗДАНИЮ ОНТОЛОГИЙМетодология построения: от понятийКак правило, опирается на формальный язык илогику (например, предикатов первого порядка)На выходе – формальная онтология, включающаяматематически точные аксиомы иязыковонезависимая: не содержит единиц, специфичных для какоголибо естественного языка (ЕЯ) в общем случае ее понятия не имеютвзаимнооднозначного соответствия со значениямиязыковых единицПри этом для названий понятий, отношений и пр.все равно используются слова и словосочетания ЕЯ3ЛИНГВИСТИЧЕСКИЙ ПОДХОДК СОЗДАНИЮ ОНТОЛОГИЙМетодология построения: от слов к понятиямПредполагает изучение ЕЯ и привлечение корпусовтекстовНа выходе – менее формальный ресурсонтологического характера(лингвистическая онтология)Поскольку понятия связаны со значениями языковыхединиц, для переноса на другой язык требуетсясерьезная адаптацииДля более строгого описания знаний о миренеобходимо сопоставлять лингвистические онтологиис формальными4ЛИНГВИСТИЧЕСКИЕОНТОЛОГИИ: ВИДЫ-ономия – понятия узкой области в одномопределенном отношенииРубрикатор (классификатор, каталог) –иерархическая/фасетная классификацияпонятийТезаурус – понятия предметной области(ПО) в отношениях синонимии, иерархии,ассоциации Различие: создаются для разных целей Сходство: понятиям сопоставленытекстовые/языковые (лексические) единицы5-ОНОМИИТаксономия – отношение класс-подклассПартономия – отношение часть-целое6РУБРИКАТОРЫПредназначены для систематизации информации,знаний, документовСодержат взаимно непересекающиеся рубрики,покрывающие всю ПОНазначение рубрики – четко определить отдельнуюконцептуальную категориюЗачастую названия рубрик длинны, «неуклюжи» и невстречаются в текстах: прочие отрасли экономики,художественная литература на балтийских языкахОтношения между рубриками не сводятся к одномуконкретному типуДля автоматического использования каждой рубрикесопоставляются текстовые единицы7РУБРИКАТОРЫ:КАТАЛОГ ЯНДЕКС.МАРКЕТ8ТЕЗАУРУСЫТезаурус (или идеографический словарь): статьи упорядочены по смыслу, а не по алфавиту смысл понятия выражается посредствомсоотнесения его с другими понятиями и ихгруппами, а не через определениеОписывает понятия определенной ПО, облегчаеткоммуникацию людейПонятиям сопоставлены языковые единицыЕдиницы с близкими значениями сгруппированы вконцепты (понятия/дескрипторы), семантическиеотношения между концептами явно указаныДля удобства пользования снабжается алфавитнымуказателем9РАЗНОВИДНОСТИТЕЗАУРУСОВТипа Тезауруса Роже: цель – классификация слов ЕЯ для подборасинонимов и близких по смыслу слов, например,при написании текстов отношения, как правило, не специфицированыИнформационно-поисковые тезаурусы: используются при информационном поиске (ИП) цель – унифицированное описание содержаниядокументов и/или поисковых запросов кавтоматизированным ИП системамТипа WordNet: цель – подробное описание лексической системыконкретного ЕЯ10ТЕЗАУРУС РОЖЕАвтор – Peter Mark Roget (1779–1869)Принцип классификации: на верхних уровнях – объекты/понятиядействительности на нижнем – словаСлова организованы в пронумерованные группы.Название группы – слово с широкой семантикойВ первом издании 1852 г.
– 1000 группВ группах слова разбиты по частям речи, расположение– по степени близости значенийОт некоторых слов есть отсылки к другим словам,возможны пометы, ограничивающие употреблениеПротивоположные по смыслу группы слов следуют другза другом (connect – disconnect)11ТЕЗАУРУС РОЖЕ. СХЕМАКЛАССИФИКАЦИИ (ФРАГМЕНТ)12ТЕЗАУРУС РОЖЕ. ГРУППАСЛОВ (ФРАГМЕНТ)Land 342N. land, earth, ground, dry land, terra firmacontinent, mainland, peninsula; tongue of land, neck ofland; isthmus, oasis; highland &c. (height) 206.riverbank, river bank, levee…V. land, come to land, set foot on the soil; come ashore, goashore, debarkAdj.
earthy, continental, midland, coastal, littoral, riparian,;alluvial; terrene &c. (world) 318; landed, predial, territorialAdv. ashore; on shore, on land13ИНФОРМАЦИОННОПОИСКОВЫЕ ТЕЗАУРУСЫИнформационно-поисковый тезаурус (ИПТ) –нормативный словарь терминов ПО, явно указывающийотношения между нимиТермины – слова и словосочетания ЕЯ, называющиепонятия ПО: абсолютно черное тело,молодняк животных, торговля на выносОсновное развитие ИПТ – 60-80 гг.
XX века: сначала: поиск по библиографическим данным иреферату затем: сопоставление документу терминов ПО,характеризующих его содержаниеСуществуют стандарты ISO и ГОСТ на разработку ИПТ14СОСТАВ ИПТДескрипторы и аскрипторы: понятие ПО обычно имеет синонимы среди них выбирается термин, используемый какосновной способ ссылки на понятие – дескриптор другие термины из синонимического ряда –аскрипторы (А) – используются для поискаподходящих дескрипторовязыкознание – лингвистика – языковедение (А)Отношения между дескрипторами: родовидовые отношения:мебель: вид стулья, прятки: род игра отношение ассоциации (все остальное)15ПРИМЕРЫ АССОЦИАТИВНЫХОТНОШЕНИЙ (ГОСТ 7.25-2001)часть-целое: комната, лестница – домпричина-следствие: смерть – похоронысырье-продукт: сахарная свекла – сахарадминистративная иерархия: заведующийкафедрой – декан – ректорпроцесс-объект: рубка леса – деревопроцесс-субъект: рубка леса – лесорубфункциональное сходство: гнездо – норасвойство-носитель свойства: огнедышащий –дракон, хрупкий – стеклоантонимия: революция – контрреволюция16ПРИМЕНЕНИЕ ИПТ: РУЧНОЕИНДЕКСИРОВАНИЕПроцедура ручного индексирования экспертом: определяется содержание документа для его описания подбирается подходящий набордескрипторов для уточнения набора дескрипторов документаиспользуются их отношенияПрименяется для обработки документов вгосударственных и международных организациях: тезаурус AGROVOC продовольственной исельскохозяйственная организация при ООН тезаурус EUROVOC законодательных служб ЕС тезаурус научно-технических терминов , например,Ю.А.
Шемакин, 1972 г.17АВТОМАТИЧЕСКОЕИНДЕКСИРОВАНИЕПри применении ИПТ, созданного для ручногоиндексирования, для автоматического индексирования: важные термины документа могут быть выраженыиначе, чем в тезаурусе (всего 31% документов явносодержит дескрипторы, приписанные экспертом) менее значимые термины могут найтись в документе(90% дескрипторов, найденных в тексте, неприписаны документу экспертом)Для эффективной работы ИП приложений необходимопостроение специального ИПТ, в котором для понятияфиксируются всевозможные текстовые выраженияприкладное программное обеспечение –ППО – прикладное ПО18ПРИМЕР ИПТ: РУТЕЗРазрабатывается в НИВЦ МГУ с 1994 г. РуТез – ИПТ для текстов русском языке.Состав: Общественно-политический тезаурус:экономика, политика, спорт, искусство и др. Общий лексикон, независящий от ПО Объем: 55 тыс.
понятий 158 тыс. текстовых выражений 210 тыс. отношений (установлены вручную) 125 тыс. текстовых входов на английском19ОТНОШЕНИЯ В РУТЕЗ:НИЖЕ-ВЫШЕ И ЧАСТЬ-ЦЕЛОЕОтношение НИЖЕ-ВЫШЕ: щенок: выше собакаОтношение ЧАСТЬ-ЦЕЛОЕ (части жестко ивсегда связаны с целым): глаз: часть векоСуществуют модификаторы, показывающие, чтоотношение слабое: В («возможно») – отношение выполняется недля всех примеров А («аспект») – отношение существует не всевремяпенсионер:выше_в старый человекцелое_а пенсионная система20ОТНОШЕНИЯ В РУТЕЗ:АССОЦИАЦИЯУстанавливается, если для связанных по смыслупонятий не подошли предыдущие отношенияВиды ассоциации: несимметричная ассоциация – X не можетсуществовать без Y: ассоц1(X,Y) = ассоц2(Y, X)саммит ассоц1 глава государстважидкость ассоц2 кипение жидкости симметричная ассоциация – при поиске текстов о Xмогут пригодиться тексты о Y:яблоко ассоц яблоня, родители ассоц детиСоставляют около половины отношений РуТезДругое название: отношение онтологическойзависимости21ТЕКСТОВЫЙ ВХОД: УРОК22ТЕКСТОВЫЙ ВХОД:ВЕТЕР В ГОЛОВЕ23ТЕЗАУРУС WORDNET:ОБЩАЯ ХАРАКТЕРИСТИКАWordNet – большой лексический ресурс дляанглийского языкаРазрабатывался с 1985 г.
в Принстонскомуниверситете, у истоков – психолог Джордж МиллерИзначальная цель – воссоздать модель храненияслов в человеческой памятиОсновное – отношение синонимии и понятие синсета(synset – synonym set)Две единицы синонимичны, если замена одной надругую в определенном контексте не меняетистинности высказывания:square – second power (в алгебре)Earth – earth – world (про нашу планету)24WORDNET: СИНСЕТНабор синонимов одной части речи – синсет –представляет понятие (концепт) английского языкаБольшинство синсетов снабжены толкованиямиКаждое слово относится к одному или несколькимсинсетамРазличные значения слов входят в разные синсетыРазные части речи (существительные, глаголы,прилагательные, наречия) сгруппированы отдельноСинсеты существительных и глаголов образуютиерархическую сеть.Сеть организована на основе разных отношений: для существительных – родовидового для глаголов – тропонимии25СИНСЕТЫ СЛОВА TABLE26WORDNET: ОТНОШЕНИЯДля существительных: основные: родовидовое и меронимия другие: антонимия, экземпляр,иметь общий гиперонимДля прилагательных и наречий: антонимия, синонимияДля глаголов: основное: тропонимия другие: следование, причина-результат,антонимияЕсть отношения между разными частями речиС 1985 г.