Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 59
Текст из файла (страница 59)
Между тем если такое словокак «здание» употребляется в газетном тексте, то часто невозможно отличить, в какомзначении общелексическом или терминологическом это слово употреблено, как,например, в следующем фрагменте текста публикации газеты «Известия» от 18.02.2004под названием «Кто ответит за Трансвааль»:Допросы строителей, проектировщиков, людей которые отвечали заэксплуатацию здания, пока мало что дали, - заявили "Известиям" в прокуратуре.Все они, естественно, отрицают свою вину и кивают друг на друга.
Будутпроверены все, в том числе и поставщики строительства, они моглипредоставить материалы не того качества, которые заявлялись. Объективноответить на вопрос, кто виноват, можно будет только после завершенияэкспертиз.Несомненно, в профессиональной области границы понятия могут быть четче,строитель увереннее непрофессионального носителя языка должен отличать «здания» отдругих видов строений. При этом для непрофессионала такие «граничные» объектыотносятся к области неопределенности - «vagueness» (Шелов, 1998), когда он уже неможет четко классифицировать строение и охотно принимает профессиональнуюклассификацию. Поэтому по нашему мнению, понимание слова «здание» у строителя иобычного носителя языка отличается настолько незначительно, что сравнимо синдивидуальными различиями смыслов у разных людей, и этими различиями можнопренебречь.На наш взгляд, подавляющее большинство общеупотребительных слов,обозначающих артефакты, должны иметь чрезвычайно близкие по смыслутерминологические аналоги, по крайней мере, в двух предметных областях: областипроизводства этого артефакта и профессиональной области его обслуживания.Кроме того, если человек соприкасается в своей повседневной жизни спрофессиональными сферами деятельности, ему необходимо понимать и использовать теже самые значения, что и профессионалам.
Например, приходя в банк, клиент долженправильно использовать и понимать соответствующие термины этой сферы, такие каквклад, кредит, иностранная валюта и др.,Такими же свойствами совместного лексического и терминологическогоупотребления обладают и многие другие общеизвестные слова: названия транспортныхсредств, должности и профессии, технические устройства, произведения искусства,социальные и природные явления и многие другие. Перечислим лишь некоторые из такихслов, начинающихся на букву «а»: аборт, аванс, авиабаза, автобус, автопилот, агроном,адвокат, аккредитив, алгебра, алгоритм, алебастр и т.п.Наконец, отмечается (Моисеев, 1970), что типичные бытовые слова – отец, мать,сын, дочь и т.п. – причисляются к терминологии в качестве терминов родства и свойства.Мы оцениваем, что до 40 процентов слов, содержащихся в общих толковыхсловарях, обладают похожими свойствами.Кроме того, существует значительное количество многословных выражений,которые являясь терминами в специальных предметных областях, понятны носителямязыка, например, военная помощь, авиационная промышленность, внешняя миграция.
Этоозначает, что взаимопроникновение лексики и терминологии имеет значительно большиймасштаб, чем это предполагалось ранее терминологами и лексикологами.217На существование промежуточного слоя между общей и специальной лексикойуказывалось и ранее. На рис. 15.1 воспроизведен рисунок из (Rondeau, 1980), на которомпоказан такой слой. На наш взгляд, эта пограничный лексико-терминологический слойпредставляет собой достаточно широкую полосу (рис.15.1).СпециальнаялексикаОбщаялексикаСпециальнаялексикаRondeau, 1980ПромежуточнаязонаСпециальнаялексикаОбщаялексикаСпециальнаялексикаРуТезРис.
15.1. Наличие промежуточного слоя лексики между терминологией(специальной лексикой) предметных областей и общеупотребительной лексикой15.3.4 Общественно-политическая областьИз предшествующего рассмотрения мы можем сделать следующие выводы(Loukachevitch, Dobrov, 2004d; Лукашевич, Добров, 2004а).1) В общеупотребительном языке существует лексика, которая может бытьупотреблена во многих предметных областях, не связана с той или иной предметнойобластью. Это лексика, связанная с общими процессами, действиями, стадиями,отношениями, оценками.
Мы называем такое множество лексики Общий лексикон. Приразметке тезауруса WordNet предметными областями такое множество нетематическойлексики также было выделено и названо областью Factotum (см. раздел 2.5.3.1.).2) Мы считаем, что человек разрезает на мир на более узкие или более широкиеобласти, понятийные системы, терминосистемы для удобства.Понятие в большой степени не зависит от того, какую предметную область мырассматриваем (см. также концепцию «универсального терминологического пространствав (Мальковский, Соловьев, 2002)).Так, понятие «ценные бумаги» может входить в разные частично пересекающиесяпредметные области такие как- предметная область «ценные бумаги»,- предметная область «биржевая торговля»,- предметная область «инвестиции»,- предметная область «финансы» и т.п.Если взять тексты, которые относятся к данным предметным областям, товыяснится, что помимо терминологии этих областей в текстах содержится значительнойколичество терминологии из более общей предметной области, из «соседних» предметных218областей и другой терминологии.
Таким образом, чтобы качественно обрабатывать текстыв той или иной предметной области, нужно описать в тезаурусном ресурсе значительнобольшее количество языковых единиц.Поэтому мы не создаем отдельные тезаурусы для большого количествапредметных областей, а делаем ресурс на максимально широкую предметную область.Одной из таких областей является так называемая общественно-политическая область.3) Общественно-политическая область включает в себя лексику и терминологию,которая, с одной стороны, известна достаточно широкому слою населения, с другойстороны, соответствует понятиями профессиональных сфер деятельности.На такую особенность Общественно-политической области указывают такжеразработчики Тезауруса Исследовательской службы Конгресса США (LIV, 1994), которыепишут, что для описания широкой области общественных отношений приходитсяиспользовать разные типы лексических единиц, в том числе, как специальнуютерминологию, так и тематическую лексику общего языка (popular terminology).Рассмотрим состав и особенности общественно-политической области на примеререализации тезауруса РуТез как модели понятийной системы русского языка.Если представить себе иерархию понятий от более общего к более частному, тонаиболее верхние уровни занимает зона общей лексики – Общий лексикон, более нижниеуровни занимает Общественно-политическая область (рис.15.2).
Одновременно именно вобщественно-политической области находятся верхние уровни профессиональныхпонятийных систем (рис.15.3).? ????143,000 ???????? ???????52,500 ????????????? ????????? ?? ?? ????????100,000 ???????? ???????37,000 ???????? ?? ???????????????????????????Рис.15.2. Общественно-политическая область vs. Общий лексиконВыборыОбщественнополитическаяобластьОбщественно-политическая областьНалогиГеографияПродукцияРис.15.3. Специальная лексика vs.Уровни иерархииУровни иерархииПравоБухучетБанкиРис.15.4. Взаимосвязь специальной лексики219Общественно-политическаявнутри Общественно-политическойобластиРазные предметные области имеют различные по величине перенесению собщественно-политической областью. Так, понятийная система предметной области«Выборы» практически полностью находится в Общественно-политической области, в товремя как сферы различных промышленных производств пересекаются с общественнополитической областью лишь по небольшому числу понятий (рис.
15.3).Можно выделить совокупность непроизводственных регулирующих сфердеятельности, которые значимы в повседневной деятельности многих людей и, значит, взначительной степени пересекаются с общественно-политической областью, такие какНалоги, Бухгалтерия, Право, Таможня, Банковская сфера, образуя правовой и финансовыйблоки областей (рис.15.4).Научные понятийные системы пересекаются с общественно-политическойобластью сложнее. Общественно-политическая область включает основные виды наук,научных учреждений, общенаучные понятия. Однако каждая наука задает своюкатегоризацию изучаемых явлений, в связи с чем ее верхние уровни классификации могутзначительно отличаться от классификации, на базе общей лексики (Рис.
15.5). Наиболеезначительно общественно-политическая область пересекается со сферой общественныхнаук. Общественно-политическая область содержит понятия общественной жизни,которые изучаются общественными науками. При этом каждая общественная наука можетиметь свою собственную классификацию рассматриваемых явлений.ОбщественныенаукиЕстественныенаукиОбщественнополитическаяобластьОбщественнополитическаяобластьРис.15.5. Научная лексика vs. Общественно-политическая областьВыделение такой области, а также выделение среди общеупотребительной лексикилексем, принадлежащих этой области, является чрезвычайно полезным для разработкилингвистических ресурсов и технологий автоматической обработки больших электронныхколлекций.Прежде всего, терминология и лексика из этой области активно используется всамых разных по жанру, но значимых для жизни общества текстах, как законы,международные договора, другие официальные документы, газетные сообщения,экономические документы (Loukachevitch, Dobrov, 2002).
Таким образом, созданиелингвистического ресурса в общественно-политической области может значительноповысить эффективность и содержательность обработки всех этих видов документов.Поскольку общественно-политическая область содержит наиболее общеизвестныепонятия многих профессиональных предметных областей, то лингвистический ресурс,разработанный для общественно-политической области, может стать источником220существенного понятийно-терминологического материала для создания лингвистическихресурсов в конкретных предметных областях.Одновременно общественно-политическая область – это область общезначимая исодержит значительное количество общелексического материала, который относится книжним и средним наиболее конкретным уровням языковой системы языка, поэтомупонятийная структура общественно-политической области является и существеннымбазисом, на который можно опираться, например, выстраивая понятийную иерархическуюсистему языка типа WordNet (Miller и др., 1990).Кроме того, если рассмотреть количество многозначных общеупотребительныхслов внутри общественно-политической области и в общем лексиконе, то многозначныхслов в общественно-политической области значительно меньше, а процедураавтоматического разрешения многозначности работает эффективнее, поскольку частозначения относятся к различным подобластям общественной жизни, например, вподавляющем большинстве текстов контексты разных значений словоформы судов каксредства водного транспорта и судебного органа существенно различаются.