43167 (687302), страница 5
Текст из файла (страница 5)
По первичным статистическим характеристикам можно определить с заданной относительной погрешностью ту часть словника, в которую входят слова с высокой частотой появления независимо от типа текста. Возможно также, введя ступенчатое упорядочение в словарь, получить серию словников, охватывающих первые 100, 1000, 5000 и т. д. частых слов. Статистические характеристики словаря вызывают интерес в связи со смысловым анализом лексики. Изучение предметно-идеологическнх групп и семантических полей показывает, что лексические объединения поддерживаются семантическими связями, которые концентрируются вокруг лексем с наиболее общим значением. Описание значений в пределах лексико-семантического поля может проводиться посредством идентификации слов с наиболее абстрактными по смыслу лексемами. По-видимому, «пустые» (с точки зрения номинативных потенций) единицы словаря составляют статистически однородный пласт.
Не меньшую ценность имеют и словники по отдельным жанрам. Изучение меры их сходства и характера статистических распределений даст интересные сведения о качественном расслоении лексики в зависимости от сферы речеупотребления.
Составление больших частотных словарей требует обращения к вычислительной технике. Введение частичной механизации и автоматизации в процесс работы над словарем представляет интерес как эксперимент машинной обработки словников к разным текстам. Такой словарь требует более строгой системы обработки и накопления словарного материала. В миниатюре это информационно-поисковая система, которая способна выдавать сведения о различных сторонах текста и словаря. Некоторые основные запросы к этой системе планируются с самого начала: общее количество инвентаризованных слов, статистические характеристики отдельного слова и целых словников, упорядочение частых и редких зон словника и т. п. Машинная картотека позволяет автоматически строить обратные словари по отдельным жанрам и источникам. Множество других полезных статистических сведений о языке будет извлечено из накопленного массива информации. Компьютерный частотный словарь создает экспериментальную базу для перехода к более обширной автоматизации словарных работ.
Статистические данные частотных словарей могут быть широко использованы и при решении других лингвистических задач – например, при анализе и определении активных средств словообразования современного русского языка, решении вопросов усовершенствования графики и орфографии, которые связаны с учетом статистических сведений о словарном составе (при этом важно учитывать вероятностные характеристики комбинаций графем, реализованные в словах типы буквосочетаний), практической транскрипции и транслитерации. Статистические параметры словаря будут полезны и при решении вопросов автоматизации печатного дела, распознавания и автоматического чтения буквенного текста.
Современные толковые словари и грамматики русского языка в основном построены на базе литературно-художественных текстов. Существуют частотные словари языка А.С. Пушкина, А.С. Грибоедова, Ф.М. Достоевского, В.В. Высоцкого и многих других авторов. На кафедре истории и теории литературы Смоленского гос. педагогического университета ряд лет ведётся работа по составлению частотных словарей стихотворных и прозаических текстов. Для настоящего исследования отобраны частотные словари всей лирики Пушкина и ещё двух поэтов золотого века – «Горя от ума» Грибоедова и всей поэзии Лермонтова; Пастернака и ещё пяти поэтов серебряного века - Бальмонта 1894-1903 гг., «Стихов о Прекрасной Даме» Блока, «Камня» Мандельштама, «Огненного столпа» Гумилёва, «Anno Domini MCMXXI» Ахматовой и «Сестры моей жизни» Пастернака и ещё четырёх поэтов века железного – «Стихотворений Юрия Живаго», “Когда разгуляется”, всего корпуса лирики М. Петровых, «Дорога далека», «Ветрового стекла», «Прощания со снегом» и «Подковы» Межирова, «Антимиров» Вознесенского и «Снежницы» Рыленкова.
Следует отметить, что эти словари по природе своей различны: одни представляют лексику одного драматического произведения, другие – книги лирики, или нескольких книг, или всего корпуса стихов поэта. Результаты анализа, представленные в настоящей работе, следует воспринимать с осторожностью, их нельзя абсолютизировать. Однако с помощью специальных мер разницу онтологической природы текстов можно до известной степени уменьшить.
В последние годы все более отчетливо осознается противопоставление разговорной и книжной речи. Особенно остро обсуждается этот вопрос среди методистов, которые требуют поворота обучения в сторону разговорного языка. Однако специфика разговорной речи до сих пор остается необъясненной.
Обработка словарей выполнялась путем создания пользовательского приложения в среде офисной программы EXCEL97. Приложение включает четыре рабочих листа книги EXCEL – «Титульный лист», лист «Словари» с исходными данными, «Близости» и «Расстояния» с результатами , а также набор макросов.
Исходная информация вводится на лист «Словари». В ячейки EXCEL, записываются словари исследуемых текстов, последний столбец S формируется из полученных результатов и равен количеству слов, встречающихся в других словарях. Таблицы «Близости» и «Расстояния» содержат рассчитанные меры близости M, корреляции R и расстояния D.
Макросы приложения представляют собой событийные программные процедуры на языке Visual Basic for Application (VBA). Основу процедур составляют библиотечные объекты VBA и методы их обработки. Так, для операций с рабочими листами приложения используется ключевой объект Worksheet (рабочий лист) и соответствующий ему метод активизации листа Activate (активизировать). Задание диапазона анализируемых исходных данных на листе «Словари» выполняется методом Select (выбрать) объекта Range (диапазон), а передача слов в качестве значений переменным выполняется как свойство Value (значение) этого же объекта Range.
Несмотря на то, что ранговый корреляционный анализ заставляет с осторожностью говорить о зависимости тематики между разными текстами, большая часть самых частотных слов каждого текста имеет соответствия в одном или нескольких других текстах. В колонке S показано количество таких слов среди 15 наиболее частотных у каждого автора. Полужирным шрифтом выделены слова, встречающиеся в нашей таблице только у одного поэта. Нет выделенных слов вовсе у Блока, Ахматовой и Петровых, у них S = 15. У этих трёх поэтов все 15 самых частотных слов одни и те же, различаются они только местом в списке. Но даже у Пушкина, лексика которого наиболее оригинальна, S = 8, а выделенных слов 7.
Результаты показывают, что существует определённый слой лексики, концентрирующий основные темы поэзии. Как правило, эти слова коротки: из общего числа (225) словоупотреблений односложных 88, двусложных 127, трёхсложных 10. Зачастую эти слова представляют основные мифологемы и могут распадаться на пары: ночь - день, земля - небо (солнце), Бог - человек (люди), жизнь - смерть, тело - душа, Рим - мир (у Мандельштама); могут объединяться в мифологемы более высокого уровня: небо, звезда, солнце, земля; в человеке как правило выделяются тело, сердце, кровь, рука, нога, щека, глаза. Из человеческих состояний предпочтение отдаётся сну и любви. К миру человека принадлежат дом и города – Москва, Рим, Париж. Творчество представлено лексемами слово и песня.
У Грибоедова и Лермонтова среди наиболее частотных слов почти нет слов, обозначающих природу. У них втрое больше слов, обозначающих человека, части его тела, элементы его духовного мира. У Пушкина и поэтов ХХ в. обозначений человека и природы приблизительно поровну. В этом важном аспекте тематики, можем сказать, ХХ в. пошёл за Пушкиным.
Минимальная тема дело среди самых частотных слов встречается только у Грибоедова и Пушкина. У Лермонтова и поэтов ХХ в. она уступает место минимальной теме слово. Слово не исключает дела (библейская трактовка темы: в Новом Завете всё учение Иисуса Христа рассматривается как слово Божье или слово Иисуса, а апостолы иногда называют себя служителями Слова). Сакральный смысл лексемы слово убедительно проявляется, например, в стихе Пастернака «И образ мира, в Слове явленный». Сакральный смысл лексемы слово в со- и противопоставлении с человеческими делами убедительно проявляется в одноимённом стихотворении Гумилёва.
Лексемы, которые встречаются только в одном тексте, характеризуют своеобразие данной книги или совокупности книг. Например, слово «ум» - самое частотное в комедии Грибоедова «Горе от ума» – но оно не встречается среди частотных слов других текстов. Тема ума безусловно является наиболее значимой в комедии. Эта лексема сопровождает образ Чацкого, причём имя Чацкого является наиболее частотным в комедии. Таким образом, в произведении органически сочетаются самое частотное имя нарицательное с самым частотным именем собственным.
Самый высокий коэффициент корреляции связывает тематику трагических книг Гумилёва «Огненный столп» и Ахматовой «Anno Domini MCMXXI». Среди 15 наиболее частотных имён существительных здесь 10 общих, в том числе кровь, сердце, душа, любовь, слово, небо. Напомним, что в книгу Ахматовой вошла миниатюра «Не бывать тебе в живых...», написанная между арестом Гумилёва и его расстрелом.
Темы свечи и толпы в исследованном материале встречаются только в «Стихотворениях Юрия Живаго». Тема свечи в стихах из романа имеет множество контекстуальных значений: она связана с образом Иисуса Христа, с темами веры, бессмертия, творчества, любовного свидания. Свеча – важнейший источник света в центральных сценах романа. Тема толпы развивается в связи с основной идеей романа, в котором частная жизнь человека с её незыблемыми ценностями противопоставлена безнравственности нового государства, построенного на началах угождения толпе.
Работа предполагает и третий этап, тоже отраженный в программе, - это вычисление разности порядковых номеров слов, общих для двух словарей и среднего показателя расстояния между одинаковыми словами двух словарей. Этот этап позволяет от общих тенденций взаимодействия словарей, выявленных с помощью статистики, перейти на уровень, приближающийся к тексту. Например, статистически значимо коррелируют книги Гумилева и Ахматовой. Мы смотрим, какие слова оказались общими для их словарей, и выбираем прежде всего те, разница между порядковыми номерами которых минимальна или равна нулю. Именно эти слова имеют один и тот же ранговый номер и, следовательно, именно эти минимальные темы в сознании двух поэтов одинаково важны. Далее следует переходить на уровень текстов и контекстов.
Количественные методы также помогают изучить особенности народов – носителей языка. Скажем, в русском языке 6 падежей, в английском падежей нет, а в отдельных языках народов Дагестана количество падежей доходит до 40. Л.Перловский в своей статье «Сознание, язык и культура» соотносит эти характеристики со склонностью народов к индивидуализму или коллективизму [36, c.28], с восприятием вещей и явлений отдельно или в связи с другими. Ведь именно в англоязычном мире (падежей нет – вещь воспринимается «сама по себе») появились такие понятия, как свобода личности, либерализм и демократия (замечу, что я употребляю эти понятия только в связи с языком, без какой-либо оценочной характеристики). Несмотря на то, что подобные догадки пока остаются лишь на уровне смелых научных гипотез, они помогают посмотреть по-новому на уже знакомые явления.
Как мы видим, количественные характеристики могут применяться в совершенно различных областях языкознания, что всё больше стирает границы между «точными» и «гуманитарными» методами. Лингвистика всё чаще прибегает к помощи не только математики, но и вычислительной техники для решения своих задач.
2.3 Изучение языка методами формальной логики
С неколичественными методами математики, в частности, с логикой, современная теоретическая лингвистика взаимодействует не менее плодотворно, чем с количественными. Быстрое развитие компьютерных технологий и возрастание их роли в современном мире потребовало пересмотра подхода к взаимодействию языка и логики в целом.
Методы логики широко используются в разработке формализованных языков, в частности, языков программирования, элементами которых являются некоторые символы (сродни математическим), выбираемые (или конструируемые из выбранных ранее символов) и интерпретируемые определённым образом, связанным ни с каким «традиционным» употреблением, пониманием и функциями таких же символов в других контекстах. Программист постоянно имеет дело с логикой в своей работе. Смысл программирования состоит как раз в том, чтобы научить компьютер рассуждать (в широком смысле слова). При этом методы "рассуждения" оказываются самыми разными. Каждый программист тратит определенное время на поиск ошибок в своих и чужих программах. То есть, на поиск ошибок в рассуждениях, в логике. И это тоже накладывает свой отпечаток. Гораздо легче обнаруживаешь логические ошибки и в обычной речи. Относительная простота языков, изучаемых логиками, позволяет им выяснять структуры этих языков более четко, чем это достижимо для лингвистов, анализирующих исключительно сложные естественные языки. Ввиду того, что языки, изучаемые логиками, используют отношения, скопированные с естественных языков, логики способны внести существенный вклад в общую теорию языка. Ситуация здесь подобна той, которая имеет место в физике: физик также формулирует теоремы для идеально упрощенных случаев, которые не происходят в природе вообще - он формулирует законы для идеальных газов, идеальных жидкостей, говорит о движении при отсутствии трения и т.д. Для этих идеализированных случаев можно установить простые законы, которые значительно способствовали бы пониманию того, что происходит в действительности и что, вероятно, осталось бы неизвестным физике, если бы она пробовала рассматривать действительность непосредственно, во всей сложности.
В изучении естественных языков логические методы используются для того, чтобы изучающие язык могли не тупо «зазубрить» как можно больше слов, а лучше понять его структуру. Ещё Л. Щерба использовал на своих лекциях пример предложения, построенного по законам русского языка: «Глокая куздра штеко будланула бокра и курдячит бокренка», – а потом спрашивал у студентов, что это значит. Несмотря на то, что смысл слов в предложении оставался непонятен (их просто не существует в русском языке), можно было чётко ответить: «куздра» – подлежащее, существительное женского рода, в единственном числе, именительном падеже, «бокр» – одушевлённое, и т.д. Перевод фразы получается примерно таков: «Нечто женского рода в один прием совершило что-то над каким-то существом мужского рода, а потом начало что-то такое вытворять длительное, постепенное с его детенышем» [46]. Подобным же примером текста (художественного) из несуществующих слов, построенного полностью по законам языка, является «Бармаглот» Льюиса Кэрролла (в «Алисе в стране чудес» Кэрролл устами своего персонажа Шалтая-Болтая объясняет и значение придуманных им слов: «варкалось» – восемь часов вечера, когда уже пора варить ужин, «хливкий» – хлипкий и ловкий, «шорёк» – помесь хорька, барсука и штопора, «пыряться» – прыгать, нырять, вертеться, «нава» – трава под солнечными часами (простирается немного направо, немного налево и немного назад), «хрюкотать» – хрюкать и хохотать, «зелюк» – зелёный индюк, «мюмзик» – птица; перья у неё растрёпаны и торчат во все стороны, как веник, «мова» – далеко от дома) [46].
Одно из основных понятий современной логики и теоретической лингвистики, используемое при исследовании языков различных логико-математических исчислений, естественных языков, для описания отношений между языками различных «уровней» и для характеристики отношений между рассматриваемыми языками и описываемыми с их помощью предметными областями – понятие метаязыка. Метаязык – это язык, используемый для выражения суждений о другом языке, языке-объекте. С помощью метаязыка изучают структуру знакосочетаний (выражений) языка-объекта, доказывают теоремы о его выразительных свойствах, об отношении его к другим языкам и т. п. Изучаемый язык называется также предметным языком по отношению к данному метаязыку. Как предметный язык, так и метаязык могут быть обычными (естественными) языками. Метаязык может отличаться от языка-объекта (например, в учебнике английского языка для русских русский язык является метаязыком, а английский – языком-объектом), но может и совпадать с ним или отличаться лишь частично, например специальной терминологией (русская лингвистическая терминология – элемент метаязыка для описания русского языка; т. н. семантические множители – часть метаязыка описания семантики естественных языков).
Понятие «метаязык» стало весьма плодотворным в связи с изучением формализованных языков, строящихся в рамках математической логики. В отличие от формализованных предметных языков, в этом случае метаязык, средствами которого формулируется метатеория (изучающая свойства предметной теории, формулируемой на предметном языке), является, как правило, обычным естественным языком, некоторым специальным образом ограниченным фрагментом естественного языка, не содержащим всякого рода двусмысленностей, метафор, «метафизических» понятий и т. п. элементов обычного языка, препятствующих использованию его в качестве орудия точного научного исследования. При этом метаязык сам может быть формализован и (независимо от этого) оказаться предметом исследования, проводимого средствами метаметаязыка, причём такой ряд можно «мыслить» растущим бесконечно.















