Диссертация (1168788), страница 20
Текст из файла (страница 20)
На серверахGoogleсодержитсябазаданных,содержащаясписокнаиболеевостребованных ресурсов Интернета. Эта база периодически пополняется восновном за счет перехода по ссылкам сайтов, уже имеющихся в базе данных,на новые сайты. С использованием этой базы Google осуществляетсканирование массива сайтов в Интернете. Периодически осуществляетсязапуск служебных программ, которые осуществляют просмотр сайтов из базыданных и пополняют базу индекса.Вбазеиндексасодержатсянаиболеечастовстречающиесясловосочетания, входящие в поисковые запросы пользователя, и для каждогословосочетания содержится список ссылок на ресурсы Интернета. Посколькуупоминание выбранного словосочетания может быть слишком частотным,Google ограничивает количество выдаваемых ссылок, а также устанавливаетих порядок, используя при этом собственную технологию ранжирования черезиндекс PageRank.
На значение индекса ранжирования, и, следовательно, напорядок выдачи пользователю результатов запроса, влияет ряд факторов,таких, как количество упоминаний словосочетания на интернет-странице, вкаком разделе (тэге сайта) содержится искомое словосочетание (некоторыеразделы более приоритетны для поиска, некоторые менее), расстояния внутриабзацамеждусловами,составляющимисловосочетание,количествоупоминаний (популярность) данной страницы в Интернете, осмысленностьтекста на странице. Некоторые поисковые машины анализируют, является литекст осмысленным или представляет собой случайный набор словосочетаний.Это делается в связи с тем, что некоторые разработчики сайтов используютопределенные блоки словосочетаний, бессмысленные по виду, с целью обманапоисковой машины для выдачи своих сайтов на первые позиции в поиске(технология Doorway), наличие на сайте других словосочетаний, являющихся107синонимами искомого словосочетания, регион, из которого пользовательосуществляет свой поиск.
См.: www.google.ru.Технологии ранжирования в других поисковых системах, например,Yandex, отличаются от технологии ранжирования Google. Так, в Yandexиспользуется собственный индекс тИЦ (тематический индекс цитирования),алгоритм расчета которого имеет свои особенности по сравнению с системойGoogle (тИЦ подсчитывает более 400 различных внутренних и внешниххарактеристик сайта, в Google ранжирование представляет еще более сложныйпроцесс). В связи с этим, для повышения достоверности вывода осочетаемости исследуемых слов в Интернете желательно осуществить поисктакже в системе Yandex.
См.: www.yandex.ru.Когдапользовательвводитвстрокупоисказапрос,системапросматривает базу индекса и выдает результаты поиска в виде спискассылок. Например, при вводе в строку поиска Google словосочетания variety ofbooks было получено 2 380 000 ссылок, что свидетельствует о том, что данноесловосочетание довольно часто употребляется в Интернете:Таким образом, в данном случае нет необходимости обращаться ксистеме Yandex, поскольку система Google уже обеспечила нас достовернымирезультатами. На основании этих результатов можно сделать вывод о том, чтослово variety широко сочетается со словами, указывающими на конкретныефизические объекты типа books / книги, ср.
a variety of cars / tables /accessories.В настоящем исследовании, с целью выдвижения первоначальнойгипотезы,использовалисьтакжестатистическиеметоды,например,вычисление меры неслучайности совместной встречаемости исследуемых словс другими единицами языка посредством обработки текстов корпусов108программой Sketch Engine. Данный метод находит применение в научныхработах последних лет, в частности, работе Е.П. Буториной, посвященнойисследованию официальной коммуникации в русском языке (Буторина 2016).Среди статистических мер наиболее распространенными являются мерыMI-score и t-score.
Мера MI (Mutual Information) сравнивает зависимыеконтекстно-связанные частоты с независимыми. При условии, что значениеMI-score превышает определенную величину, рассматриваемое сочетаниеможно считать статистически идиоматичным. Мера t-score также отражаетчастоту совместной встречаемости ключевого слова и зависимого, ееприменение позволяет уточнить результаты, полученные при помощи мерыMI-score.При работе с мерами MI-score и t-score Е.П. Буторина выявила ихследующие особенности: 1) мера t-score позволяет получить ответ на вопрос,«какие несвободные сочетания» являются характерными для текстов какоголибо жанра вне зависимости от их тематики; 2) мера MI-score не настолькочувствительна к количеству совместных вхождений, составляющих сочетаниеслов в имеющемся корпусе.
Самый высокий ранг по MI-score получают тесочетания, составляющие которых имеют гораздо большую тенденциюупотребляться вместе, нежели по отдельности (там же, 165-174).Данный статистический метод использован нами для проверкирезультатов, полученных при дистрибутивном анализе и контент-анализе. Так,проверялась мера неслучайности совместной встречаемости компонентовопределенных словосочетаний. Сравнивались значения мер t-score и MI-scoreдля словосочетаний с разными ключевыми словами, являющимися объектамиданного исследования; материалом для выявления таких словосочетанийпослужил массив текстов корпуса BNC. В таблице ниже приведены данныестатистическиемерынеслучайностисовместнойвстречаемостисуществительных variety, diversity с прилагательными rich, wide.
Данныесловосочетания имеют высокий ранг по мерам MI-score и t-score. Вместе стем, можно отметить, что словосочетание wide variety (по результатам109контент-анализа это наиболее частотная по своему употреблению леваядистрибуция слова variety) имеет существенно более высокий ранг по мере tscore, чем по мере MI. Это означает, что сочетание wide variety обладаетвысокой частотой совместных встречаемостей в корпусе текстов BNC, о чемсвидетельствует такое высокое значение меры t-score. При этом длясловосочетания wide diversity мера MI-score выше меры t-score, такая жеситуация наблюдается для словосочетания rich diversity. Высокое значениеMI-score для данных сочетаний слов позволяет считать их статистическиидиоматичными. (Как было упомянуто выше, самый высокий ранг по MI-scoreполучают те сочетания, составляющие которых имеют большую тенденциюупотребляться вместе, чем по отдельности).Таблица 3.
Характеристики словосочетаний с исследуемыми словамиvariety, diversityСловосочетаниеMI-scoret-scorerich variety7.2447.434rich diversity8.7683.864wide variety10.35129.910wide diversity8.6685.086Аналогичнаякартинанаблюдаетсядлямногих«типичных»словосочетаний со словом diversity, которые, имея высокий ранг MI, имеюттенденцию чаще употребляться вместе, чем по отдельности.
Ср. geneticdiversity (MI = 8.705, t-score = 1.995), ethnic diversity (MI = 9.213, t-score =2.641), diversity of flora (MI = 10.840, t-score = 1.999)Таким образом, предположение о том, что слово diversity используетсядляноминацииобъектов,значительноотличающихсямеждусобой,подтвердилось; сочетания слова diversity с другими словами, c которыми оночасто употребляется, например, вносящими информацию о различии объектов/ большом их количестве, можно считать статистически идиоматичными.Иными словами, исследуемое слово встречается скорее в таком окружении,110чем без него. Величину статистических мер ассоциации (MI-score,t-score)можно рассматривать как индикатор силы синтагматической связи междукомпонентами словосочетания.Шаг 4.
Построение гипотезы о дифференциальных семантическихпризнаках исследуемых слов.Проведение дистрибутивного анализа исследуемых существительныхпозволило выдвинуть первичную гипотезу о дифференциальных признаках всематической структуре данных слов. Далее, как справедливо отмечаетО.А. Сулейманова, в рамках семантического эксперимента после выдвижениягипотезы исследователь должен проверить еѐ экспериментально, построиввысказывания с учѐтом данной гипотезы, проверяя еѐ тем самым языковойпрактикой (Сулейманова 2013, 63).
Например, было отмечено, что слово rangeиспользуетсясназваниямиобъектов,которыепотенциальнолегкораспределяются на некоторой шкале, допускают «градуирование» поопределенным показателям, ср.: The range of melting temperatures for paraffinsis from 45оC to 52o / Температура плавления парафинов составляет от 45оC до52o, где речь идет о фрагменте температурной шкалы – от 45 до 52 градусов.Напротив, не встречались случаи использования существительного range ссуществительными, которые в принципе не «градуируются» - например, этомогут быть продукты художественного творчества или иные единицы,соотносимые с эстетической оценкой, типа painters / художники. Такимобразом, опираясь на результаты дистрибутивного анализа,можнопредположить, что в семантике слова range присутствует информация ораспределении объектов множества в рамках некоторой шкалы, в заданномдиапазоне.
Для проверки данной гипотезы был проведен опрос информантов,которыйпоказал,существительных,неприемлемым,чтоупотреблениеобозначающихпосколькуданногословаодушевленныххарактерописаниялиц,вокружениипредставляетсямножестваобъектов–художники – в норме не распределяется по шкале от лучших к менее лучшим111(если только текст специально не ориентирован на описание рейтингахудожников).Приведѐм ещѐ один пример.
Как показал дистрибутивный анализданных корпуса, существительное selection не употребляется в окружениислов, обозначающих продукты ментальной деятельности человека – такихслов, как reasons, responses, purposes, suggestions, opinions, которые привносятпредставления о явлениях и положениях, часто не поддающихся объективнойоценке и классифицированию и являющихся проявлениями сознания. Данныеобозначения продуктов ментальной деятельности допускают осмысление каксовокупности, элементы которой не отобраны говорящим специально ипреднамеренно. На основании данных наблюдений можно предположить, чтосуществительное selection вносит информацию о том, что говорящийнаправленно прикладывает усилия по осуществлению отбора из множестваоднородных объектов только тех, которые соответствуют определѐннымкритериям – то есть в основе отбора элементов, которые составляют данноемножество, лежит осмысленное мотивированное решение говорящего,которое он может пояснить при необходимости.