Главная » Просмотр файлов » Диссертация

Диссертация (1168788), страница 20

Файл №1168788 Диссертация (Концептуализация разнообразия в естественном языке) 20 страницаДиссертация (1168788) страница 202020-03-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 20)

На серверахGoogleсодержитсябазаданных,содержащаясписокнаиболеевостребованных ресурсов Интернета. Эта база периодически пополняется восновном за счет перехода по ссылкам сайтов, уже имеющихся в базе данных,на новые сайты. С использованием этой базы Google осуществляетсканирование массива сайтов в Интернете. Периодически осуществляетсязапуск служебных программ, которые осуществляют просмотр сайтов из базыданных и пополняют базу индекса.Вбазеиндексасодержатсянаиболеечастовстречающиесясловосочетания, входящие в поисковые запросы пользователя, и для каждогословосочетания содержится список ссылок на ресурсы Интернета. Посколькуупоминание выбранного словосочетания может быть слишком частотным,Google ограничивает количество выдаваемых ссылок, а также устанавливаетих порядок, используя при этом собственную технологию ранжирования черезиндекс PageRank.

На значение индекса ранжирования, и, следовательно, напорядок выдачи пользователю результатов запроса, влияет ряд факторов,таких, как количество упоминаний словосочетания на интернет-странице, вкаком разделе (тэге сайта) содержится искомое словосочетание (некоторыеразделы более приоритетны для поиска, некоторые менее), расстояния внутриабзацамеждусловами,составляющимисловосочетание,количествоупоминаний (популярность) данной страницы в Интернете, осмысленностьтекста на странице. Некоторые поисковые машины анализируют, является литекст осмысленным или представляет собой случайный набор словосочетаний.Это делается в связи с тем, что некоторые разработчики сайтов используютопределенные блоки словосочетаний, бессмысленные по виду, с целью обманапоисковой машины для выдачи своих сайтов на первые позиции в поиске(технология Doorway), наличие на сайте других словосочетаний, являющихся107синонимами искомого словосочетания, регион, из которого пользовательосуществляет свой поиск.

См.: www.google.ru.Технологии ранжирования в других поисковых системах, например,Yandex, отличаются от технологии ранжирования Google. Так, в Yandexиспользуется собственный индекс тИЦ (тематический индекс цитирования),алгоритм расчета которого имеет свои особенности по сравнению с системойGoogle (тИЦ подсчитывает более 400 различных внутренних и внешниххарактеристик сайта, в Google ранжирование представляет еще более сложныйпроцесс). В связи с этим, для повышения достоверности вывода осочетаемости исследуемых слов в Интернете желательно осуществить поисктакже в системе Yandex.

См.: www.yandex.ru.Когдапользовательвводитвстрокупоисказапрос,системапросматривает базу индекса и выдает результаты поиска в виде спискассылок. Например, при вводе в строку поиска Google словосочетания variety ofbooks было получено 2 380 000 ссылок, что свидетельствует о том, что данноесловосочетание довольно часто употребляется в Интернете:Таким образом, в данном случае нет необходимости обращаться ксистеме Yandex, поскольку система Google уже обеспечила нас достовернымирезультатами. На основании этих результатов можно сделать вывод о том, чтослово variety широко сочетается со словами, указывающими на конкретныефизические объекты типа books / книги, ср.

a variety of cars / tables /accessories.В настоящем исследовании, с целью выдвижения первоначальнойгипотезы,использовалисьтакжестатистическиеметоды,например,вычисление меры неслучайности совместной встречаемости исследуемых словс другими единицами языка посредством обработки текстов корпусов108программой Sketch Engine. Данный метод находит применение в научныхработах последних лет, в частности, работе Е.П. Буториной, посвященнойисследованию официальной коммуникации в русском языке (Буторина 2016).Среди статистических мер наиболее распространенными являются мерыMI-score и t-score.

Мера MI (Mutual Information) сравнивает зависимыеконтекстно-связанные частоты с независимыми. При условии, что значениеMI-score превышает определенную величину, рассматриваемое сочетаниеможно считать статистически идиоматичным. Мера t-score также отражаетчастоту совместной встречаемости ключевого слова и зависимого, ееприменение позволяет уточнить результаты, полученные при помощи мерыMI-score.При работе с мерами MI-score и t-score Е.П. Буторина выявила ихследующие особенности: 1) мера t-score позволяет получить ответ на вопрос,«какие несвободные сочетания» являются характерными для текстов какоголибо жанра вне зависимости от их тематики; 2) мера MI-score не настолькочувствительна к количеству совместных вхождений, составляющих сочетаниеслов в имеющемся корпусе.

Самый высокий ранг по MI-score получают тесочетания, составляющие которых имеют гораздо большую тенденциюупотребляться вместе, нежели по отдельности (там же, 165-174).Данный статистический метод использован нами для проверкирезультатов, полученных при дистрибутивном анализе и контент-анализе. Так,проверялась мера неслучайности совместной встречаемости компонентовопределенных словосочетаний. Сравнивались значения мер t-score и MI-scoreдля словосочетаний с разными ключевыми словами, являющимися объектамиданного исследования; материалом для выявления таких словосочетанийпослужил массив текстов корпуса BNC. В таблице ниже приведены данныестатистическиемерынеслучайностисовместнойвстречаемостисуществительных variety, diversity с прилагательными rich, wide.

Данныесловосочетания имеют высокий ранг по мерам MI-score и t-score. Вместе стем, можно отметить, что словосочетание wide variety (по результатам109контент-анализа это наиболее частотная по своему употреблению леваядистрибуция слова variety) имеет существенно более высокий ранг по мере tscore, чем по мере MI. Это означает, что сочетание wide variety обладаетвысокой частотой совместных встречаемостей в корпусе текстов BNC, о чемсвидетельствует такое высокое значение меры t-score. При этом длясловосочетания wide diversity мера MI-score выше меры t-score, такая жеситуация наблюдается для словосочетания rich diversity. Высокое значениеMI-score для данных сочетаний слов позволяет считать их статистическиидиоматичными. (Как было упомянуто выше, самый высокий ранг по MI-scoreполучают те сочетания, составляющие которых имеют большую тенденциюупотребляться вместе, чем по отдельности).Таблица 3.

Характеристики словосочетаний с исследуемыми словамиvariety, diversityСловосочетаниеMI-scoret-scorerich variety7.2447.434rich diversity8.7683.864wide variety10.35129.910wide diversity8.6685.086Аналогичнаякартинанаблюдаетсядлямногих«типичных»словосочетаний со словом diversity, которые, имея высокий ранг MI, имеюттенденцию чаще употребляться вместе, чем по отдельности.

Ср. geneticdiversity (MI = 8.705, t-score = 1.995), ethnic diversity (MI = 9.213, t-score =2.641), diversity of flora (MI = 10.840, t-score = 1.999)Таким образом, предположение о том, что слово diversity используетсядляноминацииобъектов,значительноотличающихсямеждусобой,подтвердилось; сочетания слова diversity с другими словами, c которыми оночасто употребляется, например, вносящими информацию о различии объектов/ большом их количестве, можно считать статистически идиоматичными.Иными словами, исследуемое слово встречается скорее в таком окружении,110чем без него. Величину статистических мер ассоциации (MI-score,t-score)можно рассматривать как индикатор силы синтагматической связи междукомпонентами словосочетания.Шаг 4.

Построение гипотезы о дифференциальных семантическихпризнаках исследуемых слов.Проведение дистрибутивного анализа исследуемых существительныхпозволило выдвинуть первичную гипотезу о дифференциальных признаках всематической структуре данных слов. Далее, как справедливо отмечаетО.А. Сулейманова, в рамках семантического эксперимента после выдвижениягипотезы исследователь должен проверить еѐ экспериментально, построиввысказывания с учѐтом данной гипотезы, проверяя еѐ тем самым языковойпрактикой (Сулейманова 2013, 63).

Например, было отмечено, что слово rangeиспользуетсясназваниямиобъектов,которыепотенциальнолегкораспределяются на некоторой шкале, допускают «градуирование» поопределенным показателям, ср.: The range of melting temperatures for paraffinsis from 45оC to 52o / Температура плавления парафинов составляет от 45оC до52o, где речь идет о фрагменте температурной шкалы – от 45 до 52 градусов.Напротив, не встречались случаи использования существительного range ссуществительными, которые в принципе не «градуируются» - например, этомогут быть продукты художественного творчества или иные единицы,соотносимые с эстетической оценкой, типа painters / художники. Такимобразом, опираясь на результаты дистрибутивного анализа,можнопредположить, что в семантике слова range присутствует информация ораспределении объектов множества в рамках некоторой шкалы, в заданномдиапазоне.

Для проверки данной гипотезы был проведен опрос информантов,которыйпоказал,существительных,неприемлемым,чтоупотреблениеобозначающихпосколькуданногословаодушевленныххарактерописаниялиц,вокружениипредставляетсямножестваобъектов–художники – в норме не распределяется по шкале от лучших к менее лучшим111(если только текст специально не ориентирован на описание рейтингахудожников).Приведѐм ещѐ один пример.

Как показал дистрибутивный анализданных корпуса, существительное selection не употребляется в окружениислов, обозначающих продукты ментальной деятельности человека – такихслов, как reasons, responses, purposes, suggestions, opinions, которые привносятпредставления о явлениях и положениях, часто не поддающихся объективнойоценке и классифицированию и являющихся проявлениями сознания. Данныеобозначения продуктов ментальной деятельности допускают осмысление каксовокупности, элементы которой не отобраны говорящим специально ипреднамеренно. На основании данных наблюдений можно предположить, чтосуществительное selection вносит информацию о том, что говорящийнаправленно прикладывает усилия по осуществлению отбора из множестваоднородных объектов только тех, которые соответствуют определѐннымкритериям – то есть в основе отбора элементов, которые составляют данноемножество, лежит осмысленное мотивированное решение говорящего,которое он может пояснить при необходимости.

Характеристики

Тип файла
PDF-файл
Размер
1,43 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Концептуализация разнообразия в естественном языке
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее