Диссертация (1136870), страница 2
Текст из файла (страница 2)
Сальтера6, Н. Лейтеса, И. Пула, И. Яниса, Р. Фаднера, А.Каплана, Дж. Голдсена, А. Геллера.Разработке и апробированию методики статистического измерения интенсивности отношения коммуникатора к определенным объектам в тексте наосновании лингвистически зафиксированных единиц посвящены работыЧ. Осгуда, Дж. Нанелли и С. Сапортой7, Г. ван ден Верг и К. ван дер Виер.В советской школе освоение контент-анализа как социологической методики проходило посредством анализа писем системы Гостелерадио, анализатекстов массовых газет, мониторинга телевизионных информационных про3Speed G. Do Newspapers Now Give the News? // The Forum.
1893. Vol. XV. P. 705-711Willey M. The Country Newspapers. Chapel Hill. N.C.: University of North Carolina Press. 19265Кузьмичев В.А. Печатная агитация и пропаганда. М., Л., 1930.6Berelson В. and Salter P. Majority and Minority Americans // Public Opinion Quarterly. 1946. Vol.10. No.2. P. 168 1907Osgood Ch., S. Saporta, J. Nunnally. Evaluative Assertion Analysis // Litera. 1956.
Vol.3. P. 47-10246грамм.ДанноенаправлениепредставленоработамиВ. Шляпентоха,Б.А. Грушина, А.В. Жаворонкова, Л. Н. Федотовой8, И.А. Красавченко, А.В.Баранова и многих других.Развитие технологий производства и трансляции информации, широкаядоступность данных в электронном виде определили потребность в разработкеформализованных методов анализа больших массивов текстовых данных.Взрывной рост количества методов и алгоритмов формализованного анализатекстов приходится на рубеж XXXXI веков. На сегодняшний день наиболееширокое распространение получил подход «мешок слов» (bag of words). Основной гипотезой данного подхода является предположение о том, что порядокследования слов в тексте не имеет значения для анализа, текст рассматриваетсякак неупорядоченная совокупность слов (вектор, состоящий из частот слов).
Вупрощенном варианте каждое слово имеет равный «вес», порядок документов вкорпусе (также как и порядок слов в тексте) не имеет значения, слова, встречающиеся часто в большом количестве текстов (так называемые стоп-слова) исключаются из анализа, разные формы слов считаются одним словом.
Одно изпервых упоминаний данного похода мы находим у З. Харриса9.В современной компьютерной лингвистике формализованные подходу канализу текста, основанные на подходе «мешок слов», разрабатываютсяД. Журавски и Дж. Мартином10, К. Маннингом, П. Рагхаваном и Х. Шютце11 идругими.Разработке метода тематического моделирования, нацеленного на выявление латентных тем в корпусе текстов, посвящены работы Д. Блэя12,Федотова Л.Н. Телемосты СССР-США: комплексное социологическое исследование.
М., 1990. С. 16-17, 3233.9Harris Z. S. Distributional structure // Word. 1954. No. 10. P. 146-162.10Jurafsky D., Martin J. Speech and natural language processing: An introduction to natural language processing,computational linguistics, and speech recognition. Prentice Hall: Upper Saddle River, NJ, 2000.11Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. М: ООО «И.Д.Вильямс, 2011.12Blei. D. Probabilistic topic models // Communications of the ACM. 2012.
Vol. 55. No. 4. P. 77–8487Д. Мимно13, А. Дауда14, М. Джордана, А. Энджи, Дж. Ли, Л. Жоу, Ф. Мухамеда,Е. Завитсаноса, Г. Палиураса, Г. Вуроса, Дж. Цанга, У. Сонга, С. Занга, Ш. Лью,К. В. Воронцова и А. А. Потапенко15, С.В. Царькова и многих других.Метод анализа тональности, призванный выявить эмоциональную«окраску» текста, разрабатывается в работах Б. Лью16, Б. Панга, Л. Ли иС.
Вайтинатан и других.Очевидное преимущество данного подхода к анализу текста состоит ввозможности обработки больших корпусов текстов. В целом, в современныхусловиях основным ограничением являются технические возможности компьютеров. Вторым преимуществом является объективность кодирования – наэтапе обработки данных полностью исключено человеческое влияние, а, следовательно, риск субъективности и неустойчивости результатов. В качестве недостатков данного подхода следует отметить учет исключительно прямого значения слов, неразличение жанров, скрытых смыслов, коннотаций и пр. Такженеобходимо указать на технические сложности. Особенно явно проблемы проявляются при работе с русским языков, сложность которого обусловливаетпроблемы на этапе нормализации17 (особенно лемматизации), учет синонимии,анафорических связей18 и пр.).
Одним из недостатков данного подхода являетсяопределение темы как совокупности слов в тексте, в то время как зачастую13Mimno D., Blei D. Bayesian Checking for Topic Models // Empirical Methods in Natural Language Processing,2011. P. 227-237.14Daud A. Using Time Topic Modeling for Semantics-Based Dynamic Research Interest Finding // Knowledge-Based.2012. Vol. 26, P. 154–163.15Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематическихмоделей // Компьютерные исследования и моделирование.
2012. Т. 4. № 12. P. 693–706.16Bing L. Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. 2012.17Нормализация - приведение всех словоформ одного слова к единой основе. Целью нормализации являетсяуменьшение количества уникальных слов, то есть снижение размерности текста. Существует два вида первогоэтапа нормализации текста: лемматизация (lemmatization) и стэмминг (stemming).
Первый предполагаетприведение каждого слова в словарную форму (лемму) (существительное – именительный падеж,единственное число, глагол – неопределенная форма и пр.), второй – приведение слова к его основе (морфеме)путем «обрезания» (окончаний, суффиксов и пр.), чтобы оставшаяся часть была одинаковой для всехграмматических форм. Лемматизация является более эффективной, так как использует словари и опирается наконтекст, стэмминг намного более грубый алгоритм, но более быстрый. В нашей работе при проведенииэмпирического анализа применялась лемматизация.18Анафорические связи в тексте – отношения между частями текста (между словами, словосочетаниями,высказываниями), при которых в смысл одного слова (словосочетания, высказывания) входит отсылка кдругому слову (словосочетанию, высказыванию).8семантика, наиболее точно описывающая проблему текста, не эксплицирована.Данный недостаток призван компенсировать альтернативный метод - эвристический тематический анализ.Неформализованный, эвристический тематический анализ рассматриваеттекст как совокупность смыслов.
Всякий текст трактуется как авторское описание и представление проблемы, реализуемое с помощью целенаправленногоконструирования социальных смыслов. Исследователя интересует, скорее, выявление и толкование смыслов, явно и неявно транслируемых автором, интерпретация проблем, реконструкция позиций и типов аргументации, интерпретация авторского видения социальной реальности. Эвристический тематическийанализ восходит к теории аргументации19, основан на индуктивном подходе,который, в первую очередь, имеет описательный характер и поисковые задачи20.Эвристический тематический анализ требует активного участия и интерпретации со стороны исследователя.
Он выходит за рамки подсчета слов илифраз и сосредоточивается на выявлении и описании явных и неявных идей втекстах, то есть тематической структуры текста. При проведении анализа разрабатываются коды - маркеры тем, используемые в дальнейшем анализе. Вцелом можно отметить наличие двух точек зрения на сущность тематическогоанализа. Ряд исследователей (Г. Гест, К.
МакКуин, Е. Нэйми, В. Браун иВ. Кларк21) полагают, что тематический анализ является интегральным методом: он включает в себя процедуры, заимствованные у обоснованной теории,дискурс-анализа и других методов. Метод перенимает преимущества у другихметодов из теоретического и методологического арсенала и адаптирует к прикладным исследованиям (автор настоящей работы придерживается данной точ19Attride-Stirling J. Thematic networks: an analytic tool for qualitative research // Qualitative Research. 2001. No.
1, P.385-405.20Guest G., MacQueen K., Namey E. Applied thematic analysis. Thousand Oaks, California: Sage. 2012.21Braun V., Clarke V. Using thematic analysis in psychology // Qualitative Research in Psychology. 2006. Vol. 3. No.2.9ки зрения). С другой стороны, существует точка зрения22, что тематическийанализ не является самодостаточным методом анализа данных, а, скорее, инструментом, который используется другими методами. В любом случае, данных подход достаточно распространен в гуманитарных науках (см., например,работы Д. Сингер и М. Хантер23, Х.
Рубин и И. Рубин24, Г. Тейлор иДж. Ашер25).Исследования, посвященные проблеме формирования и восприятия образа Российской Федерации, были объединены в несколько направлений. Онисфокусированынаполитической26,географической27,политико-психологической28, маркетинговой29, историко-культурной30 или социологической31 детерминанте в подходе к изучению образа Российской Федерации. Ни водной из дисциплин исследователи не уделяют внимания обоснованию применения формализованных методов для эмпирического анализа образа Российской Федерации.Проблема исследования заключается в несоответствии между потенциальными возможностями формализованных методов анализа текстовых данныхи обоснованностью их использования. Отсутствует оценка целесообразности иэффективности интеграции формализованных методов с эвристическими методами анализа текстовых данных.22Boyatzis R.E.
Transforming qualitative information: thematic analysis and code development. Thousand Oaks, CA:Sage. 1998.23Singer D., Hunter M. The experience of premature menopause: a thematic discourse analysis // Journal ofReproductive and Infant Psychology. 1999. Vol.17. No. 63. P. 63-81.24Rubin H.J., Rubin, I.S. Qualitative interviewing: the art of hearing data. Thousand Oaks, CA: Sage. 1995.25Taylor G.W., Ussher J.M. Making sense of S&M: a discourse analytic account // Sexualities. 2001.
Vol. 4. No. 293.P. 293-314.26Галумов Э.А. Имидж.против имиджа. М.: Известия, 2005.27Замятин Д.Н. Метагеография: Пространство образов и образы пространства. М.: Аграф, 2004.28Образы государств, наций и лидеров / Под ред. Е.Б. Шестопал. М.: Аспект Пресс, 2008.29Панкрухин А.П. Маркетинг территорий. 2-е изд., дополн. Спб.: Питер, 2006.30Федоров А.В. Трансформация образа России на западном экране: от эпохи идеологической конфронтации(1946–1991) до современного этапа (1992–2010). М.: Изд-во МОО «Информация для всех», 2010.31«Рычащий медведь» на «диком Востоке» (Образы современной России в работах американских авторов:1992-2007) / Сост. Э. Я. Баталов, В.
Ю. Журавлева, К. В. Хозинская. М.: Российская политическаяэнциклопедия (РОССПЭН), 2009.10Теоретический объект исследования — смешанная (mixed), или интегративная, методология тематического анализа больших текстовых массивов.Предмет исследования — конфигурация формализованных и эвристических методов на разных этапах реализации интегральной стратегии тематической классификации текста.Конфигурация методов рассматривалась на примере текстового массива,репрезентирующего образ Российской Федерации. Эмпирическим объектомисследования явился корпус статей о Российской Федерации, опубликованныхв «Нью-Йорк таймс» в период с августа 2011 г.