Диссертация (1136870), страница 3
Текст из файла (страница 3)
по июль 2012 г.Цель исследования – оценить относительную эффективность формализованных и эвристических методов на разных этапах реализации интегральнойстратегии тематической классификации текста. В соответствии с поставленнойцелью, в работе последовательно решаются следующие задачи:1) Дать систематическое описание основных методов тематическойклассификации текста;2) Систематизировать применение основных подходов и методов тема-тической классификации текста применительно к кейсу исследований образаРоссии;3) Разработать и апробировать алгоритм тематической классификациитекста в рамках стратегии смешивания формализованных и эвристических методов анализа текстов на примере репрезентаций образа России в «Нью-Йорктаймс» в период 2011–12 гг.;4) Сравнить оценки свойств тематической структуры массива текстов,полученные альтернативными методами: формализованный тематический анализ (кластерный анализ, тематическое моделирование) vs.
эвристический тематический анализ;115) Сравнить оценки тональности массива текстов, полученные альтерна-тивными методами: метод оценки тональности, основанный на обучении с учителем vs. эвристическое кодирование.Методологические и теоретические основания исследованияМетодология исследований с использованием смешанных методов описана в работах Дж. Брюэра и А.
Хантера32, Дж. Красвела33, Дж. Грина,В. Карачелли, В. Грэхама34, Р. Джонсона и Л. Кристенсена35, И. Ньюмана иК. Бентц36, А. Ташакорри и К. Тэдди37. Исследования Е. Кример и М. Гостон38демонстрируют возможности смешивания формализованных и эвристическихметодов при применении контент-анализа.В более узком смысле теоретико-методологическую базу исследованиясоставляют работы, посвященные основным подходам и алгоритмам методовтематической классификации текста, описывающие основные принципы и этапы применения методов тематической классификации текста. Формализованное направление представлено работами К. Криппендорфа39, Р. Поппинга40,К.
Робертса41, Дж. Гриммера42, Б. Лью, Д. Журавски и Дж. Мартина, Д. Блэя,А. Дауда. Представление методов эвристического блока основано на работахГ. Геста, К. МакКуин, Е. Нэйми, В. Браун и В. Кларк.32Brewer J., Hunter A. Multimethod research: A synthesis of styles. Newbury Park, CA: Sage, 1989 .Creswell J. Research design: Qualitative, quantitative, and mixed approaches.
Thousand Oaks, CA: Sage, 2003.34Greene J., Caracelli V., Graham W. Toward a conceptual framework for mixed-method evaluation designs // Educational Evaluation and Policy Analysis. 1989. Vol. 11. P. 255-274.35Johnson R., Christensen L. Educational research: Quantitative, qualitative, and mixed approaches. Boston, MA:Allyn and Bacon, 2004.36Newman I., Benz C. Qualitative-quantitative research methodology: Exploring the interactive continuum. Carbondale, IL: Southern Illinois University Press, 1998.37Tashakkori A., Teddlie C. (Eds.). Handbook of mixed methods in social and behavioral research.
Thousand Oaks,CA: Sage, 2003.38Creamer E., Ghoston M. Using a Mixed Methods Content Analysis to Analyze Mission Statements From Colleges ofEngineering // Journal of Mixed Methods Research, 2013. P. 15-28.39Krippendorff K. Content Analysis: An Introduction to Its Methodology. 2nd edition, Thousand Oaks, CA: Sage 2004.40Popping R. Computer-assisted text analysis.
London: SAGE Publications, 2000.41Text Analysis for the Social Sciences: Methods for Drawing Statistical Inferences From Texts and Transcripts(Routledge Communication Series) ed. by Carl W. Roberts. Routledge, 1997.42Grimmer J. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts //Political Analysis. 2013. Vol.
21. No. 3. P. 267—297.3312Различение структурных элементов новостного сообщения как обособленных единиц анализа основано на подходе Т. Ван Дейка к новостям как особому типу дискурса43.Применительно к кейсу исследований образа России были проанализированы работы Э.А. Галумова, Д.Н. Замятина, Е.Б. Шестопал, Т.Н. Пищевой,Н.С. Виноградовой, А.Д. Недовой44, С. Анхольта45, А.П.
Панкрухина, А.В. Федорова, В.И. Журавлевой46.Эмпирическая база исследованияЭмпирическую базу исследования составляет корпус статей «Нью-Йорктаймс» о России за период август 2011 – июль 2012 г. В данный промежутоквремени уровень информационного внимания к событиям в России был достаточно высок, поскольку проходили думские и президентские выборы, а такжебыл назначен новый состав кабинета министров. «Нью-Йорк таймс» был выбран потому, что данное издание традиционно является одной из предпочитаемых элитой газет, одной из наиболее цитируемых политиками, повестка «НьюЙорк таймс» имеет значительное влияние на общественное мнение. Также данная газета содержит больший объем иностранных новостей, чем другие крупные американские газеты.
Кроме того, что нетипично для американской прессы, «Нью-Йорк таймс» уделяет значительный объем печатных площадей иностранным корреспондентам и поэтому считается одной из наиболее независимых газет в США в сборе информации.Отбор статей для анализа проходил в несколько этапов и был основан наразличении релевантной47 и пертинентной информации48. Финальный корпусВан Дейк Т. А. Язык, познание, коммуникация. Б.: БГК им.
И. А. Бодуэна де Куртенэ, 2000.Пищева Т.Н., Виноградова Н.С., Недова А.Д. Образ России под углом зрения политических коммуникаций //ПОЛИС. 2010. № 4, С. 107 – 121.45Anholt S. Forward // Journal of Brand Management. 2002. Vol. 29. No. 4. P. 229-239.46Журавлева В.И. Понимание России в США: образы и мифы. 1881-1914. М.: РГГУ, 2012.47Релевантность информации – степень соответствия результатов поиска задаче, поставленной в запросе.48Пертинентность информации – степень соответствия результатов поиска информационной потребностипользователя/исследователя.434413статей для анализа составил 411 статей «Нью-Йорк таймс», посвященных России.Научная новизна исследования заключается в следующем:1.Описаны и систематизированы методы тематической классифика-ции текста в рамках двух основных направлений: формализованного и эвристического. В рамках формализованного, подхода выделены два направления анализа: с известными априори категориями (кластеризация, метод анализа тональности, контент-анализ) и неизвестными категориями (тематическое моделирование).
Проведенная систематизация демонстрирует методные альтернативы для решения типовых задач социального анализа, а также предлагает возможные стратегии алгоритмизации в рамках каждого из подходов.2.Разработан, обоснован и апробирован алгоритм тематической клас-сификации текста в рамках стратегии смешивания методов. Алгоритм включаетпоэтапное применение формализованных и эвристических методов тематической классификации текста: многоступенчатый отбор данных (основанный наразличении релевантной и пертинентной информации), определение единицанализа, контент-анализ, определение тональности заголовков, классификациязаголовков, описание кластеров заголовков; контент-анализ, классификация,выделение основных тем текстов статей; описание и анализ каждой темы, индуктивное выведение интегрального образа.3.Обосновано выделение контекстуальных факторов, учет которыхнеобходим для изучения любого тематически выделенного корпуса текстов, идано их модельное описание.
В частности, обобщены подходы к изучению образа России в СМИ. По эпистемологическим и методологическим основаниямвыделено шесть направлений в исследовании факторов формирования образастраны: политическое, географическое, психологическое, маркетинговое, историко-культурное и социологическое.144.На примере сравнения и оценки качества результатов тематическо-го анализа, проведенного альтернативными методами, показано, что применение эвристических процедур кодирования значительно улучшает качество полученных результатов. В качестве альтернативных способов решения задачитематического анализа рассматривались следующие методы: кластерный анализ, тематическое моделирование, эвристический.5.В качестве дополнительного результата эмпирического исследова-ния показано, что при описании событий в России авторы «Нью-Йорк таймс»апеллируют к традиционным ценностям американского общества. По результатам проведения контент-анализа продемонстрировано, что в большинстве статей упоминается ценность «демократия и свободное предпринимательство».Основные положения, выносимые на защиту1.В работе с данными с многозначной операционализацией стратегиясмешивания методов позволяет повысить качество (точность, правдоподобность, дифференцированность) результатов анализа.2.Применение эвристического кодирования кратно повышает каче-ство формализованного отбора в условиях использования простого поисковогозапроса.3.По сравнению с формализованным методом анализа (реализованно-го методами кластерного анализа49, тематического моделирования50) эвристическое кодирование дает более дифференцированную тематическую структурузаголовков статей.4.Применение стратегии смешивания методов, то есть последова-тельное применение формализованных и эвристических методов, позволилоперейти от неправдоподобно различных профилей к правдоподобно сходнымАлгоритм двукластерного решения (bisecting k-means), косинусная мера.
Использовалось программноеобеспечение TLab.50Алгоритм латентного размещения Дирихле. Использовалось программное обеспечение TLab.4915профилям тематической структуры, полученных на основе анализа различныхсегментов одних и тех же текстов.5.Применение эвристического кодирования кратно повышает каче-ство формализованной оценки тональности текста, реализованной методомобучения с учителем.6.Тематическое моделирование имеет преимущество перед кластер-ным анализом в способности обнаруживать специфические смыслы, «невидимые» для кластерного анализа.Теоретическая и практическая значимость работыПолученные автором теоретические и методические результаты могутбыть использованы представителями различных отраслей знания в теоретических и эмпирических исследованиях.Во-первых, работа развивает методологию анализа текстовых данных.Находясь, по существу, в междисциплинарной зоне гуманитарных и точныхнаук, работа демонстрирует и подчеркивает взаимодополняющую, но не конкурирующую природу формализованных и эвристических методов анализа текстовых данных.