Диссертация (1136870), страница 4
Текст из файла (страница 4)
В работе представлен, поэтапно описан и апробирован алгоритм отбора источников, выделения единиц анализа и обработки корпусов текстовых данных, основанный на интеграции различных методов анализа, который может быть использован в качестве методических рекомендаций при проведении эмпирических исследований.Во-вторых, классификация подходов к анализу образа страны и предложенный способ определения и изучения образа страны в СМИ могут быть использованы для дальнейшего, более комплексного и глубокого изучения образаРоссии. На основании полученных результатов могут быть сформулированыконкретные рекомендации по планированию и проведению кампаний по улучшению образа России, координации действий всех заинтересованных сторон:государства, СМИ, общественных объединений, бизнеса и пр.16Наконец, в педагогической сфере результаты диссертационного исследования могут быть использованы в рамках курсов по методологии анализа социологических данных, научно-исследовательских семинаров, а также могутстать основой специального учебного курса по методам анализа текстовых данных.Апробация результатовОсновные положения диссертации были апробированы в научных публикациях автора, а также в докладах на X Конференции Европейской Социологической Ассоциации «Social Relations in turbulent times» (Женева, 2011), VIIIКонференции по применению сетевого анализа (Цюрих, 2011), 6-й научнопрактической Конференция памяти А.О.
Крыштановского «Современная социология - современной России» (Москва, 2012), научном семинаре научноучебной группы «Сетевые методы и модели в анализе текстовой информации»(Москва, 2012, 2013), VII Конференции памяти Юрия Левады «Современноероссийское общество и социология (Москва, 2013), Всероссийской научнопрактической конференции Института социологии РАН «Модернизация отечественной системы управления: анализ тенденций и прогноз развития» (Москва,2013). Диссертация была обсуждена на заседании кафедры методов сбора ианализа социологической информации факультета социологии НИУ ВШЭ.Полученные в диссертации результаты встроены в процесс преподаваниясеминарских занятий по курсу «Социальные сети» (1 курс магистратуры, специализация «Прикладные методы социального анализа рынков»).
По результатам исследования опубликованы 3 статьи в изданиях, рекомендованных ВАКМинистерства образования и науки РФ.Структура работыДиссертация состоит из введения, трех глав, включающих 12 параграфов,заключения, библиографического списка и приложений. Общий объем работы17– 181 страница, в том числе, 2 приложения на 2 страницах, 17 страниц библиографии, 17 таблиц и 12 рисунков.ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо Введении обосновывается актуальность проблемы исследования,определяется объект и предмет, формулируется цель и задачи диссертации,определяется ее научная новизна и практическая значимость, дается характеристика теоретико-методологических оснований, излагаются положения, выносимые на защиту.Глава 1 «Подходы к проведению тематического анализа текстов» посвящена аналитическому обзору двух направлений тематического анализа –формализованному и эвристическому. Аналитическая роль автора проявляетсяв систематизации подходов, предложении интеграции двух подходов к анализулюбого тематически выделенного корпуса текстов в рамках стратегии смешивания методов (mixed methods research).Параграф 1 «Способы отбора источников» описывает возможные варианты формирования корпуса источников исследования.
При работе с большимикорпусами текстов начальный этап – отбор источников - исключительно важен, поскольку результат, полученный на данном шаге, предопределяет дальнейший ход исследования и валидность полученных результатов. Основныеспособы отбора текстовых источников соотносятся с типами выборок: случайный отбор, систематический отбор, стратифицированный отбор, вероятностныйотбор, кластерный отбор, снежный ком, целевой отбор, сплошной отбор, удобный отбор.Параграф 2 «Формализованный подход: кластерный анализ, тематическое моделирование» посвящен обзору формализованных методов анализа текста, решающих задачу выделения тематической структуры текстов. В началепараграфа приведена авторская классификация основных понятий, используе-18мых при проведении анализа текста – слово/словосочетание, концепт, категория и словарь.Тематический анализ – это метод выявления, описания и анализа определенных образцов (patterns), тем в тексте.
Браун В. и Кларк В. описывают темукак важную идею, содержащуюся в данных, имеющую непосредственное отношение к исследовательскому вопросу. Основной задачей формализованныхметодов является классификация - распределение текстов по категориям. Категории могут быть известны заранее – тогда задача состоит в распределениитекстов по известным категориям, либо могут быть неизвестны до начала этапаанализа данных. В таком случае задача состоит в поиске латентных категорий,их описании и распределении текстов по выделенным категориям.Формализованные методы тематического анализа, рассмотренные в работе, основаны на модели «мешка слов» (bag of words).
Предварительной процедурой любого метода подготовительный этап (preprocessing)51. Результатомподготовительного этапа является представление каждого текста i (i=1…N) ввиде вектора, состоящего из частот встречаемости в тексте каждого уникального слова M: Wi = Wi1, Wi2,…,WiM).
Каждое значение Wim является частотой встречаемости m-го слова в i-м документе. Корпус текстов представляется в видематрицы, содержащей векторное представление всех текстов корпуса52 53.Методы классификации по известным категориям разделяются на методы, основанные на словарях и методы обучения с учителем. Первые используют частоту ключевых слов для отнесения документа в определенную категориюили для измерения степени, в которой документ принадлежит к той или инойкатегории, вторые решают проблему как задачу классификации текстов, гдеЭтап включает нормализацию текста, удаление из текста «шумов» (слов, не несущих смысловой нагрузки,таких как предлоги, междометия и пр., а также редко встречающихся слов), приведение слов к одномурегистру, удаление знаков пунктуации.52Обычно ее называют матрицей термин-документ (term–documentmatrix или document-termmatrix).53Возможно альтернативное представление – вместо частоты встречаемости для каждого словарассчитывается коэффициент tf*idf (частота термина, умноженная на обратную частоту документов, гдеприсутствует термин, в корпусе).
Подобный подход позволяет дифференцировать слова по сравнительнойзначимости в корпусе.5119классификаторы построены с использованием одного из методов машинногообучения и обучения на наборах данных. В работе из первого класса методовиспользован метод кластеризации, метод оценки тональности текста54. Второйкласс методов представлен в работе методом тематического моделирования55.В параграфе 3 «Эвристический подход: тематический анализ» описаныонтологические корни эвристического тематического анализа, алгоритм егопроведения, а также возможные проблемные точки реализации его на практике.Эвристический тематический анализ восходит к теории аргументации,ориентируется на индуктивной подход, который имеет описательный характери поисковые ориентации, требует активного участия и интерпретации со стороны исследователя.
В целом можно отметить наличие двух точек зрения на сущность тематического анализа: согласно первой, тематический анализ являетсяинтегральным методом, заимствующим то, что считает наиболее полезным удругих методов из теоретического и методологического лагеря, и адаптирующим к прикладным исследованиям. Согласно противоположному мнению, тематический анализ не является самодостаточным методом анализа данных, а,скорее, инструментом, который используется другими методами. Автор даннойработы придерживается первой точки зрения. Схема проведения эвристического тематического анализа включает следующие этапы: знакомство с данными,создание исходных кодов, поиск тем, обзор (интерпретация, описание) тем,описание и лейбелинг (называние) тем, подготовка доклада.Параграф 4 «Стратегия смешивания методов (mixed methods research)»посвящен описанию сравнительно молодого похода, представляющего собойособый тип исследований, где объединяются формализованные и эвристичеОбласть исследований, которая анализирует мнения людей, настроения, оценки, отношения и эмоции поотношению к различным объектам, таким как товары, услуги, организации, частные лица, проблемы, события,темы и их атрибуты.55Основная идея данного подхода состоит в том, что каждый текст рассматривается как совокупностьраспределений тем, наличествующих в корпусе.