Диссертация (1136870)
Текст из файла
На правах рукописиПросянюк Дарья ВячеславовнаМетоды тематической классификации текста (на примере образаРоссийской Федерации в New York Times)Специальность: 22.00.01 –Теория, методология и история социологииАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата социологических наукМосква - 2014Работа выполнена в Федеральном государственном автономном учреждениивысшего профессионального образования «Национальный исследовательскийуниверситет «Высшая школа экономики»Научный руководитель:кандидат социологических наук, доцентГрадосельская Галина Витальевнадоцент кафедры методов сбора и анализасоциологической информации факультетасоциологии Национального исследовательскогоуниверситета «Высшая школа экономики»Официальные оппоненты:доктор социологических наукЖаворонков Александр ВасильевичВедущий научный сотрудникЦентра методологии социологическихисследований Института социологииРоссийской академии науккандидат социологических наукКрутий Ирина Андреевнаруководитель управления маркетинговымиинтернет-коммуникациями «Современнойгуманитарной академии»Ведущая организация:ФГОБУ ВПО МГИМО Московскийгосударственный институт международныхотношений (Университет) МИД РФЗащита состоится «3» марта 2015 года в 17.00 часов на заседании Совета по защитедиссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук Д 212.198.09 на базе Российского государственного гуманитарногоуниверситета по адресу: 125993, ГСП-3, Москва, Миусская площадь, дом 6, корп.
5,ауд. 406.С диссертацией можно ознакомиться в научной библиотеке РГГУ по адресу: 125993,ГСП-3, Москва, Миусская площадь, д. 6. и на официальном сайте организации поадресу www.rsuh.ru.Автореферат разослан «25» января 2015 года.Ученый секретарьдоктор социологических наук, профессорБуланова М.Б.2ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальностьСтремительное распространение технологий производства, обработки,трансляции и хранения информации в текстовом виде, лавинообразный рост иширокая доступность данных в электронном виде, а также повышение ролиинформации как ресурса и основы принятия решений обусловили запрос наразработку автоматизированных средств обработки и анализа текстовых данных.
В настоящее время мы являемся свидетелями интервенции формализованных методов анализа текстовых данных1, что обусловливает завышенные ожидания к возможностям автоматизированных средств и их неадекватное использование. Основными причинами завышенных ожиданий, на наш взгляд, является агрессивная маркетинговая политика корпораций-разработчиков специализированного программного обеспечения, акцентирующая внимание на возможности практически полного исключения человека при сборе, обработке и анализе информации; низкий уровень осведомленности пользователей об алгоритмах и ограничениях методологий, лежащих в основе того или иного программного продукта; а также исключительно небольшое количество междисциплинарных научных исследований, направленных на решение задач определения«границ» и условий применения формализованных методов анализа текстовыхданных в гуманитарных науках (которые являются одним из их основных «потребителей»).Вместе с тем, подавляющее большинство современных гуманитарных исследований, содержащих этап обработки текстовой информации (в том числеответы на открытые вопросы анкеты, транскрипты интервью и фокус-групп,тексты новостей и пр.), продолжают использовать традиционные методы ана-Формализованные методы анализа текстовых данных развивались обособленно, чаще в техническихдисциплинах, таких как искусственный интеллект, нейросетевое моделирование, лингвистическоеобеспечение систем автоматизированного проектирования и программирования и пр.1лиза, основанные на эвристических алгоритмах2: кодировании, априорной категоризации и пр.
Основными причинами устойчивого применения традиционных методов анализа текстовых данных, на наш взгляд, является определеннаястепень инерционности методической составляющей исследований; неизученность, и, как следствие, отсутствие доказательств надежности и валидностиформализованных методов при решении конкретных задач социального анализа; а также отсутствие исследований, посвященных верификации возможностейи условий интеграции различных направлений методов анализа текстовых данных.Таким образом, в настоящее время наблюдается значительный разрывмежду потенциальными возможностями формализованных методов анализатекстовых данных и фактическим использованием их потенциала. Применениеформализованных методов для анализа больших массивов текстовых данныхдля решения задач социального анализа является скорее новаторством, чемнормой.
Возможно, по причине того, что применение методов не стало нормой,они используются не всегда корректно и адекватно поставленным задачам.Несмотря на взрывной рост количества методов и алгоритмов формализованного тематического анализа, крайне малочисленны исследования, дающиепредставления и конкретные руководства эмпирическому исследователюгуманитарию об их специфике, достоинствах и недостатках.
Узконаправлены инемногочисленны исследования, сфокусированные на сравнительной оценкеприменимости отдельных направлений методов анализа текстовых данных вконкретных исследовательских ситуациях, определяющие роль эвристическихалгоритмов в процессе анализа. Следствием является отсутствие пошаговогоалгоритма анализа корпуса текстовых данных, основанного и направленного нарешение конкретной задачи социального анализа, необходимого в эмпирических исследованиях.
Сказанное позволяет считать, что работа, направленная наПод эвристическими алгоритмами понимается способ анализа данных и решения задач, не имеющийстрогого обоснования, но дающий приемлемые решения в большинстве практически значимых задач.24изучение специфики и ограничений методов формализованного анализа текстовых данных и разработку стратегий их интеграции с эвристическими методамиявляется актуальной. Подобная схема поможет систематизировать и адаптировать основные наработки точных наук в области анализа текстовых данных,продемонстрирует области единоличного «господства» каждого из направлений анализа, поспособствует очерчиванию круга типовых задач, потенциальноинтересных для решения формализованными методами. Также подобное руководство может быть тиражировано и адаптировано для решения широкого круга научных и практических задач.Разработанность проблемыМы исходим из предположения, что определение типов и конкретных параметров методов тематической классификации текста зависит от задач исследования.
Поэтому круг проанализированных в диссертации работ содержитпубликации, посвященные как современным методам и алгоритмам тематической классификации текста, так и работы, связанные с содержательным фокусомисследования.ВкачестветаковогобылвыбранобразРоссий-ской Федерации в одном из наиболее влиятельных американских и мировыхизданий – «Нью-Йорк таймс». Интерес и актуальность изучения данного объекта обусловливаются важностью в информационном обществе образа страны дляадекватного диалога между странами на различных уровнях.В спектре современных методов анализа текста в гуманитарных наукахможно выделить два основных подхода к тематической классификации текста –формализованный и эвристический (неформализованный, слабо формализованный).Начало развития формализованных методов анализа текста в гуманитарных дисциплинах принято связывать с возникновением метода контентанализа. Работы, нацеленные на количественное измерение параметров содержания текстов, тематическую классификацию газет появляются на рубеже5XIXXX веков.
В этом русле работали Г. Спид3, М. Уилли4, С. Кингсбери, X.Харт и Л. Кларк, Дж. Вудворд. Методику анализа средств массовой информации, предложенную в своей работе М. Уилли, использовал советский исследователь общественного мнения и прессы В.А. Кузьмичев5.Стремительное распространение средств массовой информации, а такжеповышение актуальности изучения пропагандистских материалов обусловилинеобходимость разработки метода, позволяющего выявлять социальные целитекстов на основании количественного анализа эксплицированного содержания.
Теоретической основой послужила классическая модель массовой коммуникации Г. Д. Лассвелла (кто, что, по какому каналу, кому говорит и с какимэффектом). На конференции по исследованию междисциплинарных средствмассовой коммуникации в Чикаго в августе 1941 г. был предложен термин длянового метода – контент-анализ. Суть анализа в данный период заключалась ванализе знаков и утверждений с целью проверки их влияния на аудиторию;результатом анализа была частота определенных символов, их интенсивность иоценкаотправителя.СредивидныхисследователейследуетназватьБ. Берельсона и П.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.