Формирование сервиса построения образа автора как когнитивная технология (1187434), страница 4

Файл №1187434 Формирование сервиса построения образа автора как когнитивная технология (Формирование сервиса построения образа автора как когнитивная технология) 4 страницаФормирование сервиса построения образа автора как когнитивная технология (1187434) страница 42020-09-112020-09-11СтудИзба

Формирование сервиса построения образа автора как когнитивная технология

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Так, например, фраза имеющая структуру JJ NN(прилагательноес существительным) имеет в качестве альтернативы всякую фразу, имеющую20структуру типа JJ? NN - знак ? означает, что прилагательное может встречатьсяа может и не быть в структуре фразы.Все правила альтернатив, используемые для сравнения фраз в данной работе:● JJ NN = JJ? NN● VB NN = JJ NN? | VB NN● NN = JJ | NN | JJ NNДля повышения точности сравнения могут быть использованы механизмыобобщения: для выбранного слова могут быть получены 10 наиболееиспользуемых синонимов и для каждого из этих синонимов(при подставлении вфразу) также вычисляется подобие со второй фразой. В качестве значенияфункции подобия выбирается максимальное значение среди всех подобий.S core = M ax{ConceptN etSim{phraseP art termi , phrase}}3.3.1.3. Правила сравнения грамматических структур.1.

Сравнение форм вида глагол-существительное(VerbNounClause VNC).Для начала выбираются все части предложения, которые содержат связиглаголов к существительным. Для сравнения двух VNC используетсяследующая процедура:● Сначала определяем являются ли глаголы синонимами илипринадлежат схожим концептам(используя ConceptNet).● Если глаголы схожи в значении, то мы сравниваемсуществительные, с которыми эти глаголы связаны поаналогичному принципу.● Если какие-то из существительных схожи по значению, мы21сравниваем их прилагательные и наречия по тому же принципу.2.

Сравнение форм, состоящих из существительных(NounClauses - NC).Мы считаем ERR формой, состоящей из существительных, если онасодержит только существительные. В связи с этим рассмотрим 2 случая:● Если оба ERR состоят из существительных, мы сравниваем всесуществительные между собой. Подобие глаголов увеличиваетзначение функции подобия для этих ERR.● Если только входное ERR состоит из существительных, тогда всесуществительные входного ERR сравниваются с существительнымииз ERR из данных для обучения.3. Сравнение прилагательных и наречий.Мы сравниваем свободные прилагательные и наречия из ERR, т.к.

к этомушагу только несвязанные прилагательные и наречия осталисьнеучтенными в функции подобия. После того, как была вычисленафункция подобия между двумя ERR, необходимо решить является этоподобие семантическим или подобием по ключевым словам. Подобиесчитается семантическим, если выполнено одно из следующихутверждений:1. Эмоциональные VNC(глагол имеет эмоциональную окраску) оказалисьполностью подобны - т.е.

и глаголы, и его существительные, и ихприлагательные и наречия оказались подобны.2. Все существительные оказались подобны и оба ERR могутрассматриваться как формы состоящие только из существительных.3. Прилагательные и наречия подобны и оба ERR не имеют другихкомпонентов(нет VNC & NN).224. Все слова в обоих ERR подобны(то же самое предложение) или входноеERR является частью ERR из набора для обучения.Если одно из вышеуказанных условий было выполнено, то подобие считаетсясемантическим, иначе - подобием по ключевым словам.3.3.2.

Альтернативная вероятностная классификация.В качестве запасного метода классификации мы используем вероятностныеалгоритмы - APA(Alternative probabilistic algorithm). Если предложение былоотвергнуто kNN-классификатором, то предлагается следующий набор действий.Для каждого слова входного предложения, которое требуется классифицироватьвычисляется следующая величина - эмоциональная вероятность среди данныхдля обучения:P (E, w) = log(#Sentences with emotion E that contain the word w / # total sentencesthat contain w) , где E п ринимает значения каждой из эмоций по Экману, а w каждое из слов входного предложения.

Данная величина вычисляется дляпредложений из данных для обучения. После вычисления всех значений мыполучаем 6 * (количество слов во входном предложении(ERR)) эмоциональныхвероятностей, т.е. фактически для каждого слова входного предложения мыимеем распределение значений его эмоционального контекста. Теперьнеобходимо причислить такое предложение к одному из тэгов. Для этогопросуммируем вероятностные вклады для каждой эмоции для всех словпредложений и возьмем максимум по этим вкладам. Строго данноерассуждение может быть описано так:|ERR|E result (ERR) = maxE ( ∑ P (E, wn ) / |ERR|) , где E - множество эмоций поn=1Экману, |ERR| - количество слов во входном ERR.23Такой алгоритм также может отвергнуть ERR, если ни одно из слов ненаходится в датасете для обучения. Такую проблему можно решить, обращаяськ большему скоплению данных, нежели данные для обучения, например, кхранилищу Интернета.Для начала в любом поисковом движке(Google, например) вводятся слова,составляющие ERR предложения без указания каких-либо эмоций.Записывается число вхождений, возвращаемое движком.

Далее аналогичнаяпроцедура проводится для всех слов из ERR и каждой из эмоций по Экману итакже записывается число вхождений. Очевидно, что для комбинации ERR +эмоция число вхождений будет всегда меньше, чем просто для ERR.Результирующий тэг вычисляется по следующим формулам:P ′ (E, ERR) = log(#Query hits f or ERR + E / #Query hits f or ERR)E result (ERR) = maxE (P ′ (E, ERR))3.4. Классификация ERR.Для обучения классификатора использовались данные Aman 2007 [12, 13], вкоторых каждое предложение размечено одной из 6 эмоций классификацииЭкмана. Датасет состоит из эмоционально богатых предложений, собранных изразличных блогов и размеченных эмоциями по Экману. Этот набор данныхбыло решено выбрать, поскольку блоги предоставляют большое различиестилейнаписанияитем.Такимобразом,предложенияхорошодифференцированы по тематикам и используют множество разноплановыхфраз.Необходимо отметить, что для данного датасета потребовалась предварительнаяобработка с целью исправления опечаток и прочих недочетов данных.24Для данного эксперимента метод kNN-классификации использовался спараметром k = 1.Данные из датасета делятся на две равные части: первая часть - данные длянепосредственно обучения и вторая часть - данные для оценки качестваалгоритма.После обучения классификатора(т.е.

агрегации данных ERR для данных дляобучения) проводится проверка алгоритма. Т.е. для тех предложений, длякоторых известна их эмоциональная окраска, проводится классификацияалгоритмом и сравнивается реальная окраска предложения с результатомклассификации.ДляэтогобылаиспользованавтораячастьданныхAman-датасета.Для большей точности для обучения использовались предложения до 10 словдлиной, поскольку более длинные предложения могут содержать несколькоэмоциональных частей, которые более сложны для анализа и могут бытьпротиворечивыми.

Оценка качества алгоритма проводилась на предложениях от10 до 15 слов длиной. С учетом этих соображений данные для обучениясоставили 500 предложений длиной до 10 слов. Данные для оценк качествасоставили также 500 предложений длиной от 10 до 15 слов.ЭмоцияPrecisionRecallF-scoretrue positive /(true positive +false positive)true positive /(true positive +false negative)Радость0.890.920.91Грусть0.840.810.83Отвращение0.790.780.79Злость0.820.760.7925Удивление0.800.750.77Страх0.910.840.88Рис 9. Таблица результатов классфикации.По таблице видно, что результаты классификации получаются достаточнохорошими и данный классификатор может быть использован для реальныхданных.3.5.

Построение образа автора.После оценки качества алгоритма можно приступать к анализу реальныхданных. Для анализа личности необходим текст или совокупность текстовобъемом не менее 1400 слов, написанный человеком, личность которого хочетсяпроанализировать.Важнымусловиемхорошегорезультатаявляютсяэмоционально насыщенные тексты, в которых человек активно высказываетсвое мнение по разным темам.Личностный портрет человека в системе “Большой пятерки” формируетсяпутем отображения множества размеченных предложений из входных текстовво множество черт “Большой пятерки”.Необходимо также обратить внимание, что не каждое предложение средивходных данных обязательно будет размечено одной из эмоций Экмана. Частьпредложений могут быть отвергнуты классификаторов вообще или оказатьсябезэмоциональными.

Такие предложения составляют отдельную группу ипросто удаляются перед началом отображения. Большое количество удаленныхпредложений может быть как следствием недостаточно высокого качествавходных данных, так и следствием безэмоциональности индивида. Для26уточнения по какой из причин было удалено много предложений необходимодополнительное исследование, поэтому в рамках данной работы система простоих отбрасывает без выяснения корня проблемы. Если более половиныпредложений оказались удалены, то система показывает предупреждение о том,что вероятность неточности результата высока ввиду низкого качества входныхданных.Далее будет описан алгоритм отображения.Входными данными для алгоритма отображения являются размеченныепредложения из текстов, выбранных для анализа. Таким образом, для каждойэмоциипоЭкмануможноподсчитатьколичествопредложений,соответствующих ей.

Вспомним какие эмоции включает данная классификация:радость, грусть, удивление, отвращение, злость и страх. То есть этиэмоции(для каждой из которых может быть подсчитано процентное содержаниесреди всех) необходимо отобразить на другое множество - множествохарактеристик “Большой пятерки”. Напомним также какие это характеристики:экстраверсия,нейротизм,доброжелательность(способностьсогласию),добросовестность(сознательность)иприйтикоткрытостьопыту(интеллект).В качестве результата отображения для каждой из характеристик “Большойпятерки” будет указано процентное содержание данной характеристики вличностном портрете исследуемого человека - т.е. число от 0 до 100.Для получения корректного отображения из одного пространства признаков вдругое, необходимо использовать таблицу эмоций, определяющих каждую изчерт “Большой пятерки”.

Для нахождения синонимичных эмоций используетсядерево эмоций WordNet-Affect. Также для уточнения отображения будет27использован график корреляции между чертами “Большой пятерки” иэмоциями,полученныйврамкахработы[18]Рис 10. Таблица связей “Большой пятерки”28Рис 11. Корреляция черт “Большой пятерки” и эмоций.Первой характеристикой является экстраверсия. Интроверсия - экстраверсия распространенный в психологии критерий категоризации или показательизмерения черт личности.

Характеристики

Тип файла

PDF-файл

Размер

556,86 Kb

Материал

Формирование сервиса построения образа автора как когнитивная технология

Тип материала

Выпускная квалификационная работа (ВКР)

Предмет

Дипломы и ВКР

Высшее учебное заведение

МФТИ (ГУ)

Список файлов ВКР

formirovanie-servisa-postroenija-obraza-avtora-kak-kognitivnaja-tehnologija.rar

Формирование сервиса построения образа автора как когнитивная технология.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.