Диссертация (1090484), страница 15
Текст из файла (страница 15)
Sequential Short-Text Classification with Recurrentand Convolutional Neural Networks. InProceedings of NAACL-HLT 2016 (pp.515-520).[153] Narayanan V., Arora I., Bhatia A. Fast and accurate sentiment classificationusing an enhanced Naive Bayes model. InInternational Conference on IntelligentData Engineering and Automated Learning 2013 Oct 20 (pp.
194-201). SpringerBerlin Heidelberg.[154] Zhaopeng Tu, Yang Liu, Lifeng Shang, Xiaohua Liu, Hang Li, Neural MachineTranslation with Reconstruction. 2017.[155] Luong M. T., Manning C. D. Stanford neural machine translation systemsfor spoken language domains. InProceedings of the International Workshop onSpoken Language Translation 2015.[156] Andrew Carstairs-McCarthy, An Introduction to English Morphology: Wordsand Their Structure, Edinburgh: Edinburgh University Press; 2002.[157] Харламов А. А., Ермоленко Т.
В. Разработка компонента синтаксическогоанализа предложений русского языка для интеллектуальной системы обработки естественно-языкового текста // Программная инженерия No 7, 2013.Стр. 37-47[158] А. А. Харламов Когнитивный подход к анализу текстов в технологии автоматического смыслового анализа текстов TextAnalyst // В сборнике «Актуальные вопросы теоретической и прикладной фонетики» - М.:, 2013 – С.398 - 428[159] Усков ИВ.
Лемматизация русских текстов компьютером. Автоматизация,мехатроника, Информационные технологии-Омск. 2013:182-5.[160] Зализняк А. А."Грамматический словарь русского языка"М.: Русскийязык, 1980 г.[161] Lima SD. Morphological analysis in sentence reading. Journal of Memory andLanguage. 1987 Feb 28;26(1):84-99.130[162] Молдован А. М.
Национальный корпус русского языка. Вестник Российской академии наук. 2007;77(6):498-504.[163] Lee YS. Morphological analysis for statistical machine translation.InProceedings of HLT-NAACL 2004: Short Papers 2004 May 2 (pp. 57-60).Association for Computational Linguistics.[164] Carus AB, Wiesner M, Boone K, inventors; Inso Corporation, assignee. Methodand apparatus for morphological analysis and generation of natural language text.United States patent US 5,794,177. 1998 Aug 11.[165] Грановский Д.
В., Бочаров В. В., Бичинева С. В. "Открытый корпус: принципы работы и перспективы."(2010): 19-22.[166] Erjavec T, Ignat C, Pouliquen B, Steinberger R. Massive multi lingual corpuscompilation: Acquis Communautaire and totale. Archives of Control Science.2005 Apr 21;15(4):529.[167] Marcus M., Kim G., Marcinkiewicz M. A., MacIntyre R., Bies A., FergusonM., Katz K., Schasberger B. The Penn Treebank: annotating predicate argumentstructure. InProceedings of the workshop on Human Language Technology 1994Mar 8 (pp. 114-119). Association for Computational Linguistics.[168] Knuth D.
E. The Art of Computer Programming: Volume 3: Sorting andSearching. Addison-Wesley Professional; 1998 Apr 24.[169] Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medicaldocument retrieval. International Journal of Medical Informatics. 2000 Sep1;58:87-99.[170] Zavrel J, Degroeve S, Kool A, Daelemans W, Jokinen K. Diverse classifiersfor NLP disambiguation tasks comparisons, optimization, combination, andevolution.
InTwente Workshops on Language Technology 2000 Nov 22 (Vol. 18,pp. 201-221).131[171] Hindle D. Acquiring disambiguation rules from text. InProceedings of the 27thannual meeting on Association for Computational Linguistics 1989 Jun 26 (pp.118-125). Association for Computational Linguistics.[172] Hajič J., Krbec P., Květoň P., Oliva K., Petkevič V. Serial combination of rulesand statistics: A case study in Czech tagging. InProceedings of the 39th AnnualMeeting on Association for Computational Linguistics 2001 Jul 6 (pp.
268-275).Association for Computational Linguistics.[173] Thede S. M. , Harper M. P. A second-order hidden Markov model for partof-speech tagging. InProceedings of the 37th annual meeting of the Associationfor Computational Linguistics on Computational Linguistics 1999 Jun 20 (pp.175-182). Association for Computational Linguistics.[174] Memisevic R., Zach C., Pollefeys M., Hinton G. E. Gated softmax classification.In Advances in neural information processing systems 2010 (pp. 1603-1611).[175] Van Den Berg MH, Thione GL, Walters CP, Crouch RS, inventors; MicrosoftCorporation, assignee.
Indexing role hierarchies for words in a search index.United States patent US 8,229,730. 2012 Jul 24.[176] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network trainingby reducing internal covariate shift. arXiv preprint arXiv:1502.03167. 2015 Feb11.[177] Zhang H, Berg AC, Maire M, Malik J.
SVM-KNN: Discriminative nearestneighbor classification for visual category recognition. InComputer Vision andPattern Recognition, 2006 IEEE Computer Society Conference on 2006 (Vol. 2,pp. 2126-2136). IEEE.[178] Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein,Introduction to algorithms. Cambridge: MIT press; 2001 Sep.[179] Abadi M., Agarwal A., Barham P., Brevdo E., Chen Z., Citro C., Corrado G.,Davis A., Dean J., Devin M., Ghemawat S. TensorFlow: Large-Scale MachineLearning on Heterogeneous Distributed Systems.
2015.132[180] Willard DE. New trie data structures which support very fast searchoperations. Journal of Computer and System Sciences. 1984 Jun 1;28(3):379-94.[181] Forney GD. The viterbi algorithm. Proceedings of the IEEE. 1973Mar;61(3):268-78.[182] Efron B., Tibshirani R.
Bootstrap methods for standard errors, confidenceintervals, and other measures of statistical accuracy. Statistical science. 1986 Feb1:54-75.133ПриложенияПриложение 1.Русские морфологические характеристики OpenCorpora:Порядок ID1234567810111213141516171819212223242526272829ОписаниеPOSTчасть речиNOUNимя существительноеADJFимя прилагательное (полное)ADJSимя прилагательное (краткое)COMPкомпаративVERBглагол (личная форма)INFNглагол (инфинитив)PRTFпричастие (полное)PRTSпричастие (краткое)GRNDдеепричастиеNUMRчислительноеADVBнаречиеNPROместоимение-существительноеPREDпредикативPREPпредлогCONJсоюзPRCLчастицаINTJмеждометиеANim одушевлённость / одушевлённость не выраженаanimодушевлённоеinanнеодушевлённоеGNdrрод / род не выраженmascмужской родfemnженский родneutсредний родMs-fобщий родNMbrчисло1343031323336373839404142434445464748495051525354555657585960616263singplurSgtmPltmFixdCAsenomngentdatvaccsabltloctvoctgen1gen2acc2loc1loc2AbbrNameSurnPatrGeoxOrgnTradSubxSuprQualAproAnumPossV-eyединственное числомножественное числоsingularia tantumpluralia tantumнеизменяемоекатегория падежаименительный падежродительный падеждательный падежвинительный падежтворительный падежпредложный падежзвательный падежпервый родительный падежвторой родительный (частичный) падежвторой винительный падежпервый предложный падежвторой предложный (местный) падежаббревиатураимяфамилияотчествотопониморганизацияторговая маркавозможна субстантивацияпревосходная степенькачественноеместоименноепорядковоепритяжательноеформа на -ею1356465666768697071727374757677787980818283848586878889909192939495V-oyCmp2V-ejASpcperfimpfTRnstranintrImpeImpxMultReflPErs1per2per3perTEnsprespastfutrMOodindcimprINvlinclexclVOicactvpssvInfrSlngформа на -оюсравнительная степень на поформа компаратива на -ейкатегория видасовершенный виднесовершенный видкатегория переходностипереходныйнепереходныйбезличныйвозможно безличное употреблениемногократныйвозвратныйкатегория лица1 лицо2 лицо3 лицокатегория временинастоящее времяпрошедшее времябудущее времякатегория наклоненияизъявительное наклонениеповелительное наклонениекатегория совместностиговорящий включён (идем, идемте)говорящий не включён в действие (иди, идите)категория залогадействительный залогстрадательный залогразговорноежаргонное13696979899100101103104105106107108109110111112113114115116117118ArchLitrErroDistQuesDmnsPrntV-beV-enV-ieV-biFimpPrdxCounCollV-shAf-pInmxVpreAnphInitAdjxустаревшеелитературный вариантопечаткаискажениевопросительноеуказательноевводное словоформа на -ьеформа на -ененотчество через -иеформа на -ьидеепричастие от глагола несовершенного видаможет выступать в роли предикативасчётная формасобирательное числительноедеепричастие на -шиформа после предлогаможет использоваться как одуш.
/ неодуш.Вариант предлога ( со, подо, ...)Анафорическое (местоимение)Инициалможет выступать в роли прилагательного137Приложение 2.Английские морфологические характеристики PennTreeBank:Порядок ID12345678910111213141516171819202122232425262728ОписаниеCCCoordinating conjunctionCDCardinal numberDTDeterminerEXExistential thereFWForeign wordINPreposition or subordinating conjunctionJJAdjectiveJJRAdjective, comparativeJJSAdjective, superlativeLSList item markerMDModalNNNoun, singular or massNNSNoun, pluralNNPProper noun, singularNNPSProper noun, pluralPDTPredeterminerPOSPossessive endingPRPPersonal pronounPRP$Possessive pronounRBAdverbRBRAdverb, comparativeRBSAdverb, superlativeRPParticleSYMSymbolTOtoUHInterjectionVBVerb, base formVBDVerb, past tense1382930313233343536VBGVBNVBPVBZWDTWPWP$WRBVerb, gerund or present participleVerb, past participleVerb, non 3rd person singular presentVerb, 3rd person singular presentWh-determinerWh-pronounPossessive wh-pronounWh-adverb139Приложение 3.
Demo морфологического анализа и классификации текстовРис. 4.9: Demo - Морфологический анализ.Рис. 4.10: Demo - Классификация.1404. Пример технического задания классификации эмоциональной окраски отзывов пользователейКлассификация эмоциональной окраски отзыва была реализована с помощью методов, предложенных в диссертационной работе: нейро-семантическаясеть на основе морфологического анализа и рекурсивный автоэнкодер морфологического анализа с использованием мультиномиальной логистической регрессией, так же алгоритм «К» ближайших соседей с использованием двоичногодерева.Для лемматизации слов в системе был применен модуль морфологическогоанализа, исследованный и разработанный автором в рамках диссертации. Дляпоиска морфологических вариантов словоформы нужно обходить дерево по префиксу этой словоформы. Морфологический разбор словоформы содержит этиинформации: id леммы и морфологические характеристики.Для векторизации слов и текстов были использованы два метода векторного представления из данной диссертационой работы: нейро-семантическая сетьна основе морфологического анализа и рекурсивный автоэнкодер морфологического анализа.
Векторизация текстов необходима для сравнения текстов иследовательно, для поиска похожих отзывов.Для обучения системы был использован набор данных Amazon, который состоит из более 41 миллиона отзывов пользователей. Так как на данный моментавтор не может найти для обучения достаточно большой набор отзывов на русском языке, обучение было проведено только на английском. Хотя система быларазработана, чтобы работать с обоими языками. Каждый отзыв содержит следующую информацию: ID отзыва, имя пользователя, время написания отзыва,текст отзыва, краткое изложение, оценка (целое число в диапазоне 1-5), полезность отзыва (по мнениям других пользователей).Пример одного отзыва:141ПолеЗначениеID отзываA11N155CW1UV02Имя пользователяAdrianaMВремя написания от- 05 3, 2014зываТекст отзываI had big expectations because I love EnglishTV, in particular Investigative and detectivestuff but this guy is really boring.















