lecture1-2015 (1126920)
Текст из файла
Обработка текстовОсновы обработки текстовлекция 1Обработка текстовО курсе• Лектор: Турдаков Денис Юрьевич• Лекции каждую среду в 10.30 ауд. 523–предполагаются минимальные знания• линейной алгебры,• теории вероятности и математической статистики• программирования–не все имеют одинаковые знания• предполагается, что студенты могут быстро учитьсяОбработка текстовПлан на сегодня• Подробнее о курсе и практикуме • Язык программирования Python • Проблемы обработки текстовОбработка текстовЧасть 1Обработка текстовО курсе• Курс состоит из–лекций,–практической части и–итогового экзамена• Язык программирования Python• Вся информация: http://tpc.at.ispras.ruОбработка текстовПрактическая часть• Одна из открытых задач обработкитекстов–В этом году: определение оскорбленийучастников дискуссий в Интернете• Веб-интерфейс для проверки и заданиебудут доступны через две неделиОбработка текстовЧасть 2Обработка текстовPython• Значимые пробелыif x==1:print ‘x is 1’print ‘внутри блока’print ‘вне блока’Обработка текстовPython• Конструкторы списков и словарейnumber_list=[1,2,3,4]string_list=[‘a’,’b’,’c’,’d’]mixed_list=[‘a’,2,’c’,7]•Словарь (ключ/значение)ages={‘John’:34, ‘Sarah’:20, ‘Max’:24}•Доступ к элементам []string_list[3]ages[‘Sarah’] # ’20’# ‘c’Обработка текстовPython• Трансформация списков• [выражение for переменная in список]• [выражение for переменная in список if условие]l1=[1,2,3,4,5,6,7,8,9]print [v*10 for v in l1 if v>4]> [50, 60, 70, 80, 90]• Функции:–map, filter, zipprint filter(lambda x: x > 1, [0,1,2,3])> [2,3]print zip([1,2],[3,4])> [(1, 3), (2, 4)]Обработка текстовPython и обработка текстов• NLTK• http://www.nltk.org• NLTK bookimport nltktext = "Hello world!"tokens = nltk.word_tokenize(text)print tokens> ['Hello', 'world', '!']Обработка текстовPython и машинное обучение• scikit-learn• http://scikit-learn.orgfrom sklearn.naive_bayes import GaussianNBx = [[0,0],[1,1]]y = [0,1]classifier = GaussianNB()trained_classifier = classifier.fit(x,y)predicted_value = trained_classifier.predict([0.6,0.6])> [1]Обработка текстовЧасть 3Обработка текстовКлассические задачиобработки текстов• Информационный поиск (IR)• Извлечение информации (IE)• Вопросно-ответные системы (QA)• Классификация и кластеризация• Автоматическое аннотирование иреферирование• Диалоговые системы• Машинный переводОбработка текстовПриложения обработки текстовОбработка текстовЧто нужно знать о тексте?• Рассмотрим приложение– Siri: интеллектуальный ассистент на iPhoneОбработка текстовУровни обработки текстов• Морфологический– I’m - I am– кошка-кошки, дно-?• Синтаксический– Мне один черный кофе и один сладкий булка...• Семантический– Сколько китайского шелка было экспортировано вЗападную Европу в конце 18 века?– лексическая и композиционная семантика• Прагматический (дискурс)– Сколько тогда было штатов в США?– установление кореферентности (coreferenceresolution)Обработка текстовМногозначность• Ключевая проблема обработки текстов• Я траву косил косой,Дождик вдруг пошел косой.Бросил я тогда коситьИ на Стешу стал косить.Ну а Стеша,ох,краса,Как огонь её коса!Обработка текстовМногозначность• Морфологическая–часть речи–мой (-- нос, -- руки)–look ( look at me, have a look)Алгоритмы определениячастей речи (part ofspeech tagging)• Синтаксическая–мужу изменять нельзя–мать любит дочь–Flying planes can be dangerousСинтаксическийразбор (parsing)Обработка текстовМногозначность• Лексическая (семантическая)разрешениелексическоймногозначности (wordsense disambiguation)–Омонимия (ключ)–полисемия (платформа)–семантическая многозначность (лиса)• Прагматическая–Огонь! (в армии или в комнате)–You have a green lightОбработка текстовМногозначность и перевод• Help для Windows 95...
Мышь может неадекватно реагировать на щелчок попочкам. Но не спешите! Это могут быть физическиепроблемы, а не клоп Окон 95.Почистите вашу мышь. Отсоедините ее поводок от компьютера, вытащитегениталий и промойте его и ролики внутренностей спиртом. Снова зашейте мышь. Проверьте на переломы поводка.
Подсоедините мышь к компьютеру. Приглядитесь к вашей прокладке (подушке) - она не должнабыть источником мусора и пыли в гениталии и роликах.Поверхность прокладки не должна стеснять движениямыши....Обработка текстовСложность языка• Естественный язык:–многозначен на всех уровнях–сложное, едва уловимое использованиеконтекста для передачи значения–включает знания и рассуждения о мире• Но обработка естественного языка можетбыть иногда очень простой–использование грубых признаков частопозволяют достичь очень хороших результатовОбработка текстовПонимание• Тест Тьюринга• Китайская комната• ELIZA (1966)– „I am unhappy.“– „How long have you been unhappy?“– „Six months.
Can you help me?“– „What makes you think I help you?“– „You remind me of my sister.“– „Can you tell me more about your sister?“– „I like teasing my sister.“– „Does anyone else in your family like teasing your sister?“– „No. Only me.“– „Please go on.“Обработка текстовТекущее состояние• Разговорные агенты используютсянекоторыми авиакомпаниями• Можно отдавать голосовые командыустройствам (телефон, в автомобиле...)• Многоязыковой информационный поискGoogle• Перевод страниц Google• Компании занимающиеся анализомтекстов позволяют анализировать мненияи предпочтения людейОбработка текстовНовые взгляд на старыепроблемы• Информационный взрыв имасштабируемость (big data)• Обработка сообщений в социальныхсетях и Интернете в целом• Автоматическое извлечение знаний изтекстаОбработка текстовРезюме• Хороший способ понять проблемы обработкитекстов - сделать систему машинногоперевода, вопросно-ответную систему илиразговорного агента• Обработка текста основана на формальныхмоделях• Основы обработки текста лежат вкомпьютерных науках, математике,лингвистике, электротехнике и психологии• Сейчас - удивительное время, когдареволюционные разработки используютсяповсеместноОбработка текстовДополнительные ресурсы• Конференции: ACL, EACL, COLING, CoNLL,EMNLP, Диалог• Журналы: Computational Linguistics, NaturalLanguage Engineering, Speech & LanguageProcessing• http://www.aclweb.org/anthology-new/• Книги:– D.
Jurafsky, J.H. Martin. Speech and Languageprocessing.– C. Manning, H. Schutze. Foundations of StatisticalNatural Language Processing• Курс Stanford NLP: http://see.stanford.edu/Обработка текстовСледующая лекция• регулярные выражения• конечные автоматы.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.