Главная » Просмотр файлов » Презентации лекций

Презентации лекций (1126940)

Файл №1126940 Презентации лекций (Презентации лекций)Презентации лекций (1126940)2019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Обработка текстовОсновы обработки текстовлекция 1Обработка текстовО курсе• Лектор: Турдаков Денис Юрьевич• Лекции каждую среду в 10.30 ауд. 523–предполагаются минимальные знания• линейной алгебры,• теории вероятности и математической статистики• программирования–не все имеют одинаковые знания• предполагается, что студенты могут быстро учитьсяОбработка текстовПлан на сегодня• Подробнее о курсе и практикуме • Язык программирования Python • Проблемы обработки текстовОбработка текстовЧасть 1Обработка текстовО курсе• Курс состоит из–лекций,–практической части и–итогового экзамена• Язык программирования Python• Вся информация: http://tpc.at.ispras.ruОбработка текстовПрактическая часть• Одна из открытых задач обработкитекстов–В этом году: определение оскорбленийучастников дискуссий в Интернете• Веб-интерфейс для проверки и заданиебудут доступны через две неделиОбработка текстовЧасть 2Обработка текстовPython• Значимые пробелыif x==1:print ‘x is 1’print ‘внутри блока’print ‘вне блока’Обработка текстовPython• Конструкторы списков и словарейnumber_list=[1,2,3,4]string_list=[‘a’,’b’,’c’,’d’]mixed_list=[‘a’,2,’c’,7]•Словарь (ключ/значение)ages={‘John’:34, ‘Sarah’:20, ‘Max’:24}•Доступ к элементам []string_list[3]ages[‘Sarah’] # ’20’# ‘c’Обработка текстовPython• Трансформация списков• [выражение for переменная in список]• [выражение for переменная in список if условие]l1=[1,2,3,4,5,6,7,8,9]print [v*10 for v in l1 if v>4]> [50, 60, 70, 80, 90]• Функции:–map, filter, zipprint filter(lambda x: x > 1, [0,1,2,3])> [2,3]print zip([1,2],[3,4])> [(1, 3), (2, 4)]Обработка текстовPython и обработка текстов• NLTK• http://www.nltk.org• NLTK bookimport nltktext = "Hello world!"tokens = nltk.word_tokenize(text)print tokens> ['Hello', 'world', '!']Обработка текстовPython и машинное обучение• scikit-learn• http://scikit-learn.orgfrom sklearn.naive_bayes import GaussianNBx = [[0,0],[1,1]]y = [0,1]classifier = GaussianNB()trained_classifier = classifier.fit(x,y)predicted_value = trained_classifier.predict([0.6,0.6])> [1]Обработка текстовЧасть 3Обработка текстовКлассические задачиобработки текстов• Информационный поиск (IR)• Извлечение информации (IE)• Вопросно-ответные системы (QA)• Классификация и кластеризация• Автоматическое аннотирование иреферирование• Диалоговые системы• Машинный переводОбработка текстовПриложения обработки текстовОбработка текстовЧто нужно знать о тексте?• Рассмотрим приложение– Siri: интеллектуальный ассистент на iPhoneОбработка текстовУровни обработки текстов• Морфологический– I’m - I am– кошка-кошки, дно-?• Синтаксический– Мне один черный кофе и один сладкий булка...• Семантический– Сколько китайского шелка было экспортировано вЗападную Европу в конце 18 века?– лексическая и композиционная семантика• Прагматический (дискурс)– Сколько тогда было штатов в США?– установление кореферентности (coreferenceresolution)Обработка текстовМногозначность• Ключевая проблема обработки текстов• Я траву косил косой,Дождик вдруг пошел косой.Бросил я тогда коситьИ на Стешу стал косить.Ну а Стеша,ох,краса,Как огонь её коса!Обработка текстовМногозначность• Морфологическая–часть речи–мой (-- нос, -- руки)–look ( look at me, have a look)Алгоритмы определениячастей речи (part ofspeech tagging)• Синтаксическая–мужу изменять нельзя–мать любит дочь–Flying planes can be dangerousСинтаксическийразбор (parsing)Обработка текстовМногозначность• Лексическая (семантическая)разрешениелексическоймногозначности (wordsense disambiguation)–Омонимия (ключ)–полисемия (платформа)–семантическая многозначность (лиса)• Прагматическая–Огонь! (в армии или в комнате)–You have a green lightОбработка текстовМногозначность и перевод• Help для Windows 95...

Мышь может неадекватно реагировать на щелчок попочкам. Но не спешите! Это могут быть физическиепроблемы, а не клоп Окон 95.Почистите вашу мышь. 
Отсоедините ее поводок от компьютера, вытащитегениталий и промойте его и ролики внутренностей спиртом. 
Снова зашейте мышь. 
Проверьте на переломы поводка. 
Подсоедините мышь к компьютеру. 
Приглядитесь к вашей прокладке (подушке) - она не должнабыть источником мусора и пыли в гениталии и роликах.Поверхность прокладки не должна стеснять движениямыши....Обработка текстовСложность языка• Естественный язык:–многозначен на всех уровнях–сложное, едва уловимое использованиеконтекста для передачи значения–включает знания и рассуждения о мире• Но обработка естественного языка можетбыть иногда очень простой–использование грубых признаков частопозволяют достичь очень хороших результатовОбработка текстовПонимание• Тест Тьюринга• Китайская комната• ELIZA (1966)– „I am unhappy.“– „How long have you been unhappy?“– „Six months.

Can you help me?“– „What makes you think I help you?“– „You remind me of my sister.“– „Can you tell me more about your sister?“– „I like teasing my sister.“– „Does anyone else in your family like teasing your sister?“– „No. Only me.“– „Please go on.“Обработка текстовТекущее состояние• Разговорные агенты используютсянекоторыми авиакомпаниями• Можно отдавать голосовые командыустройствам (телефон, в автомобиле...)• Многоязыковой информационный поискGoogle• Перевод страниц Google• Компании занимающиеся анализомтекстов позволяют анализировать мненияи предпочтения людейОбработка текстовНовые взгляд на старыепроблемы• Информационный взрыв имасштабируемость (big data)• Обработка сообщений в социальныхсетях и Интернете в целом• Автоматическое извлечение знаний изтекстаОбработка текстовРезюме• Хороший способ понять проблемы обработкитекстов - сделать систему машинногоперевода, вопросно-ответную систему илиразговорного агента• Обработка текста основана на формальныхмоделях• Основы обработки текста лежат вкомпьютерных науках, математике,лингвистике, электротехнике и психологии• Сейчас - удивительное время, когдареволюционные разработки используютсяповсеместноОбработка текстовДополнительные ресурсы• Конференции: ACL, EACL, COLING, CoNLL,EMNLP, Диалог• Журналы: Computational Linguistics, NaturalLanguage Engineering, Speech & LanguageProcessing• http://www.aclweb.org/anthology-new/• Книги:– D.

Jurafsky, J.H. Martin. Speech and Languageprocessing.– C. Manning, H. Schutze. Foundations of StatisticalNatural Language Processing• Курс Stanford NLP: http://see.stanford.edu/Обработка текстовСледующая лекция• регулярные выражения• конечные автоматыОбработка текстовОбработка текстовЛекция 2Регулярные выраженияБазовые задачи обработки текстовОбработка текстовМотивация• Обновить цену товара в прайс-листе:для конкретного товара за 1000р. сделать 999.99р.• Заменить все вхождения одного слова втексте на другое• для части слова (Википедия -> Энциклопедия)• с учетом контекста• Найти сообщения о терроризме• Фильтрация нецензурных высказыванийна форумахОбработка текстовРегулярные выражения• Regular Expressions(RegExp)• Языки программирования(Python, Perl, Ruby,Java, .Net)• Текстовые редакторы(Vim, EmEdit)• Утилиты (grep, sed)Обработка текстовРегулярные выражения• Регулярные выражения - алгебраическаянотация для записи множества строк• Функции Pythonimport rere.search("в","пиво").group(0) # вre.sub("о","ко","пиво") # пивкоre.findall("cd","abcdcde") # [“cd”,”cd”]Обработка текстовРегулярные выражения• Последовательность букв: abcd• Чувствительны к регистру: “Пиво”= “пиво”• Дизъюнкция: [П|п]иво,[abc],[1234567890]• Интервал: [A-Z], [0-9], [A-Za-z]for letter in re.findall("[а-о]","пиво"):print letter,> и в о• Знак ^: [^a] - все кроме “а”• “.” - любой символ, кроме \nОбработка текстовРегулярные выражения• ? - условие для 0 или 1 вхожденя символаre.findall("пивк?о", "пиво или пивко")> [“пиво”,”пивко”]• Как найти “Gooooogle”?• Счетчики–Gooo*gle–Goo+gleprint re.sub("Goo+gle","Google","Gooooogle")> GoogleОбработка текстовРегулярные выражения• Якоря^ - начало строки$ - конец строкиre.search("^cat(1|2)","cat1 cat2").group(0)> cat1re.search("cat(1|2)$","cat1 cat2").group(0)> cat 2Обработка текстовРегулярные выражения• Память (Memory)text="A conditional random field (CRF) is a ..."print re.search("\([^\)]+\)",text).group(0)> (CRF)print re.search("\(([^\)]+)\)",text).group(1)> CRFtext1 = "the faster they ran, the faster we ran"text2 = "the faster they ran, the faster we ate"re.search("the (.*)er they (.*), the \\1er we \\2", text1) # Matchre.search("the (.*)er they (.*), the \\1er we \\2", text2) # Not match• Приоритет операцийКруглые скобкиСчетчикиПоследовательности и якоряДизъюнкция()* + ? {}the ^my end$|Обработка текстовПрактические примеры• Найти все вхождения слова в тексте–слово the в тексте 6 разОбработка текстовПрактические примеры• ELIZAUser: Men are all alike.ELIZA: IN WHAT WAY?User: They’re always bugging us about something otherELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE?User: My boyfriend made me come hereELIZA: YOUR BOYFRIEND MADE YOU COME HEREUser: He says I’m depressed much of the timeELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSEDsentence=re.sub("I’m","YOU ARE", sentence)...sentence=re.sub(".* YOU ARE (depressed|sad) .*","I'M SORRY TO HEAR YOU ARE \\1",sentence)sentence=re.sub(".* all .*","IN WHAT WAY?",sentence)sentence=re.sub(".* always .*","CAN YOU THINK OF A SPECIFIC EXAMPLE?",sentence)Обработка текстовКонечные автоматы• Finite-state automation (FSA)• Один из важнейших инструментов дляобработки текстов• Могут быть использованы для реализациирегулярных выраженийконечныеавтоматырегулярныеязыкирегулярныеграмматикирегулярныевыраженияОбработка текстовИспользование КА дляраспознавания языка• Научимся говорить с овцами–бээ!–бэээ!–бээээ!–бэээээ!–...• RE: “бээ+!”эбq0эq1эq2!q3q4Обработка текстовПредставление автоматов• Текст: лента с ячейкамиq0эбэ!б• Таблица переходов между состояниямиСостояние01234Входбэ!12334Обработка текстовФормальное определениеQ = q0 q1 q2 .

. . qN1конечное множество из N состоянийконечный входной алфавитq0начальное состояниеFмножество конечных состояний(q, i) : Q⇥Qфункция перехода или матрицаперехода между состояниямиОбработка текстовАлгоритм распознавания длядетерминированного КА#encoding=CP1251def recognize(tape, machine, acceptStates):index = 0 # Beginning of tape0currentState = 0 # Initial state of machinewhile True:1if index == len(tape):2if currentState in acceptStates:return True3else:4return Falseelif machine[currentState].has_key(tape[index]):currentState = machine[currentState][tape[index]]index+=1else:return FalseВходб1э!233machineSheep = {0:{"б":1}, 1:{"э":2}, 2:{"э":3}, 3:{"э":3,"!":4}, 4:{}}print(recognize(“бээээээ!",machineSheep, [4]))4Обработка текстовФормальные языкиэбq0эq1эq2!q3q4• формальный язык — это множествоконечных слов (строк, цепочек) надконечным алфавитом= {a, b, !}L(m) = {baa!, baaa!, baaaa!, .

Характеристики

Тип файла
PDF-файл
Размер
18,26 Mb
Тип материала
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее