47763 (Обзор методов обработки естественного языка в задачах дистанционного обучения)

2016-07-31СтудИзба

Описание файла

Документ из архива "Обзор методов обработки естественного языка в задачах дистанционного обучения", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "47763"

Текст из документа "47763"

Обзор методов обработки естественного языка в задачах дистанционного обучения.

Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет со стремительно увеличивающейся скоростью. Человек во многих случаях становится не в состоянии самостоятельно переработать всю необходимую для его профессиональной деятельности информацию. И тогда компьютерные системы, использующие новейшие алгоритмы обработки естественного языка, могут оказать ему реальную помощь.

В последнее время компьютеры стали активно внедряться в систему образования /1,2,3/. Создано огромное количество программных продуктов, направленных на обучение различного рода предметам. Если раньше дисциплины, изучаемые с помощью компьютерных программ относились в основном к техническим, то теперь компьютер широко используется и при подготовке специалистов по гуманитарным предметам, ведущую роль среди которых, бесспорно, занимают иностранные языки. Повышение интереса к иностранным языкам, и в особенности к английскому, за последние несколько лет легко объясняется изменениями политического и экономического характера, и как следствие, возрастанием роли знания иностранного языка.

Потребности нашего общества в компьютеризации обучения языку сегодня резко возросли в связи со следующими факторами:

  • невозможность прохождения специальных языковых курсов без отрыва от основной работы;

  • постоянный рост оснащенности персональными компьютерами населения России;

  • ориентация учащейся молодежи на ЭВМ как на главное средство автоматизации интеллектуального труда;

  • острый дефицит кадров педагогов языковых дисциплин;

и ряд других.

Стремительное развитие компьютерных и информационных технологий естественным образом отразились и на системе образования. Возможности, которые появились благодаря внедрению передовых сетевых технологий (Internet - технологий) на территории России, послужили поводом для начала серьезных проектов, связанных с новым типом обучения - дистанционным обучением (ДО). Под термином ДО понимается обучение, при котором преподаватель и обучаемый разделены пространственно.

Немного об истории и развитии ДО /1/. ДО возникло более века тому назад. Принято различать 4 поколения развития ДО.

Первое поколение ДО начало развиваться в конце 19, в начале 20 века. Самыми распространенными тогда материалами были отпечатанные в типографиях учебники и сборники упражнений к ним. Взаимодействие обучаемого с преподавателем происходило с помощью обычной почтовой связи (обмен письмами).

Второе поколение ДО начало развиваться в 70-е годы. Был создан ряд университетов (в основном в Англии), цель которых была готовить студентов, которые по тем или иным причинам не имели возможности обучаться в очной форме. Учебные материалы давались с использованием местного телевидения и радио или путем пересылки по почте аудио записей курсов. Аудио-конференции с использованием телефонных систем, тоже являются частью второго поколения развития ДО.

Третье поколение ДО (начало 80-х годов) связывают с появлением спутниковых технологий и развитием компьютерной техники. Доставка информации стала возможна с помощью компьютерных сетей в цифровом виде. К третьему поколению развития ДО также относят видеоконференции и использование носителей CD-ROM.

Четвертое поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ у информации. Сделал возможным как синхронное (chat, видео и аудио конференции), так и асинхронное (e-mail) взаимодействие обучаемого с преподавателем. Использование в ДО технологий базирующихся на WEB дает возможность применять во время учебного процесса не только текстовую информацию, но и звук и видео.

Как видно из выше сказанного, основным вопросом в организации ДО является способ доставки и организации учебного материала /1/. Одним из перспективных способов передачи информации при организации ДО является e-mail. За последние годы в различных университетах мира проводилось обучение по экспериментальной методике, особенность которой была в том, что взаимодействие учащихся (студентов 2-ых и 3-их курсов) и преподавателей, либо полностью, либо частично, происходило с помощью e-mail /2/. Курсовые материалы, использованные в экспериментах, были хорошо структурированы и подготовлены для самостоятельного освоения. В результате было показано, что усвоение пройденного материала студентами обучающимися с помощью e-mail, происходит не хуже, а на некоторых курсах лучше студентов, обучающихся традиционно. Так же преподавателями и студентами, участвующими в эксперименте, был отмечен ряд преимуществ такого подхода к обучению /2/.

Преподавателями были отмечены следующие положительные качества этого метода:

  • студент практически не зависит от расписания;

  • доставка и “чтение” материалов курса регистрируется преподавателем (при открытии письма учащимся, автоматически высылается письмо преподавателю);

  • работа с курсом практически не требует бумаги, что обеспечивает удобство работы и быстроту копирования материала;

  • однажды подготовленный курсовой материал может быть использован в последующие годы.

Так же важно отметить ряд преимуществ использования e-mail, которые нашли для себя учащиеся:

  • использование e-mail не требует присутствия на лекциях курса;

  • возможность работы с материалом в удобное для учащихся время;

  • весь курсовой материал хорошо систематизирован и может быть легко воспроизведен в полном объеме самостоятельно даже после окончания обучения.

Все перечисленные выше преимущества только малая часть того, что может дать образованию использование информационных технологий и методов ДО по сравнению с традиционными подходами.

Какие новые возможности позволяет использовать ДО по сравнению с широко известной заочной формой?

  1. Возможность оперативного обмена информации по изучаемой проблеме, как с преподавателем, так и с другими участниками, изучающими курс.

  2. Доступ к различным источникам информации, в том числе удаленным и распределенным базам данных, многочисленным конференциям по всему миру, огромному количеству библиотек.

  3. Возможность организации совместных международных конференций по изучаемой проблеме, возможность запроса и получение ответа на интересующие вопросы через электронные конференции.

  4. Возможность обучения в престижных зарубежных вузах, не покидая родного дома.

Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:

  • организация знаний о языке в виде целостной модели;

  • представление этой модели на ЭВМ в доступной для учащегося форме;

  • использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;

  • обеспечение контроля знаний учащегося при помощи ЭВМ;

  • обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;

  • обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;

  • обеспечение платформенной независимости системы;

  • обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;

  • обеспечение связи с преподавателем.

В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.

Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили — как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.

Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.

Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:

  • программа распознавания речи ATIS;

  • программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);

  • программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.

Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.

Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.

Задача лексико-грамматического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.

The/AT man/NN still/RB saw/VBD her/PPO./.

Обозначения

RB - наречие
AT - опр. артикль
NN - существительное
VB – глагол

VBD – глагол в прошедшем времени

PPO – объектное местоимение
PP$ - личное местоимение
. - точка

Рис.1

Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.

Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:

1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):

Словоформа

Часть речи

Частота

Well

существительное

4

Well

наречие

1567

Well

прилагательное

6

Well

междометие

1

Рис.2

2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов (рис.3):

Последовательность

Частота

неопр.артикль + сущ.ед.ч

35983

неопр.артикль + сущ.мн.ч

7494

Опр.артикль + сущ.ед.ч

13838

неопр.артикль + сущ.мн.ч

47

Рис.3

В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-х кодов.

Рассмотрим подробнее пример разбора предложения, представленного на рис.1. Прежде всего, определяются все возможные значения частей речи, входящих в предложение, словоформ. Так словоформа “The” может быть только AT; “man” - NN или VB; “still” - NN, VB или RB; “saw” - NN или VBD; “her”-PPO или PP$. Далее воспользовавшись таблицей частотности, присваиваем словоформам тот или иной лексико-грамматический класс. Пример таблицы частотности для нашего предложения приведен на рис. 4.

NN

PPO

PP$

RB

VB

VBD

.

AT

186

0

0

8

1

8

9

NN

4

1

3

40

9

66

186

PPO

7

3

16

164

109

16

313

PP$

176

0

0

5

1

1

2

RB

5

3

16

164

109

16

313

VB

22

694

146

98

9

1

59

VBD

11

584

143

160

2

1

91

Рис.4

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее