Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 2

PDF-файл М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 2 Искусственный интеллект (53163): Книга - 7 семестрМ.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов: Искусственный интел2019-09-18СтудИзба

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

Их возникновение связано с тем, что большинство техническихтекстов (описания, инструкции) не являются целиком новыми (как и явления, продукты,механизмы и т.п., ими описываемые), а содержат в себе лишь некоторые изменения,связанные, например, с усовершенствованием конструкции.

Система "доперевода" извлекаетиз памяти знакомые предложения, а новые куски предлагает переводчику. Заметим, чтотакой человеко-машинный способ генерации новых текстов также помогает согласованностив стиле и терминологии при переходе от одной версии к другой.Развитием систем подобного вида можно считать канадскую (Канада - двуязычнаястрана, постоянно сталкивающаяся с проблемой перевода на государственном уровне)систему генерации прогнозов погоды Forecast Generator (FOG). Можно считать, что в нейперевод полностью заменен генерацией текстов. В памяти системы хранится 20 миллионовслов и словосочетаний, связанных с прогнозами погоды, что позволяет генерировать каканглийский, так и французский вариант непосредственно из базы данных.

Конечно,успешная работа этой системы в значительной мере объясняется ограниченной природойтекстов: сообщения о погоде являются классическим примером подъязыка. Ограниченностьсловаря, грамматики и семантики дает возможность достичь отличных результатовсравнительно простыми методами.1.2. Генерация текстаС необходимостью генерации хотя бы простейших фраз разработчики практическихсистем столкнулись еще на заре их создания. Даже в столь примитивно организованной (вплане дружественности пользовательского интерфейса) среде, как DOS, при попыткесгенерировать стандартное сообщение о количестве скопированных файлов мы сталкиваемсяс проблемой построения фразы: в зависимости от этого количества необходимо использоватьразные слова (в английской версии file в случае одного файла и files , если больше; врусской - и того хуже: могут встретиться варианты файл , файла и файлов , причем правила,в каком случае какой из них использовать, достаточно сложны).По степени сложности и выразительности существующие методы генерациисообщений принято подразделять на 4 класса (часто используются комбинации методов).Рассмотрим их на примере генерации сообщений о копировании файлов.1) Canned-based methodsНеизменяющийся шаблон - просто печать строки символов без каких-либо изменений.Для генерации сообщений создаются таблицы шаблонов, которые будут выдаваться взависимости от ситуации.

В нашем варианте при копировании одного файла будетнапечатана первая строка таблицы:1 file copied,а в случае, например, трех - третья:3 files copied2) Template-based methodsИзменяющийся шаблон - бесконтекстная вставка слов в образец-строку (именно этотметод используется в MS-DOS):Шаблон: ‹Число› file(s) copiedможет быть использован для генерации сообщений:0 file(s) copied,1 file(s) copied,2 file(s) copied3) Phrase-based methodsКонтекстная вставка.В зависимости от вида сообщения (контекста) шаблон может быть несколько изменен.Скажем, система может распознавать, с каким окончанием писать слово file в зависимостиот их количества.Шаблон: ‹Число› ‹Определение› ‹file/files при =1, ›1›‹Глагол: время - прош.›может использоваться для генерации сообщений:1 file copied,2 marked files copied,2 marked files deleted4) Feature-based methodsСинтез сообщения на основе набора свойств (грамматических признаков).Это наиболее сложный метод, он требует привлечения обширных лингвистическихзнаний, но, в то же время, он и наиболее привлекателен.

Предложение определяется наборомхарактеристик составляющих его слов (например, наличие/отсутствие отрицания,настоящее/прошедшее время) и правилами их сочетаемости.Шаблон: ‹Число› ‹Определение› ‹file/files при =1, ›1›‹Глагол: время - любое›позволяет генерировать сообщения:1 file should be copied,1 file was copied,2 marked files were copiedПонятно, что генерация логически связных, целостных текстов является гораздо болеесложной задачей: к правилам построения предложений добавляются правила ихсочетаемости, правила развития сюжета, соблюдения стиля и т.п. Ввиду невозможности ихполной формализации задачу генерации полноценных художественных текстов можносчитать на настоящий момент неразрешимой.

Однако для некоторых специализированныхтехнических текстов эти правила строго оговорены некоторыми стандартами,немногочисленны и поэтому поддаются формализации. Примером таких текстов могутслужить различные инструкции, техническая документация, тем более задача ееавтоматической генерации давно назрела.На Западе уже давно разработка документации превратилась в особую подотрасльразработки любых достаточно сложных систем (в том числе программного обеспечения).Сопроводительная техническая документация весьма разнообразна: руководствопользователя, руководство для менеджера (администратора) системы, руководство помонтажу (инсталляции) и первичному запуску, руководство по эксплуатации, руководство поинтегрированию системы с другими устройствами (программами), проектные материалы ит.д. Однако часто пользователь не получает своевременно и в полном объеме необходимыйему материал, соответствующий используемой им версии системы.

Это можно объяснитьдвумя причинами. Во-первых (субъективная причина), подготовка документации - этодополнительная работа, требующая дополнительного времени и дополнительных навыков(разработчику трудно изложить требуемое на понятном рядовому пользователю языке,остальным же надо сначала детально изучить систему). Во-вторых (объективная причина),документация устаревает по ходу модернизации системы.Поиски решения этих проблем привели в свое время к появлению новой профессии"технического писателя". Однако понятно, что привлечение дополнительных работниковведет к удорожанию продукта. Поэтому в последние годы появились практические системы,осуществляющие помощь в разработке документации, вплоть до ее автоматическойгенерации. Форма и содержание документации часто выбирается не столько из соображенийудобства и полезности для пользователя, сколько из соображений простоты ее создания.Документация, как правило, содержит графическую и текстовую части.

Графическуючасть проще сформировать, однако без текстовой не обойтись: в ней описывается семантикапродукта (назначение, технические данные, ограничения, детализация работы в разныхрежимах). Очевидно, что качественная система должна генерировать текст, правильный сточки зрения грамматики и синтаксиса естественного языка.

Поскольку предметная областьточно определена, а техническая документация составляется по определенным строгозаданным правилам, степень формализации в постановке данной задачи существенно выше,чем в задаче машинного перевода, что позволяет надеяться на более высокие результаты.1.3. Локализация и интернационализацияДля того чтобы иметь успех на международном рынке, программные продукты должныбыть локализованы, т.е. приспособлены к культурным и языковым нормам потенциальныхпокупателей.Для многих программных приложений локализация может быть сравнительно простой,когда основная программа (алгоритм) изменяется незначительно.

Конечно, опции меню,сообщения об ошибках, экранные подсказки и другие текстовые строки, вставленные впрограмму, должны переводиться, но это не создает особых проблем, если при разработкеприложения была предусмотрена возможность локализации. Для решения этой задачипрограммный код и текст должны быть разделены. По установленному стандарту текстовыестроки оформляются в отдельном файле, вызываемом из программы. Таким способомтекстовые строки можно переводить, не затрагивая исходный код.Подобные принципы облегчения локализации возможны не для всех приложений.Системы, в которых естественный язык используется не только для формированиясообщений на экране, но и является предметом деятельности самой системы (например,программы-автокорректоры), поддаются локализации с большим трудом.

Здесь могутпотребоваться большие специализированные словари и полная переработка алгоритмов.Часто эта задача настолько сложна, что разработчик ею заниматься не может, и проблемалокализации приложений является заботой пользователя-носителя языка.В идеале для нашего многоязычного мира программные средства должны бытьинтернациональными; пользователь, купив версию программы для некоторого языка, недолжен покупать другую версию для другого.

Назрела необходимость иметь программныесредства, позволяющие автоматически настраивать приложение на заданный язык. Пока мыдовольно далеки от этой цели, но работы в этой области ведутся с большой интенсивностью,особенно в Европе, где в связи с образованием Европейского Союза возникаетнеобходимость вести дела и документацию на всех официальных и некотором количественеофициальных языков.1.4. Работа на ограниченном языкеОдним из способов разрешения проблем, связанных с обработкой естественного языка,является упрощение и некоторая формализация самих текстов: использование ограниченногоязыка (подмножества языка).

Под ограниченным понимается упрощенный язык,использующий ограниченный словарь, грамматику, строго определенные несложныесинтаксические конструкции. Обычно в нем запрещаются длинные предложения, длинныецепочки существительных (типа "решение проблемы разработки систем перевода на базепредставления текста в виде последовательности предложений ..."), не используютсяпассивные и негативные конструкции, вводятся строгие правила использования терминов.Тексты должны соответствовать одному из стандартных стилей или даже быть составленыпо определенному шаблону, принятому в данной предметной области для документовподобного рода.Эти правила не являются современным изобретением: именно их обычно применяютпри написании технической документации. Достаточно "древним" примером ограниченногоязыка является "Бэйсик Инглиш", введенный англичанами для общения с туземнымнаселением в колониях.

Неожиданно он оказался полезен и для общения самих туземцевдруг с другом: колонизация ввела в их быт множество предметов и понятий, просто неимеющих названий в их родных языках. Забавно, что через много лет при "колонизации"Европы и всего мира англоязычными техническими средствами используются практическите же методы. Например, все специалисты в области компьютерной техники пользуютсяанглийскими терминами (файл , принтер и т.д.), не пытаясь подыскать эквивалент народном языке, и мы по-русски говорим word для windows , а не слово для окон .Применение ограниченного языка делает документ более понятным, удобным длявосприятия, он становится легче для переводчиков, поскольку дает меньше возможностейдля неоднозначного толкования: такой документ легче составить автору, не являющемусяносителем языка документа.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5138
Авторов
на СтудИзбе
442
Средний доход
с одного платного файла
Обучение Подробнее