Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 2

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "книги и методические указания". Всё это находится в предмете "искусственный интеллект" из седьмого семестра, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

Их возникновение связано с тем, что большинство техническихтекстов (описания, инструкции) не являются целиком новыми (как и явления, продукты,механизмы и т.п., ими описываемые), а содержат в себе лишь некоторые изменения,связанные, например, с усовершенствованием конструкции.

Система "доперевода" извлекаетиз памяти знакомые предложения, а новые куски предлагает переводчику. Заметим, чтотакой человеко-машинный способ генерации новых текстов также помогает согласованностив стиле и терминологии при переходе от одной версии к другой.Развитием систем подобного вида можно считать канадскую (Канада - двуязычнаястрана, постоянно сталкивающаяся с проблемой перевода на государственном уровне)систему генерации прогнозов погоды Forecast Generator (FOG). Можно считать, что в нейперевод полностью заменен генерацией текстов. В памяти системы хранится 20 миллионовслов и словосочетаний, связанных с прогнозами погоды, что позволяет генерировать каканглийский, так и французский вариант непосредственно из базы данных.

Конечно,успешная работа этой системы в значительной мере объясняется ограниченной природойтекстов: сообщения о погоде являются классическим примером подъязыка. Ограниченностьсловаря, грамматики и семантики дает возможность достичь отличных результатовсравнительно простыми методами.1.2. Генерация текстаС необходимостью генерации хотя бы простейших фраз разработчики практическихсистем столкнулись еще на заре их создания. Даже в столь примитивно организованной (вплане дружественности пользовательского интерфейса) среде, как DOS, при попыткесгенерировать стандартное сообщение о количестве скопированных файлов мы сталкиваемсяс проблемой построения фразы: в зависимости от этого количества необходимо использоватьразные слова (в английской версии file в случае одного файла и files , если больше; врусской - и того хуже: могут встретиться варианты файл , файла и файлов , причем правила,в каком случае какой из них использовать, достаточно сложны).По степени сложности и выразительности существующие методы генерациисообщений принято подразделять на 4 класса (часто используются комбинации методов).Рассмотрим их на примере генерации сообщений о копировании файлов.1) Canned-based methodsНеизменяющийся шаблон - просто печать строки символов без каких-либо изменений.Для генерации сообщений создаются таблицы шаблонов, которые будут выдаваться взависимости от ситуации.

В нашем варианте при копировании одного файла будетнапечатана первая строка таблицы:1 file copied,а в случае, например, трех - третья:3 files copied2) Template-based methodsИзменяющийся шаблон - бесконтекстная вставка слов в образец-строку (именно этотметод используется в MS-DOS):Шаблон: ‹Число› file(s) copiedможет быть использован для генерации сообщений:0 file(s) copied,1 file(s) copied,2 file(s) copied3) Phrase-based methodsКонтекстная вставка.В зависимости от вида сообщения (контекста) шаблон может быть несколько изменен.Скажем, система может распознавать, с каким окончанием писать слово file в зависимостиот их количества.Шаблон: ‹Число› ‹Определение› ‹file/files при =1, ›1›‹Глагол: время - прош.›может использоваться для генерации сообщений:1 file copied,2 marked files copied,2 marked files deleted4) Feature-based methodsСинтез сообщения на основе набора свойств (грамматических признаков).Это наиболее сложный метод, он требует привлечения обширных лингвистическихзнаний, но, в то же время, он и наиболее привлекателен.

Предложение определяется наборомхарактеристик составляющих его слов (например, наличие/отсутствие отрицания,настоящее/прошедшее время) и правилами их сочетаемости.Шаблон: ‹Число› ‹Определение› ‹file/files при =1, ›1›‹Глагол: время - любое›позволяет генерировать сообщения:1 file should be copied,1 file was copied,2 marked files were copiedПонятно, что генерация логически связных, целостных текстов является гораздо болеесложной задачей: к правилам построения предложений добавляются правила ихсочетаемости, правила развития сюжета, соблюдения стиля и т.п. Ввиду невозможности ихполной формализации задачу генерации полноценных художественных текстов можносчитать на настоящий момент неразрешимой.

Однако для некоторых специализированныхтехнических текстов эти правила строго оговорены некоторыми стандартами,немногочисленны и поэтому поддаются формализации. Примером таких текстов могутслужить различные инструкции, техническая документация, тем более задача ееавтоматической генерации давно назрела.На Западе уже давно разработка документации превратилась в особую подотрасльразработки любых достаточно сложных систем (в том числе программного обеспечения).Сопроводительная техническая документация весьма разнообразна: руководствопользователя, руководство для менеджера (администратора) системы, руководство помонтажу (инсталляции) и первичному запуску, руководство по эксплуатации, руководство поинтегрированию системы с другими устройствами (программами), проектные материалы ит.д. Однако часто пользователь не получает своевременно и в полном объеме необходимыйему материал, соответствующий используемой им версии системы.

Это можно объяснитьдвумя причинами. Во-первых (субъективная причина), подготовка документации - этодополнительная работа, требующая дополнительного времени и дополнительных навыков(разработчику трудно изложить требуемое на понятном рядовому пользователю языке,остальным же надо сначала детально изучить систему). Во-вторых (объективная причина),документация устаревает по ходу модернизации системы.Поиски решения этих проблем привели в свое время к появлению новой профессии"технического писателя". Однако понятно, что привлечение дополнительных работниковведет к удорожанию продукта. Поэтому в последние годы появились практические системы,осуществляющие помощь в разработке документации, вплоть до ее автоматическойгенерации. Форма и содержание документации часто выбирается не столько из соображенийудобства и полезности для пользователя, сколько из соображений простоты ее создания.Документация, как правило, содержит графическую и текстовую части.

Графическуючасть проще сформировать, однако без текстовой не обойтись: в ней описывается семантикапродукта (назначение, технические данные, ограничения, детализация работы в разныхрежимах). Очевидно, что качественная система должна генерировать текст, правильный сточки зрения грамматики и синтаксиса естественного языка.

Поскольку предметная областьточно определена, а техническая документация составляется по определенным строгозаданным правилам, степень формализации в постановке данной задачи существенно выше,чем в задаче машинного перевода, что позволяет надеяться на более высокие результаты.1.3. Локализация и интернационализацияДля того чтобы иметь успех на международном рынке, программные продукты должныбыть локализованы, т.е. приспособлены к культурным и языковым нормам потенциальныхпокупателей.Для многих программных приложений локализация может быть сравнительно простой,когда основная программа (алгоритм) изменяется незначительно.

Конечно, опции меню,сообщения об ошибках, экранные подсказки и другие текстовые строки, вставленные впрограмму, должны переводиться, но это не создает особых проблем, если при разработкеприложения была предусмотрена возможность локализации. Для решения этой задачипрограммный код и текст должны быть разделены. По установленному стандарту текстовыестроки оформляются в отдельном файле, вызываемом из программы. Таким способомтекстовые строки можно переводить, не затрагивая исходный код.Подобные принципы облегчения локализации возможны не для всех приложений.Системы, в которых естественный язык используется не только для формированиясообщений на экране, но и является предметом деятельности самой системы (например,программы-автокорректоры), поддаются локализации с большим трудом.

Здесь могутпотребоваться большие специализированные словари и полная переработка алгоритмов.Часто эта задача настолько сложна, что разработчик ею заниматься не может, и проблемалокализации приложений является заботой пользователя-носителя языка.В идеале для нашего многоязычного мира программные средства должны бытьинтернациональными; пользователь, купив версию программы для некоторого языка, недолжен покупать другую версию для другого.

Назрела необходимость иметь программныесредства, позволяющие автоматически настраивать приложение на заданный язык. Пока мыдовольно далеки от этой цели, но работы в этой области ведутся с большой интенсивностью,особенно в Европе, где в связи с образованием Европейского Союза возникаетнеобходимость вести дела и документацию на всех официальных и некотором количественеофициальных языков.1.4. Работа на ограниченном языкеОдним из способов разрешения проблем, связанных с обработкой естественного языка,является упрощение и некоторая формализация самих текстов: использование ограниченногоязыка (подмножества языка).

Под ограниченным понимается упрощенный язык,использующий ограниченный словарь, грамматику, строго определенные несложныесинтаксические конструкции. Обычно в нем запрещаются длинные предложения, длинныецепочки существительных (типа "решение проблемы разработки систем перевода на базепредставления текста в виде последовательности предложений ..."), не используютсяпассивные и негативные конструкции, вводятся строгие правила использования терминов.Тексты должны соответствовать одному из стандартных стилей или даже быть составленыпо определенному шаблону, принятому в данной предметной области для документовподобного рода.Эти правила не являются современным изобретением: именно их обычно применяютпри написании технической документации. Достаточно "древним" примером ограниченногоязыка является "Бэйсик Инглиш", введенный англичанами для общения с туземнымнаселением в колониях.

Неожиданно он оказался полезен и для общения самих туземцевдруг с другом: колонизация ввела в их быт множество предметов и понятий, просто неимеющих названий в их родных языках. Забавно, что через много лет при "колонизации"Европы и всего мира англоязычными техническими средствами используются практическите же методы. Например, все специалисты в области компьютерной техники пользуютсяанглийскими терминами (файл , принтер и т.д.), не пытаясь подыскать эквивалент народном языке, и мы по-русски говорим word для windows , а не слово для окон .Применение ограниченного языка делает документ более понятным, удобным длявосприятия, он становится легче для переводчиков, поскольку дает меньше возможностейдля неоднозначного толкования: такой документ легче составить автору, не являющемусяносителем языка документа.

Свежие статьи
Популярно сейчас