Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

PDF-файл М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов Искусственный интеллект (53163): Книга - 7 семестрМ.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов: Искусственный интел2019-09-18СтудИзба

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Михаил Георгиевич МальковскийТатьяна Юрьевна ГрациановаИрина Николаевна ПоляковаПрикладное программное обеспечение:системы автоматической обработки текстов1. Сферы применения систем автоматической обработки текстовСистемы автоматической обработки текста (т.е. переработки одного вида текстав памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации)можно классифицировать следующим образом:Язык входного текстаЯзык выходного текста1Естественный-1Естественный-22ИскусственныйЕстественный3ЕстественныйИскусственный / Естественный4ЕстественныйЕстественный + ИскусственныйК системам первого типа относятся программы машинного перевода, получающиетекст на некотором естественном языке и перерабатывающие его в текст на другоместественном языке.

Второй тип - системы генерации (синтеза) текстов по некоторомуформальному описанию. Системы третьего типа, наоборот, перерабатывают текст наестественном языке в текст на искусственном (индексирование, извлечение смысловогосодержания) или в другой текст на естественном языке (реферирование). К последнемуклассу отнесем программы, занимающиеся проверкой текста, написанного на естественномязыке. Они в результате своей работы либо исправляют входной текст автоматически, либоформируют некоторый протокол замечаний.Естественный язык - сложная, многоплановая система, с множеством правил,внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точностьи правильность работы программ определяется глубиной анализа.

Достаточно глубокийанализ пока достигается только для определенных узких предметных областей (из-заспецифичности подъязыка такой области: в каждой области свои термины, специфическиесемантические отношения и т.п.).Для создания систем, работающих со всем естественным языком без потери глубиныанализа, в настоящий момент не хватает либо технических возможностей (быстродействия,памяти), либо теоретической базы (например, пока нет даже единой схемы достаточнополного, глубокого и непротиворечивого описания семантики естественного языка). Однаков коммерческих системах, ввиду того, что предназначаются они для большого количествапользователей, разных предметных областей, принята концепция поверхностного анализа, ктому же и производится такой анализ значительно быстрее.

Дальнейшее продвижениевперед, использование естественного языка в практических областях невозможно безоснащения этих систем обширными и глубокими (с точки зрения охвата различных явленийязыка) описаниями и моделями, созданными лингвистами-профессионалами.Эта тенденция прогнозируется многими исследователями и прослеживается на примереразвития АОТ-систем, уже в наши дни представляющих коммерческий интерес ииспользующихся при решении следующих прикладных задач:1. Machine Translation and Translation Aids - машинный перевод;2. Text Generation - генерация текста;3.

Localization and Internationalization - локализация и интернационализация;4. Controlled Language - работа на ограниченном языке;5. Word Processing and Spelling Correction - создание текстовых документов (ввод,редактирование, исправление ошибок)6. Information Retrieval - информационный поиск и связанные с ним задачи.Отметим, что это деление несколько условное, и в реальных системах частовстречается объединение функций.

Так, для машинного перевода требуется генерациятекста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы ит.д.1.1. Машинный переводИсторически машинный переводявляется первой попыткой использованиякомпьютеров для решения невычислительных задач (знаменитый Джорджтаунскийэксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954г.).

Развитие электронной техники, рост объема памяти и производительности компьютеровсоздавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых иадминистраторов. Практическая цель была простой: загрузить в память компьютерамаксимально возможный словарь и с его помощью из иноязычных текстов получать текст народном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, чтостоль трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи сабсолютной непригодностью получаемых текстов. Приведем в качестве примера результатыработы одной из современных коммерческих систем перевода. Предложим ей перевестинародное английское стихотворение, известное нам в переводе "Робин-Бобин" (текст этоточень простой, московские дети изучают его в начальной школе):Robin, Robin, what a man!He eats as much as no one can.He ate a lot of fish, he ate a lot of meat.He ate a lot of ice-cream and a sweet.He ate a lot of porridge and ten eggsAnd all the cookies Mother had.He drank a lot of juice, he ate a cakeThen said: "I have a stomach-ache"Малиновка, Малиновка, какой человек!Он ест насколько никто не может.Он съел много рыб, он съел много мяс.Он съел много ледяных-сливки и сладкий.Он съел много каша и десять яйцоИ вся Мать повары имела.Он пил много соков, он съел тортЗатем сказал: "У меня есть желудок- боль"Сравним с художественным переводом К.Чуковского:Робин Бобин БарабекСкушал сорок человек.И корову, и быка,И кривого мясника,И телегу, и дугу,И метлу, и кочергу.Скушал церковь, скушал дом,И кузницу с кузнецом,А потом и говорит:– У меня живот болит!Следующий пример показывает неустойчивость системы машинного перевода приобработке неоднозначностей.

Два предложения по отдельности "Flyer flies ." и "Flyers fly. "переводятся "Летчик летает ." и "Летчики летают. ", если же из тех же словосочетанийсоставить одно предложение "Flyer flies and flyers fly " получаем "Летчик летает и мухалетчиков. ".Конечно, системы, настроенные на определенную предметную область, дают гораздоболее приемлемые результаты. Однако в этом случае системы перевода получаются оченьузко ориентированными, и попытка использовать их даже в смежных предметных областяхдает совершенно непредсказуемые результаты. Подобные эксперименты дажераспространенысредилюбителейпошутить:инструкцияпоэксплуатацииманипулятора-мыши, переведенная с английского языка на русский системойавтоматического перевода, использующей специализированный медицинский словарь,превращается в описание всевозможных издевательств над несчастным маленькимгрызуном.Возникают эти проблемы из-за принципиально разных подходов к переводу человека имашины.

Квалифицированный переводчик понимает смысл текста и пересказывает его надругом языке словами и стилем, максимально близкими к оригиналу. Для компьютера этотпуть выливается в решение двух задач: 1) перевод текста в некоторое внутреннеесемантическое представление и 2) генерация по этому представлению текста на другомязыке.

Поскольку не только не решена сама по себе ни одна из этих задач, а нет дажеобщепринятой концепции семантического представления текстов, при автоматическомпереводе приходится фактически делать "подстрочник", заменяя по отдельности словаодного языка на слова другого и пытаясь после этого придать получившемуся предложениюнекоторую синтаксическую согласованность. Смысл при этом может быть искажен илибезвозвратно утерян.Более реалистичными являются попытки создать системы автоматизированногоперевода- программы, которые не берут на себя полностью весь перевод, а лишьпомогают человеку-переводчику справиться с некоторыми трудностями (Computer AidedTranslation).

Одним из примеров таких систем является Eurolang Optimizer. Его можнорассматриватькакнечтопереходноемеждукомпьютернымсловаремипрограммой-переводчиком, как некий набор предметно-ориентированных глоссариев,снабженный интерфейсом для удобства переводчика: предлагается несколько вариантовперевода, выделенные разными цветами в зависимости от условий применимости;переводчик может с помощью меню определенным образом настраивать словари для болеебыстрого и правильного выбора нужного эквивалента.Подобные программные средства могут помочь в решении проблем, связанных стерминологией и вообще со знаниями переводчика о предметной области: одни и те же словамогут по-разному переводиться в зависимости от того, о каком предмете идет речь.Автоматически может быть решена проблема согласованности.

Понятно, чтосогласованность важна в рамках одного документа: один и тот же термин, даже если его безпотери смысла можно перевести несколькими словосочетаниями, должен переводитьсяодинаково на протяжении всего документа. Однако еще более важной являетсясогласованность в широком смысле - разработка и применение единой концепцииинтерпретации одного и того же термина на разных языках (скажем, американскийразработчик программного обеспечения может быть недоволен, что термин dialog boxпереводится на итальянский как finestra(окно) и как boite(коробка, ящик) нафранцузский). Ошибки, возникающие вследствие нарушения согласованности, являютсясерьезной проблемой, так как, имея только текст-результат перевода, уже невозможноустановить, какие термины в оригинале были одинаковыми, а теперь переведены по-разному(в отличие от орфографических ошибок, которые исправить никогда не поздно).В последнее время также появляются автоматизированные системы "доперевода" или"перевода изменений".

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5138
Авторов
на СтудИзбе
443
Средний доход
с одного платного файла
Обучение Подробнее