19383 (Автоматизація реферування), страница 6

2016-07-30СтудИзба

Описание файла

Документ из архива "Автоматизація реферування", который расположен в категории "". Всё это находится в предмете "бухгалтерский учет" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "курсовые/домашние работы", в предмете "бухгалтерский учет и аудит" в общих файлах.

Онлайн просмотр документа "19383"

Текст 6 страницы из документа "19383"

У попередньому роздiлi ми проiлюстрували принцип прямої перевiрки лiнгвiстичної гiпотези. Проте виявляється, що застосування цього засобу до деяких лiнгвiстичних об’єктiв є неефективним, не дозволяючи одержати надiйну оцiнку сформульованої гiпотези. Це має мiсце у тих випадках, коли моделюємий лiнгвiстичний об’єкт погано пiддається безпосередньому спостереженню. Важливо пiдкреслити, що неможливiсть прямого спостереження об’єкту, що моделюється, неминучо призводить до суб’єктивностi в описi цього об’єкту. Так, наприклад, вiдома гiпотеза про можливiсть подання значення слова у виглядi сукупностi “елементарних смислiв” потребує саме непрямої перевiрки, яка дозволила б об’єктивно оцiнити правильнiсть такого подання. Проiлюструємо тепер метод непрямої перевiрки на прикладi гiпотези про мiжфразову синтаксичну структуру англiйських текстiв iнформацiйних повiдомлень. Газетне iнформацiйне повiдомлення - це, як правило, текст довжиною вiд 3 до 20 речень, типовий для сучасної англiйської газети (пор. тексти повiдомлень VWD, гл.2). Гiпотеза про його гiперсинтаксичну структуру була сформулювана нами в такому виглядi: 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. 2) Елементами цiєї структури є: а) речення (нижчий рiвень); б) маркованi, тобто такi, що мають спецiальний вислiв у виглядi конекторiв, мiжфразовi одиницi, якi ми назвали поверхньо-синтаксичними мiжфразовими одиницями - ПМО. 3) До складу ПМО входять: одне автосемантичне, а також, можливо, декiлька синсемантичних речень. 4) Перше, автосемантичне, речення ПМО є “головним” для всiєї одиницi, тобто мiстить головну iнформацiю даної ПМО, являючись свого роду “анотацiєю” ПМО. 5) Перше речення в ланцюжку автосемантичних речень є головним, тобто несе те ж навантаження, що й перше речення ПМО. 6) Кiлькiсть головних речень тексту складає не бiльше 25% всiх речень цього тексту. 7) З головних речень може бути складений такий новий текст, що утворить гiперсинтаксичну структуру. Цю гiпотезу покладено в основу системи автоматичного квазiреферування текстiв англiйських iнформацiйних повiдомлень, побудовану на тих же принципах, що й описана вище система квазiреферування наукових статей. Систему було реалiзовано у виглядi пiдсистеми багатофункцiональної IС, розробленої в ЛГПI iм. А.I.Герцена пiд керiвництвом Л.Н.Беляєвої [Чижаковський, Беляєва, 1983]. Для перевiрки зазначеної гiпотези була побудована формальна модель мiжфразової структури тексту, що використовує апарат конекторiв i квазiконекторiв. На пiдставi даного апарату було розроблено подiбну описанiй вище систему квазiреферування, що витягає зi вхiдного тексту головне речення i формує квазiреферати двох типiв: зi вказiвкою смислових класiв вилучених речень - РР1; без вказiвки цих класiв - РР0. Речення вважається головним, якщо не мiстить конекторiв i квазiконекторiв i є першим у ПМО або в ланцюжку автосемантичних речень. Система використовує морфологiчний i гiперсинтаксичний засоби “розумiння” тексту. Перевiрка гiпотези здiйснювалася на масивi 17 довiльно вiдiбраних газетних повiдомлень. Були введенi такi якiснi характеристики квазiрефератiв: а) повнота передачi основного змiсту документу; б) точнiсть - вiдсутнiсть у квазiрефератi речень, надлишкових для передачi основного змiсту документу; в) зв’язнiсть (у звичайному розумiннi цього слова). Були також введенi такi кiлькiснi оцiнки кожної з перелiчених характеристик квазiрефератiв: 1 - дуже погано 2 - погано 3 - задовiльно 4 - добре 5 - вiдмiнно. Квазiреферати оцiнювалися автором цiєї книги, тобто людиною, яка знає англiйську мову, але не обiзнана зi змiстом тексту, що реферується. Оцiнки виставлялися виключно з точки зору майбутнього користувача системи, в припущеннi, що квазiреферат в iдеалi повинен мати статут самостiйного документу, тобто давати користувачевi чiтке уявлення про тему вхiдного документу, iнформувати про його основний змiст, але не мiстити при цьому надлишкової iнформацiї, вiдрiзняючись тим самим вiд повного документу. Документи, що опрацьовувалися, були подiленi нами на два класи: (а) якi пiддаються iнтелектуальному реферуванню i (б) якi не пiддаються iнтелектуальному реферуванню (наприклад, перелiки спортивних результатiв).

Обсяг одержаних квазiрефератiв - вiд 1 до 3 речень; у двох випадках обсяг склав 4 речення: це були документи, котрi не пiдлягають iнтелектуальному реферуванню. Отже, експеримент дозволив зробити такi висновки. По-перше, було встановлено, що сфоромульована гiпотеза не вiдноситься до невеликої частини текстiв iнформацiйних повiдомлень, якi не пiддаються iнтелектуальному реферуванню. По-друге, на матерiалi бiльшої частини текстiв були перевiренi всi 7 пунктiв гiпотези про гiперсинтаксичну структуру текстiв iнформацiйних повiдомлень. 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. Це припущення пiдтверджується тим, що система видiлила в текстах реально iснуючi в них мiжфразовi зв’язки, що задовольняють усiм умовам синтаксичного мiжфразового зв’язку; саме цi вiдносини об’єднують текст повiдомлення в єдине цiле. 2,3) Речення цiєї гiперсинтаксичної структури об’єднуються в ПМО. Це припущення пiдтверджується чергуванням у текстi повiдомлення автосемантичних i синсемантичних речень. 4,5) Припущення про те, що автосемантичнi речення є справдi головними, оцiнюється так. Той факт, що 12 з 14 квазiрефератiв (Табл. 4.1) мають вiдмiнну чи хорошу повноту, свiдчить про те, що в 85% текстiв речення, котрi ми назвали головними, справдi мiстять основну iнформацiю, закладену у вхiдних текстах. Крiм того, одержанi квазiреферати мiстять мало надлишкової iнформацiї, а її наявнiсть викликана в основному помилками, не пов’язаними з якiстю нашої моделi. Таким чином, включенi в квазiреферат речення мiстять, як правило, основну iнформацiю вхiдного тексту, тобто вiдповiдають визначенню головного речення. 6) Кiлькiсть головних речень, як правило, складає не бiльше 25% всiх речень цього тексту (див. Табл. 4.1): коефiцiент стиску менше 4 одержаний тiльки для дуже коротких текстiв. 7) Припущення про те, що з головних речень може бути складений новий текст, що має власну гiперсинтаксичну структуру, частково спростовується результатами експерименту: 5 квазiрефератiв з 14 (кожний третiй) одержали низьку оцiнку по параметру “зв’язнiсть”, тобто цi квазiреферати мають вигляд скорiше штучних об’єднань речень, якi вiдносяться до однiєї теми, нiж тексту. З iншого боку, основною причиною цього були зовнiшнi для нашої моделi чинники, тому треба вважати одержаний результат попереднiм i таким, що потребує додаткової перевiрки. На закiнчення визначимо, що реферування росiйських та українських текстiв є дещо складнiшим, головним чином, iз-за вiдсутностi в цих мовах такого важливого показника мiжфразового зв’язку, як визначений артикль, наприклад:

Si-1: В статье анализируются порошки на основе алюминия. Si: Порошки отличаются тем, что...

Для вияву мiжфразового зв’язку в подiбних випадках необхiдно розробити спецiальну процедуру пошуку антецедентiв слiв, не оформлених маркером визначеностi.

3.10 Перспективи

Як уже вiдзначалося, розробка систем зазначеного типу переслiдувала теоретичнi та практичнi цiлi. Досягненню перших будуть сприяти введення в систему великої кiлькостi текстiв i перевiрка гiпотез про розподiл по тексту iстотної iнформацiї та засобах вияву синтаксичних мiжфразових зв’язкiв. Крiм того, великий iнтерес представляє опрацювання типологiї науково-технiчних текстiв на основi аналiзу типiв формально вiдбитих синтаксичних мiжфразових зв’язкiв i їх насиченостi цими зв’язками. Дуже перспективною здається також побудова класифiкацiї поверхньо-синтаксичних мiжфразових одиниць у залежностi вiд їхньої структури. Щодо практичного напрямку, то другим етапом розвитку системи квазiреферування має бути алгоритмiзация встановлення дистантних мiжфразових зв’язкiв для конекторiв усiх класiв, що дозволить реалiзувати систему ешелонованого реферування, iдея якої була запропонована В.Ю. Берзоном [Берзон, Брайловский, 1979]. Наступним етапом пiдвищення розпiзнавальної спроможностi системи є формалiзацiя деяких iмплiцитних зв’язкiв шляхом вияву конекторiв, якi зазнали елипсису. У виглядi ще одного важливого завдання треба розглядати опрацювання програми-диспетчера, що буде визначати тип тексту, що реферується, i вибирати засiб реферування. Актуальнiсть даного завдання визначається тим, що iснують тексти з переважною бiльшiстю iмплiцитних мiжфразових зв’язкiв, якi не пiддаються реферуванню описаним методом. Такими, наприклад, є описи технологiчних процесiв i устаткування. Практичну цiннiсть для абонента системи представляє автоматичне аспектне реферування [Блюменау та iн., 1981; Полонская, 1989] таких текстiв. Не менш важливим завданням треба вважати використання даної системи в єдиному комплексi засобiв автоматичної обробки наукових текстiв: такий шлях представляється єдиним засобом здобутку високої економiчної ефективностi систем реферування будь-якого типу. Нарештi, пiдкреслимо актуальнiсть реалiзацiї методiв автоматичного реферування на персональних комп’ютерах.



Висновки

Отже, ми розглянули деякі теоретичні та прикладні аспекти комп'ютерної лінгвістики. Можливо, наш підхід дещо відрізняється від прийнятого, особливо, в американській практиці, коли комп'ютерна лінгвістика розглядається в основному як частина математичної лінгвістики в розумінні Н. Хомського, а монографiї, присвячені цій проблематиці, насичені структурними схемами речень і умовними символами.

Філософія, запропонована увазі читача даної книги, заснована на прагматичному, якщо завгодно - технологічному погляді на комп'ютерну лінгвістику. Будучи практиком, я намагаюсь будувати таку теорію, яка допомагала б мені та моїм колегам вирішувати конкретні завдання, що виникають при розробці інформаційних систем. Можливо, недоліком такого погляду на проблематику обробки текстів є деяке ігнорування математичного апарату та ідей формальних граматик. У той же час, одержані нами результати у вигляді функціонуючих інформаційних систем свідчать, очевидно, про те, що даний суто гуманітарний підхід має право на життя. Ще раз підкреслюю, що критерієм якості розроблених систем і систем, що створюються, для мене служить виключно погляд кінцевих користувачів, і саме він є стимулом до удосконалення наших продуктів.

Можливо, мої потенційні опоненти можуть закинути мені те, що я віддаю перевагу тривалому, емпiричному "вирощуванню" систем перед апріорною побудовою всеосяжної моделі лінгвістичного об'єкту. На це можна заперечити тільки одне: нам поки що невідомі комерційні, тобто такі, які мають реальну користь для людей, системи, побудовані інакше, ніж за принципом "вирощування".

Тут, мабуть, закономірним є питання: а чи є межа у того процесу, що називається "вирощуванням"? Чи не опиниться він нескінченним?

Гадаємо, самий дух щойно прочитаної вами книги свідчить про те, що цей процес, на щастя і на нещастя, нескінченний. На щастя - тому, що "вирощувати" інформаційну систему майже так же цікаво, як вирощувати дитину. На нещастя - тому, що дитину кінець кінцем можна виростити, і вона стає дорослою, тоді як комп'ютер завжди залишиться дитиною - якою б гарною чи поганою не була теорія "вирощування".Проте дитинство - це чудово!



Список використаної літератури

  1. Библиография №2. Книжная палата: 2000 год. с.12-15.

  2. Вісник книжкової палати №3 .-К.:1998 рік. с.25.

  3. Вісник книжкової палати №10 .-К.:1998 рік. с.6.

  4. Вісник книжкової палати №3 .-К.:1999 рік. с.15.

  5. Сіркова Г.В. Основи інформаційно-аналітичних досліджень. Рівненський інститут слав’янознавства Київського слов’янського університету.-К.:1998 рік. с.24-28.

  6. Жанры информационной литератури: Обзор. реферат.-Москва “Книга”.1983 год. с.203-210.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее