Главная » Просмотр файлов » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (1156451), страница 12

Файл №1156451 М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов) 12 страницаМ.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (1156451) страница 122019-09-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 12)

Для оценки эффективности используютследующие характеристики:РвПолнота выдачи =tabletable--х 100%Рв+РнРвТочность выдачи =tabletable-х 100%Рв+НвРнПотери информации =tabletable-х 100%Рв+РрНвИнформационный шум =tabletable-х 100 %Рв+НвРвЧувствительность =tabletable-x 100 %Рв+РнНнСпецифичность =tabletable-x 100%Нн+НвВ идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найденывсе документы и ни одного лишнего). В реальных системах коэффициент полноты достигает70%, а коэффициент точности поиска колеблется в очень широких пределах, иногдаснижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: каквнутренних свойств собственно поисковой системы (объема и характеристикинформационного массива, информационно-поискового языка, критерия выдачи), так и отмногих "внешних" условий: степени специфичности информационных запросов,способности пользователя правильно сформулировать свои информационные потребностина естественном языке, правильности построения конкретного запроса, а также отсубъективного представления пользователя о том, что такое нужная ему информация.

Из-заошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так исистемы, результаты могут сильно отличаться от того, что хотел получить пользователь,обращаясь к ИПС.Существует понятие устойчивость поиска - характеристика изменения полноты иточности при малых (семантически незначительных) изменениях запроса. Средние значенияполноты и точности для конкретной системы обычно вычисляют путем тестирования ее наэталонной базе документов.В зависимости от требований к количеству и качеству выдаваемой ИПС информациивыбираются разные критерии выдачи.

Если важно не упустить нужную информацию(патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемойинформации (библиотека) - следует улучшить точность.Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой иточностью поиска в одной системе (при использовании одного и того жеинформационно-поискового языка), т.е.

повышение точности ведет к увеличению шума и,наоборот, при уменьшении шума снижается точность. Улучшить оба эти показателяодновременно можно, только внося изменения в информационно-поисковый язык, делаяграмматику и тезаурус более лингвистически развитыми. При этом достижение максимальновозможной полноты поиска связано с огромными сложностями. Последние 5-10% требуюттакого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет засобой увеличение трудоемкости обработки входной информации и времени поиска.4.4.

Языковой компонентУвеличению эффективности ИПС в большой степени помогает более детальнаяобработка текста документа. Так, существуют системы, которые для простоты в качествепоискового образа документа принимают его название, однако оно в силу разныхобстоятельств не всегда формально отражает содержание текста. Например, при подготовкеданного материала была использована статья "А глаз как у орла", не имеющая никакогоотношения ни к орнитологии, ни к окулистам. Также большое значение имеет применениепрограмм, производящих лингвистически содержательную обработку текстов наестественном языке (учитывающую морфологию, синтаксис).

Только с их помощью можноустановить, являются ли похожие слова (почти все буквы одинаковые) формами одногослова или же это совершенно разные слова, в соответствие которым поставлены разныесемантические единицы.Более примитивные, лежащие на поверхности приемы могут подвести разработчикаИПС. Так, если система не учитывает никакие правила русского языка и работает сшаблонами (типа var*, text*.exe), то при поиске для Золушки кавалера, интересующегосябальными танцами, в качестве ключевого слова-шаблона придется выбрать бал * (чтобы небыло потери информации, иначе можно пропустить эту характеристику, высказаннуюсловами люблю танцевать на балах ). Тогда в результате поиска ей может быть предложенопознакомиться со всеми любителями балета , балыка , Бальмонта , Бальзака , со всеми,живущими около Балтийского моря, в домах с балконом , а также со всевозможнымибаловниками и баловнями судьбы .Все эти претенденты будут отсеяны, если в качестве ключевого слова будет заданоприлагательное бальныйи система сможет распознавать его во всех его формах(применение морфологического анализа слов также дает возможность уменьшить объемтезауруса, избавив его от избыточной информации - иначе все формы одного словаприходится определять как синонимы).

Еще один способ уменьшения шума и повышенияточности - введение в информационно-поисковый язык аппарата работы с однокореннымисловами. В нашем примере при задании ключа-корня бал выданными оказались бы толькодокументы, содержащие разные формы слов бал и бальный . Однако и в этом случае письможеланного принца затеряется между сообщениями о салонах бального платья , владельцахбальных залов , музыкантах и официантах, обслуживающих балы . С помощьюсинтаксического анализа можно более точно определять словосочетания (например,распознавать их не только когда слова стоят друг за другом, но и когда они разделены рядомдругих слов).

В приведенном примере в системе с синтаксическим компонентом можно былобы вести поиск документов со словосочетаниями бальный танец и танцевать на балу .Конечно, и это не обеспечивает 100% точности (например, ничто не запрещает выдачусообщений об учителях бальных танцев ), однако понятно, что количество выданныхдокументов значительно сократится, и Золушка уже не превратится в старую деву,просматривая предложенную ей системой информацию.Развитые информационно-поисковые языки допускают использование логическихсвязок: дурак =NOT(умный ), добрый молодец =(мужчина ) AND (молодой ). В перспективе возможность описания на информационно-поисковом языке смысла целой фразы (которыйне всегда складывается из смыслов входящих в нее слов) и возможность формулировкисоответствующих семантически сложных запросов.[1] Отметим, что в рекламе или обзорах поисковых средств часто можно встретитьслова "индексирование" или "индексация". Там эти термины означают создание общегоглоссария по всему массиву для увеличения скорости поиска.

Для всей текстовой базысоставляется список встречающихся в ней терминов, и каждому из них ставится всоответствие некоторый индекс (координаты в текстовой базе); чаще всего это номердокумента и номер слова в документе. При поступлении запроса слово сначала ищется вэтом списке, и по найденным координатам выдаются нужные документы. Если слов взапросе несколько, над их координатами производится операция пересечения. Именно такорганизован поиск статей, включающих заданное слово, в подсистемах помощи Windows..

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее