М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (1156451), страница 11

Файл №1156451 М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов) 11 страницаМ.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (1156451) страница 112019-09-182019-09-18СтудИзба

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 11)

Абонент обращается кИПС с информационным запросом- текстом, отражающим информационнуюпотребностьданного абонента, например, его желание найти список книг по теорииинформационного поиска или список аптек, в которых можно купить нужное лекарство.Поиск информации ведется в поисковом массиве , который формируется (и по меренеобходимости обновляется) разработчиками или администраторами системы.

Элементыпоискового массива вводятся в информационно-поисковую систему на естественном (илиблизком к нему) языке, а затем обычно подвергаются индексированию , т.е. переводу наформальный информационно-поисковый язык .Индексирование - выражение центральной темы или предмета какого-либо текстаили описание какого-либо объекта на информационно-поисковом языке[1].Предмет - объект (материальная вещь, понятие, свойство или отношение), которыйрассматривается или упоминается в документе/информационном запросе.Темадокумента/информационного запроса - раздел науки или техники, областьпрактической деятельности или проблема, которой посвящен документ/ информационныйзапрос.По характеру поискового массива и выдаваемой информации ИПС подразделяют надокументальные и фактографические .Документальная ИПСпредназначена для отыскания документов (статей, книг,отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимуюинформацию.

Поисковый массив такой ИПС состоит из поисковых образов документов (т.е.элементов, каждый из которых передает основное содержание документа) или из самихдокументов. В ответ на предъявляемый информационный запрос ИПС выдает некотороемножество документов (или адреса их хранения), содержащих искомую информацию.Документом называют любой осмысленный текст, который обладает определеннойлогической завершенностью и содержит сведения о его источнике и/или создателе.Фактографическая ИПСобеспечивает выдачу непосредственно фактическихсведений, затребованных потребителем в информационном запросе. Поисковый массивсостоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов ипредставленных на некотором формальном языке.Например, если бы Служба знакомств решила создать документальную ИПС,поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовутИлья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...".

Длясоздания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида:"Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити" . Соответственно изапросом в первом случае будет служить часть письма клиента с пожеланиями относительноего партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашниминтересовалась" , а во втором - составленная по ней таблица: "Возраст вЂ№33, интеллект высокий, интересы - домашнее хозяйство" .В настоящее время фактографические ИПС (как специальный класс поисковых систем)практически не разрабатываются, выполняемые ими действия реализуются с помощьюштатных СУБД.

Далее, говоря ИПС, будем иметь в виду документальнуюинформационно-поисковую систему.Одним из популярных способов перевода документа на внутренний язык системыявляется координатное индексирование - присвоение документу набора ключевых словили кодов, определяющих его содержание. Возможны два способа индексирования:свободное, когда непосредственно из текста документа извлекаются ключевые слова безучета всех видоизменений их форм и отношений между ними; и контролируемое, когда впоисковый образ документа включаются только те слова, которые зафиксированы винформационно-поисковом тезаурусе , где указаны их синонимические, морфологическиеи ассоциативные отношения.4.2.

ТезаурусТезаурус - специально организованный нормативный словарь лексических единицинформационно-поисковогоиестественногоязыка.Лексическимиединицамиинформационно-поискового языка являются дескрипторы. Дескриптор ставится воднозначное соответствие группе ключевых слов естественного языка, отобранных из текстаопределенной предметной области. Например, в качестве дескриптора может быть выбранолюбое (предпочтительно наиболее часто используемое или короткое) ключевое слово илисловосочетание или же цифровой код. Многозначному слову естественного языкасоответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям один дескриптор.

Тезаурус учитывает семантические связи между словами: антонимы,синонимы, гипонимы, гиперонимы, ассоциации.Синонимы- слова (словосочетания), разные по написанию, но одинаковые (врассматриваемой предметной области) по значению: ведьма= злая волшебница .Антонимы - слова с противоположным значением: добрый - злой . Гипоним - термин,являющийся частным случаем другого, более общего понятия. Гипероним- термин,наоборот, являющийся общим для ряда других, частных понятий.Солдат = гипоним (военный ); человек = гипероним (военный )гипероним (вкусно готовит )= гипероним (содержит дом в чистоте )=гипероним (умеет шить )= хорошая хозяйка.В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный"определены следующие типы связей:– род-вид: средства передвижения - телега , ковер-самолет , сапоги-скороходы ,печка– часть-целое: стена , дверь , курья ножка - части избушки ;– причина-следствие: опустил меч - голова с плеч ;– сырье-продукт: сталь - меч ;– административная иерархия: султан - визирь - стражник ;– процесс-субъект: казнить - палач ;– процесс-объект: казнить - жертва ;– функциональное сходство: печка Емели - джип Cherokee ;– свойство - носитель свойства: огнедышащий - дракон ;– антонимия;– синонимия.Ассоциативное отношение является объединением других отношений, не входящих виерархические отношения или в отношения синонимии (то есть любые виды связей междусловами, возможно весьма специфичные, существующие только в определенной предметнойобласти).Словарная статья (на неформальном уровне) могла бы выглядеть так:ПРЕМУДРАЯ = умнаяАНТОНИМ - глупаяГИПОНИМЫ: знающая, образованная, догадливая, начитаннаяВИД - показатель интеллекта (высокий)Тезаурус и грамматика составляют информационно-поисковый язык .

Грамматикасодержит правила образования производных единиц языка (семантических кодов, синтагм,предложений) и регламентирует использование средств обозначения синтаксическихотношений (например, указателей связи).В рассмотренной выше сказочной информационной службе знакомств тезаурус долженописывать всевозможные качества и характеристики, встречающиеся в письмах клиентов,правила их классификации. Грамматика и тезаурус должны быть составлены таким образом,чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возрастили количество зубов (это может определяться по ключевому слову - единице измерения),уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесьпомогут словосочетания хотел бы познакомиться , должен соответствовать ).На основании тезауруса и правил грамматики формируются поисковые образыдокумента и запроса (поисковое предписание).

Поисковое предписание- текст наинформационно-поисковом языке, содержащий признаки документов, затребованныхпользователем в запросе.Поисковый образ документа- текст на информационно-поисковом языке,поставленный в однозначное соответствие документу и отражающий его признаки,необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающихсодержание документа или, как минимум, определяющих его тему, поисковый образдокумента обычно содержит также идентифицирующие и некоторые дополнительныесведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписанияформируются при поступлении запросов, а поисковые образы документов могут создаватьсякак при пополнении системы новыми документами, так и при поиске ответа на запрос. Всистемах, где потоки информации велики и часто обновляемы, нет необходимости тратитьресурсы на индексирование, и за поисковый образ документа часто принимается самдокумент или же его название.4.3.

РелевантностьЦелью ИПС является выдача документов, релевантных(семантическисоответствующих) запросу (по-английски relevant - относящийся к делу). Различаютрелевантностьсодержательнуюи формальную. Релевантность содержательнаятрактуется как соответствие документа информационному запросу, определяемоенеформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев ивыберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная как соответствие, определяемое алгоритмически путем сравнения поискового предписания ипоискового образа документа на основании применяемого в информационно-поисковойсистеме критерия выдачи .Критерий выдачи- формальное правило, совокупность признаков, по которымопределяется степень формальной релевантности поискового образа документа и поисковогопредписания и принимается решение о выдаче/невыдаче некоторого документа в ответ наинформационный запрос.ИнформационнаяпотребностьèФормулировкаинформационногозапросаèПоисковоепредписаниеô Релевантность Релевантность ôсодержательная формальная: ДокументыèИндексированиеèПоисковыймассивВ автоматизированных системах поиск основан на формальной релевантности,содержательная релевантность в них определяется, например, путем экспертных оценок ииспользуется для получения данных об эффективности информационного поиска всистеме (качестве ее работы).

В качестве критерия выдачи может быть выбрано полноесовпадение поисковых образов документа и запроса, включение множества ключевых словзапроса во множество ключевых слов документа, пересечение этих множеств и др.В рассматриваемом примере при выборе в качестве критерия выдачи полногосовпадения ключевых слов документа и запроса клиенту должны быть предоставленыписьма персонажей, полностью отвечающих его требованиям. Навряд ли это ихудовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше быподошел для системы, где необходима точность, например, определяющей выбор лекарствапри лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же,наверное, уместен критерий на пересечение.Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степениих соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и взапросе и в документе, суммируются, и документы выдаются в зависимости от значения этойсуммы (например, если она превысила некоторое значение).

Таким образом, если указать,что наиболее весомыми являются характеристики богатство и могущество , а не добротаи возраст , можно заполучить в женихи Кощея Бессмертного. При использовании весовтакже может применяться эшелонированная выдачаотобранные документыпредъявляются пользователю не в произвольном порядке, а по степени релевантности (поубыванию сумм весов), право окончательного выбора релевантных документов - запользователем.Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, иничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчаниеИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишнихдокументов). Массив документов разделяется на выданные и невыданные - по одномукритерию, и на релевантные и нерелевантные - по другому.Таким образом, для каждого запроса получаем 4 группы документов:Соотношение количества документов в каждой из этих групп определяетэффективность информационного поиска.

Характеристики

Тип файла

PDF-файл

Размер

608,33 Kb

Материал

Тип материала

Книга

Предмет

Искусственный интеллект

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

m.g.-malkovskij-t.ju.-gracianova-i.n.-poljakova-prikladnoe-programmnoe-obespechenie-sistemy-avtomaticheskoj-obrabotki-tekstov.rar

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.