Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 2
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Плотностный алгоритм DBSCAN .......................................................197§ 2.4. Нечёткий алгоритм с-средних .............................................................200§ 2.5. Инкрементный алгоритм C2ICM .........................................................202§ 2.6. Нейросетевой алгоритм SOM ..............................................................206§ 2.7.
Экспериментальная оценка результата классификации без учителя208§ 2.8. Выбор метода классификации без учителя ........................................210Список используемой литературы ................................................................................212Часть VI.Глава 1.Информационные потоки и сложные сети (Д.В. Ландэ)...........................213Основы анализа информационного пространства и информационныхпотоков ..................................................................................................................2135§ 1.1.
Понятие информационного пространства ..........................................213§ 1.2. Информационный поток как объект исследования ...........................214§ 1.3. Тематические информационные потоки .............................................216§ 1.4. Моделирование информационных потоков .......................................218§ 1.5. Модель диффузии информации ...........................................................225Глава 2.Самоподобие в информационном пространстве .....................................230§ 2.1.
Ранговые распределения в лингвистике .............................................230§ 2.2. Степенное распределение и самоподобие ..........................................236§ 2.3. Основы фрактального анализа информационных потоков ..............240Глава 3.Сложные информационные сети ..............................................................252§ 3.1. Основы концепции сложных сетей .....................................................252§ 3.2. Параметры сложных сетей ...................................................................253§ 3.3. Сложные сети и задачи компьютерной лингвистики ........................260§ 3.4. Моделирование сложных сетей ...........................................................262Список используемой литературы ................................................................................2696ЧАСТЬ I.
ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ ИЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ,ИЛИРАЗМЫШЛЕНИЯ О МЕСТЕ ЛИНГВИСТА ВКОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ(ЯГУНОВА Е.В.)Предисловие (несколько слов от себя)В лингвистических главах представлена минимальная терминология ипредложены цели, задачи, методы и термины компьютерной лингвистики. Главыориентированы на экспериментально-теоретическую парадигму сочетающую, повозможности, методы вычислительных экспериментов и экспериментов синформантами. В текст вошли материалы докторского исследования и результатыразноплановых экспериментальных работ последних лет, большинство из нихсоавторские.
Изложение ориентировано на специалистов, работающих с языковыми текстовым материалами, вне зависимости от исходного образования читателей.Сверхзадачей является привлечение специалистов к лингвистическому иэкспериментально-теоретическому осмыслению тех объектов и процедур, которыеони моделируют. Хочется надеяться, что в результате уровень оценки работающихсистем только повысится, а главное – повысится качественный уровеньлингвистического знания.Хочу поблагодарить моего научного консультанта В.Б.Касевича, которогопостоянно цитирую в своем тексте, моего главного верного соавтора ЛидиюПивоварову и многих моих дорогих друзей-коллег-соавторов последних лет, преждевсего, Дмитрия Ландэ, Александра Антонова, Эдуарда Клышинского.Глава 1.Язык.
Текст. Основы лингвистики и теории речевойкоммуникацииПервая глава неизбежно вводная, она посвящена основным целям, задачам,гипотезам, методам и терминам. Работа с терминологией – особо тонкое место вмеждисциплинарной области, т.к. представители каждой из сторон имеют своютерминологию и свое представление об «общей терминологии», которая должнаиспользоваться в этой области.§ 1.1.Язык.
ВведениеПервый из заявленных терминов – язык. В своем тексте я буду в максимальнойстепени опираться на идеи В.Б.Касевича, для начала приведу краткий реферат изцитат его произведений. Такого рода цитатник – своего рода доказательная база,построенная по принципу «доказательство, основанное на авторитетности мнения».«Обобщая различные определения, можно сказать, что язык — это знаковаясистема, предназначенная для порождения, передачи и хранения информации/здесь и далее п/ж шрифт маркирует то, что выделено Е.Я./.
Информация,передаваемая языковыми средствами, всегда воплощается в некотором тексте,поэтому передача информации — создание, или порождение текста, с одной стороны,и восприятие, «прием» текста — с другой. Система речевых действий и операций,7выполняемых в процессах порождения и восприятия текста, — это речеваядеятельность. Первым и естественным условием ее реализации является наличиеязыковой системы.Говоря о том, что язык — знаковая система, имеют в виду, что основнойэлемент такой системы — знак.
Знак служит средством отражения того или иногоэлемента действительности. Благодаря наличию в языке данного знака этот элементне только получает представительство в системе знаний о мире, присущей носителюязыка1, — возникает возможность передать эти знания другому. Знания становятсякоммуницируемыми. Знак <…> обладает экспонентом, или означающим, т. е.материальной оболочкой, и сигнификатом, или означаемым, т. е. мыслительнымсодержанием, значением.
Иными словами, языковой коллектив, вычленяя данныйэлемент действительности и осмысляя его определенным образом, закрепляет затаким осмыслением ту или иную материальную форму, материальный способвыражения; в результате и возникает знак» [108: 660-661].Продолжим: «язык представляет собой знаковую с и с т е м у . Это сложнаяфункциональная система. В данной части определения языка («части» — потому чтоязык здесь не отграничен от других сложных функциональных систем) существенновсе: и то, что язык — система, и то, что система функциональная и, наконец, сложная.Система как таковая — это любое целостное образование, части (элементы) которогообъединены отношениями, теряющими силу за пределами данного целого» [108: 661].«Каждая система имеет, таким образом, относительно замкнутый характер.Системы соотносятся друг с другом именно и только как целостные образования.<…> Ни одна система не существует как нечто абсолютно изолированное.
Принятоговорить о системе и среде, в которой существует данная система. Но среда, в своюочередь, тоже системна, и реально мы имеем дело с вхождением одной системы вдругую, нередко — в другие, т. е. некоторая система является подсистемой поотношению к другой или другим; в последнем случае происходит пересечение,«переплетение» систем.
<…>Для функциональной системы (напомним, что это понятие введеноП. К. Анохиным [85; 86]) сказанное выше действительно в полной мере, однако здесьдобавляется новый системообразующий фактор, гораздо более «мощный», чемфактор замкнутости. Это результат (или функция), для достижения которого(которой) существует данная совокупность элементов.
Именно необходимостьобеспечения некоторого результата, который не может быть достигнут«разрозненными усилиями» отдельных элементов, и служит причиной объединенияпоследних в единое целое, — такое, какому «под силу» соответствующая задача. Этои имеется в виду, когда говорится, что функция выступает системообразующимфактором для системы, а последняя, соответственно, функциональна.По существу, любая «работающая» система – живая или неживая –функциональна, поскольку «работать» и означает, в конечном счете, «получатьрезультат» [108: 662].Под сложными системами обычно понимаются такие, которые удовлетворяютдвум условиям:o налицо достаточно большое число подсистем,o часть подсистем носит дублирующий характер.Знания о мире не всегда «означены», т.
е. представлены соответствующими знаками и их структурами, нознаковое представительство знаний — несомненно высшая, наиболее развитая форма знания.18Дублирование может проявиться двояким образом. Один тип представлентогда, когда подсистемы имеют более или менее одинаковую функцию. Параллельноесосуществование объясняется особой важностью этой функции: дублирование(неэкономность, избыточность) в системе обеспечивает выполнение требуемогорезультата в любых условиях, даже при выходе из строя каких-то подсистем.
Другойтип дублирования (относительного) — это уровневое, иерархическое строениесистемы. «Здесь также можно говорить — с определенной долей условности — одублировании, так как в выполняющей сложные виды деятельности иерархическойсистеме на каждом следующем уровне происходит возвращение к той же задаче,только взятой в другой степени конкретности (подробнее см. [108; 109])» [107 : 663].«Наиболее важные черты системы и любого образования в ее составеопределяются функцией.
Для чего, для выполнения каких задач существует самасистема, тот или иной ее компонент (подсистема), отдельный элемент — ответ наэтот вопрос является решающим для определения качественной спецификиинтересующих нас объектов. Функция языковой системы как таковой, как ужеотмечалось выше, заключается в том, чтобы служить средством порождения,хранения и передачи информации. Порядок перечисления «подфункций», заметимсразу же, отражает реальную последовательность процессов: информация сначаладолжна быть порождена, а затем передана — с промежуточным хранением, если этонеобходимо.
Что же касается иерархии «подфункций», то главенствующей иопределяющей выступает как раз последняя из перечисленных — передачиинформации, т. е. коммуникативная.Нелишне подчеркнуть, что язык является именно средством передачиинформации: информация заключена в тексте, а не в языке, а уже текст «построен» сиспользованием языка, языковой системы2. Поэтому характеристики языка впринципе определяются следующим вопросом: чем должен обладать язык, чтобыэффективно обеспечивать продуцирование несущего информацию текста (иизвлечение информации из последнего)?» [108: 664].«Разнообразие способов отражения действительности, присущих конкретныминдивидуумам, потенциально бесконечно ввиду уникальности каждого индивидуума,бесконечно разнообразны и конкретные условия, в которых имеет место процессотражения и, на его основе, формирования информации.
Отсюда следует, что дляпередачи именно той информации, с которой имеет дело каждый индивидуум, вданный момент времени в данной точке пространства требуется бесконечное числонекоторых информационных единиц, бесконечный алфавит, бесконечный код (и,вероятно, бесконечный канал связи). Информация, следовательно, должна быть както модифицирована, ограничена, подвержена своего рода компрессии, чтобы онамогла быть передана (и воспринята).Процедуры компрессии как преобразования информации в принципе могутбыть выполнены по-разному: за счет разных фрагментов подлежащей передачеинформации и присвоению разных весов информационной значимости. Первичнаяпереработка информации с целью сделать ее «пригодной» для коммуникации должнаориентироваться именно на общезначимость передаваемого, на его адекватностьНикак нельзя признать корректными обычные утверждения о том, что система языка «реализуется» в тексте(речи) как абстрактное в конкретном.