Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 2
Описание файла
PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Выбор метода классификации с учителем .......................................189Глава 2.Алгоритмы классификации без учителя ..................................................192§ 2.1. Иерархические алгоритмы ...................................................................193§ 2.2. Алгоритм k-средних..............................................................................196§ 2.3. Плотностный алгоритм DBSCAN .......................................................197§ 2.4. Нечёткий алгоритм с-средних .............................................................200§ 2.5. Инкрементный алгоритм C2ICM .........................................................202§ 2.6.
Нейросетевой алгоритм SOM ..............................................................206§ 2.7. Экспериментальная оценка результата классификации без учителя208§ 2.8. Выбор метода классификации без учителя ........................................210Список используемой литературы ................................................................................212Часть VI.Глава 1.Информационные потоки и сложные сети (Д.В. Ландэ)...........................213Основы анализа информационного пространства и информационныхпотоков ..................................................................................................................2135§ 1.1.
Понятие информационного пространства ..........................................213§ 1.2. Информационный поток как объект исследования ...........................214§ 1.3. Тематические информационные потоки .............................................216§ 1.4. Моделирование информационных потоков .......................................218§ 1.5. Модель диффузии информации ...........................................................225Глава 2.Самоподобие в информационном пространстве .....................................230§ 2.1. Ранговые распределения в лингвистике .............................................230§ 2.2.
Степенное распределение и самоподобие ..........................................236§ 2.3. Основы фрактального анализа информационных потоков ..............240Глава 3.Сложные информационные сети ..............................................................252§ 3.1. Основы концепции сложных сетей .....................................................252§ 3.2. Параметры сложных сетей ...................................................................253§ 3.3. Сложные сети и задачи компьютерной лингвистики ........................260§ 3.4. Моделирование сложных сетей ...........................................................262Список используемой литературы ................................................................................2696ЧАСТЬ I.
ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ ИЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ,ИЛИРАЗМЫШЛЕНИЯ О МЕСТЕ ЛИНГВИСТА ВКОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ(ЯГУНОВА Е.В.)Предисловие (несколько слов от себя)В лингвистических главах представлена минимальная терминология ипредложены цели, задачи, методы и термины компьютерной лингвистики. Главыориентированы на экспериментально-теоретическую парадигму сочетающую, повозможности, методы вычислительных экспериментов и экспериментов синформантами. В текст вошли материалы докторского исследования и результатыразноплановых экспериментальных работ последних лет, большинство из нихсоавторские. Изложение ориентировано на специалистов, работающих с языковыми текстовым материалами, вне зависимости от исходного образования читателей.Сверхзадачей является привлечение специалистов к лингвистическому иэкспериментально-теоретическому осмыслению тех объектов и процедур, которыеони моделируют.
Хочется надеяться, что в результате уровень оценки работающихсистем только повысится, а главное – повысится качественный уровеньлингвистического знания.Хочу поблагодарить моего научного консультанта В.Б.Касевича, которогопостоянно цитирую в своем тексте, моего главного верного соавтора ЛидиюПивоварову и многих моих дорогих друзей-коллег-соавторов последних лет, преждевсего, Дмитрия Ландэ, Александра Антонова, Эдуарда Клышинского.Глава 1.Язык. Текст.
Основы лингвистики и теории речевойкоммуникацииПервая глава неизбежно вводная, она посвящена основным целям, задачам,гипотезам, методам и терминам. Работа с терминологией – особо тонкое место вмеждисциплинарной области, т.к. представители каждой из сторон имеют своютерминологию и свое представление об «общей терминологии», которая должнаиспользоваться в этой области.§ 1.1.Язык.
ВведениеПервый из заявленных терминов – язык. В своем тексте я буду в максимальнойстепени опираться на идеи В.Б.Касевича, для начала приведу краткий реферат изцитат его произведений. Такого рода цитатник – своего рода доказательная база,построенная по принципу «доказательство, основанное на авторитетности мнения».«Обобщая различные определения, можно сказать, что язык — это знаковаясистема, предназначенная для порождения, передачи и хранения информации/здесь и далее п/ж шрифт маркирует то, что выделено Е.Я./. Информация,передаваемая языковыми средствами, всегда воплощается в некотором тексте,поэтому передача информации — создание, или порождение текста, с одной стороны,и восприятие, «прием» текста — с другой. Система речевых действий и операций,7выполняемых в процессах порождения и восприятия текста, — это речеваядеятельность. Первым и естественным условием ее реализации является наличиеязыковой системы.Говоря о том, что язык — знаковая система, имеют в виду, что основнойэлемент такой системы — знак.
Знак служит средством отражения того или иногоэлемента действительности. Благодаря наличию в языке данного знака этот элементне только получает представительство в системе знаний о мире, присущей носителюязыка1, — возникает возможность передать эти знания другому. Знания становятсякоммуницируемыми. Знак <…> обладает экспонентом, или означающим, т. е.материальной оболочкой, и сигнификатом, или означаемым, т.
е. мыслительнымсодержанием, значением. Иными словами, языковой коллектив, вычленяя данныйэлемент действительности и осмысляя его определенным образом, закрепляет затаким осмыслением ту или иную материальную форму, материальный способвыражения; в результате и возникает знак» [108: 660-661].Продолжим: «язык представляет собой знаковую с и с т е м у . Это сложнаяфункциональная система. В данной части определения языка («части» — потому чтоязык здесь не отграничен от других сложных функциональных систем) существенновсе: и то, что язык — система, и то, что система функциональная и, наконец, сложная.Система как таковая — это любое целостное образование, части (элементы) которогообъединены отношениями, теряющими силу за пределами данного целого» [108: 661].«Каждая система имеет, таким образом, относительно замкнутый характер.Системы соотносятся друг с другом именно и только как целостные образования.<…> Ни одна система не существует как нечто абсолютно изолированное.
Принятоговорить о системе и среде, в которой существует данная система. Но среда, в своюочередь, тоже системна, и реально мы имеем дело с вхождением одной системы вдругую, нередко — в другие, т. е. некоторая система является подсистемой поотношению к другой или другим; в последнем случае происходит пересечение,«переплетение» систем.
<…>Для функциональной системы (напомним, что это понятие введеноП. К. Анохиным [85; 86]) сказанное выше действительно в полной мере, однако здесьдобавляется новый системообразующий фактор, гораздо более «мощный», чемфактор замкнутости. Это результат (или функция), для достижения которого(которой) существует данная совокупность элементов. Именно необходимостьобеспечения некоторого результата, который не может быть достигнут«разрозненными усилиями» отдельных элементов, и служит причиной объединенияпоследних в единое целое, — такое, какому «под силу» соответствующая задача.
Этои имеется в виду, когда говорится, что функция выступает системообразующимфактором для системы, а последняя, соответственно, функциональна.По существу, любая «работающая» система – живая или неживая –функциональна, поскольку «работать» и означает, в конечном счете, «получатьрезультат» [108: 662].Под сложными системами обычно понимаются такие, которые удовлетворяютдвум условиям:o налицо достаточно большое число подсистем,o часть подсистем носит дублирующий характер.Знания о мире не всегда «означены», т.
е. представлены соответствующими знаками и их структурами, нознаковое представительство знаний — несомненно высшая, наиболее развитая форма знания.18Дублирование может проявиться двояким образом. Один тип представлентогда, когда подсистемы имеют более или менее одинаковую функцию. Параллельноесосуществование объясняется особой важностью этой функции: дублирование(неэкономность, избыточность) в системе обеспечивает выполнение требуемогорезультата в любых условиях, даже при выходе из строя каких-то подсистем. Другойтип дублирования (относительного) — это уровневое, иерархическое строениесистемы. «Здесь также можно говорить — с определенной долей условности — одублировании, так как в выполняющей сложные виды деятельности иерархическойсистеме на каждом следующем уровне происходит возвращение к той же задаче,только взятой в другой степени конкретности (подробнее см.