Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 265
Текст из файла (страница 265)
И при таком подходе все еще приходится сталкиваться с проблемой выбора подходящего значения для тс; как и прежде, применение слишком малой окрестности приводит к получению оценки, состоящей из слишком большого количества пиков, как показано на рис. 20.14, а. На рис. 20.14, б видно, что промежуточное значение н позволяет получить очень хорошую реконструкцию первоначального распределения. А на рис. 20.14, в применение слишком большой окрестности приводит к полной потере структуры.
Хорошее значение ы может быть выбрано с использованием перекрестной проверки. Плотность Плотность М О б) Рис. 20 74. Оценка плотности с помощью ядерной модели д и данных, показанных на рис. 20!2, а, в ко- торых используется ядерная функция гауссова распределения со значениями ьт= 0. 02, 0. 0 7 и 0. 20 Контролируемое обучение с помощью ядерных функций осуществляется путем взятия взвешенных комбинаций всех предсказаний из обучающих экземпляров (сравните такой подхол с предсказанием с помощью )с ближайших соседних точек, в котором берется невзвешенная комбинация ближайших )с экземпляров).
Вес т-го экземпляра для точки запроса х определяется по значению ядерной функции к(х, х. ) . Для предсказания в дискретном случае можно выполнить взвешенное голосование, а для предсказания в непрерывном случае — получить взвешенное среднее или применить метод взвешенной линейной регрессии. Следует отметить, что для получения предсказаний с помощью ядерной функции требуется анализ каждого обучающего экземпляра. Существует также возможность объединять ядерные функции со схемами индексации ближайших соседних точек для получения взвешенных предсказаний только с помощью самых близких экземпляров. 20.5.
НЕЙРОННЫЕ СЕТИ Нейрон — это клетка мозга или нервной системы, основной функцией которой является сбор, обработка и распространение электрических сигналов. Схематическое изображение типичного нейрона приведено на рис. 1.! (см, с, 48). Считается, что способность мозга к обработке информации в основном обусловлена функционированием сетей, состоящих из таких нейронов. По этой причине целью некоторых из самых ранних работ по искусственному интеллекту было создание искусственных 'т нейронных сетей (эта область научной деятельности упоминалась также под дру- 977 Глава 20.
Статистические методы обучения гимн названиями, включая коннекционизм, параллельная распределенная обработка и нейронные вычисления). На рис. 20.15 показана простая математическая модель нейрона, предложенная Мак-Каллоком и Питтсом [1017). Грубо говоря, нейрон "активизируется", когда линейная комбинация значений на его входах превышает некоторый лоро~. Начиная с 1943 года были разработаны гораздо более подробные и реалистичные модели как для нейронов, так и для более крупных систем в мозгу, что привело к созданию такой современной научной области, как Ж вычислительная неврология.
С другой стороны, у исследователей в области искусственного интеллекта и статистики пробудился интерес к изучению более абстрактных свойств нейронных сетей, таких как способность выполнять распределенные вычисления, справляться с зашумленными входными данными и обеспечивать обучение. Хотя со временем стало ясно, что подобные возможности предоставляют и другие системы (включая байесовские сети), нейронные сети остаются одной из наиболее широко применяемых и эффективных форм систем обучения и сами по себе могут стать важным предметом для изучения.
Сыецаенный вес ае= ' а,=йбв,) ох Входные Входная Функция Выходные связи Функция акхивации Выход связи Рис. 20.35. Простая математическая модель нейрона. Выходной активациеи этого элемента является аа5цУ в,,а,, та где а — выходния активация элемента 5; ыу, х — вес связи от элемента з к данному элементу Элементы в нейронных сетях Нейронные сети состоят из узлов, или «в.
элементов (см. рис. 20.15), соединенных направленными св связями. Связь от элемента 7 к элементу з служит для распространения Ж активации аз от 5 к з. Кроме того, каждая связь имеет назначенный ей числовой 'в. вес В~з а, который определяет силу и знак связи. Каждый элемент з прежде всего вычисляет взвешенную сумму своих входных данных: и зиа = ~у й~х„а, з=о Затем он применяет к этой сумме Ж функцию активации р, чтобы опрелелить, какими должны быть выходные данные: 978 Часть ч(1. Обучение п з=о (гс.1О) Обратите внимание на то, что в эту формулу входит оь смещенный вес я~ь „относящийся к постоянному входному значению а,=-1.
Роль, которую играет эта величина, будет описана немного позже. Функция активации ц.предназначенадля выполнения двух назначений. Во-первых, необходимо, чтобы элемент был "активным" (находился на уровне активации примерно +1) при наличии "правильных" входных данных и "неактивным" (с уровнем активации, близким к О) при получении "неправильных" вхолных данных. Во-вторых, функция активации должна быть нелинейной, поскольку в противном случае произойдет сворачивание всех функций активации нейронной сети в простую линейную функцию (см. упр, 20.17).
Два варианта формы функции активации р показаны на рис. 20.16 — сьпороговая функция и он сигмоидальная функция (называемая также )з. логистической функцией). Преимуществом сигмоидальной функции является то, что она дифференцируема, а это, как показано ниже, — важное свойство для алюритма обучения с учетом весов. Обратите внимание на то, что обе функции имеют пороговое значение (либо жесткое, либо мягкое) около нуля; смещенный вес й~ь, задает фактическое пороговое значение для данного элемента в том смысле, что элемент активизируется после того, как взвешенная сумма "реальных" входных данных Хп иь а, о=1 (т.е.
сумма, из которой исключен смещенный вход) превышает В)ь з б) а) Рис. 20. )б. Основные виды О)ункций активации: пороговая г(зункция активации, которая выводит !, когда входные данные являются положительными, и Π— в противном случае (иногда вместо нее используется знаковая 4ункция, которая выводит ч- 1 в зависимости от знака входного значения) (а); сигмоидальная функция гг' Щ +о ") (б) Представление о том, как работают отдельные элементы, можно получить, сравнив их с логическими элементами. Одной из первоначальных причин, по которым исследователи занялись проектированием отдельных элементов [1017], была способность элементов представлять основные булевы функции.
На рис. 20.17 показано, как можно представить булевы функции А)ч)), Оп и ИОт с помощью пороговых элементов, входам которых назначены подходящие веса. Такое свойство является 979 Глава 20. Статистические методы обучения важным, поскольку оно означает, что эти элементы можно использовать для создания сети, обеспечиваюшей вычисление любой булевой функции от входных данных.
"ю=) 5 И'ю = 0.5 Ию=-05 лг цгг= ) )ЧОТ ОК Риа 20.17. Промеры элементов с пороговой функцией активацию которые могупг действовить как логические элементы, если заданы соответствующие веси простых и смещенных входов Структуры сетей Сушествуют две основные категории структур нейронных сетей: ациклические сети, или Ж сети с прямым распространением, и циклические, или 2к рекурреитиые, сети.
Сеть с прямым распространением представляет определенную функцию ее текуших входных данных, поэтому не имеет внутреннего состояния, отличного от самих весов. Рекуррентная сеть, с другой стороны, подает свои выходные данные обратно на свои собственные входы. Это означает, что уровни активации сети образуют динамическую систему, которая может достигать устойчивого состояния, или переходить в колебательный режим, или даже проявлять хаотичное поведение. Более того, отклик сети на конкретные входные данные зависит от ее начальною состояния, которое, в свою очередь, может зависеть от предыдущих входных данных.
Поэтому рекуррентные сети (в отличие от сетей с прямым распространением) могут моделировать кратковременную память. Это означает, что они являются более интересными объектами для использования в качестве моделей мозга, но вместе с тем являются более трудными для понимания. В данном разделе в основном рассматриваются сети с прямым распространением; некоторые указания на источники для лополнительного чтения по рекуррентным сетям приведены в конце данной главы. Проанализируем более внимательно утверждение о том, что сеть с прямым распространением представляет функцию от ее входных данных.
Рассмотрим простую сеть, показанную на рис. 20.18, которая состоит из входных элементов, двух ск скрытых элементов и одного выходного элемента (чтобы упростить рассматриваемую схему, в данном примере удалены элементы, на которые подается смешение). Если задан вектор входных данных ге= (х,, х,), активации входных элементов принимают вид ( а„а, ) = (х„х, ), а сеть вычисляет следующее значение: аз д(ипзаз + Ь24,Ба4) д(вгз,зд(вгз,заз + 44г,заг) + Вгз,зд()зз,заз 4- гег,4аг) ) (20.11) Таким образом, выразив выходное значение каждого скрытого элемента как функцию его входных значений, мы показали, что выход всей сети, а„является функцией от ее входов.
Кроме того, мы показали, что веса в сети действуют как параметры этой функции; если применить запись )е для обозначения параметров, то МОЖНО утВЕрждатЬ, ЧтО СЕТЬ ВЫЧИСЛяЕт фуНКцИЮ )гн(ж) . КОррЕКтИруя ВЕСа, МОЖНО 980 Часть Ч1. Обучение изменять функцию, представленную сетью. Именно так происходит обучение в нейронных сетях. С5 Рис. 20.
1й Очень простая нейронная сеть с двумя входными элементами, одним скрытым слоем иэ двух элементов и одного выходного элемента Нейронная сеть может использоваться для классификации или регрессии. Для булевой классификации с непрерывными выходными данными (например, формируемыми с помощью сигмоидальных элементов) обычно принято применять один выходной элемент, в котором значение, превышающее О. 5, интерпретируется как принадлежащее к одному классу, а значение ниже 0 . 5 — как принадлежащее к другому. Для )с-сторонней классификации можно разделить диапазон одного выходного элемента на )с частей, но чаще используется структура сети с )с отдельными выходными элементами, притом что значение на каждом из них представляет относительное правдоподобие конкретного класса на основании текущих входных данных.