Хайкин С. - Нейронные сети (778923), страница 15
Текст из файла (страница 15)
В 1955 году ои был приглашен в Йельский уииверситет„где в 1956 году прочитал курс лекций 5!!Дтап Т,есшгез. Ои умер в 1957 году, и его незаконченная работа, написанная иа основе этих лекций, была позднее опубликована в виде отдельной книги [1103). Нз этой книги ясно, как много мог бы сделать фои Нейман, если бы остался жив, поскольку ои начал осознавать принципиальное отличие мозга от компьютера.
Предметом отдельного исследования в коитексте нейронных сетей является создание надежных сетей из нейронов, которые сами по себе считаются ненадежными компонентами. Эта задача была решена в 1956 году фои Неймаиом с помощью идеи избыточности, которая была предложена Виноградом и Кованом [163), [1104) в поддержку использования распределенного избыточного представления (д!зпзЪпгед гедппдап! гергезеп!айоп) в нейронных сетях. Эти авторы показали, как большая группа элементов может в совокупности представлять одно понятие при соответствующем повышении робастиости и степени параллелизма. Через 15 лет после выхода классической работы Мак-Каллока и Питца Розеиблатг (КокепЫап) предложил новый подход к задаче распознавания образов, основанный иа использовании персептрона и нового метода обучения с учителем [902).
Главным достижением этой работы была так называемая теорема сходимости персептрона (регсер1гоп сопчегйепсе !Ьеогеш), первое доказательство которой было получено Розеиблаттом в 1960 году [901]. Другие доказательства этой теоремы были предложеиы Новиковым [788) и другими учеными. В 1960 году был описан алгоритм наименьших квадратов 1.МЯ (!еаз! шеап-зйпаге а18опгйш), который применялся для 78 Глава 1. Введение построения адаптивных линейных элементов Аеайле [1131).
Различие между персептроном и моделью Аоайпе состоит в процедуре обучения. Одной из самых первых обучаемых многослойных нейронных сетей, содержащей многочисленные адаптивные элементы, была структура Маоайпе (пш!пр!у-адайпе), предложенная Видроу и его студентами [1137). В 1967 году для адаптивной классификации образов был использован стохастический градиентный метод [33). В 1965 году вышла в свет книга Нильсона 7.еаглт8 МасЫпез (Обучаемые системы) [786), в которой очень хорошо освещен вопрос линейной разделимости образов (йпеаг!у зерагаЬ(е рапегп) с помощью гиперповерхиостей.
В 1960-е годы (в период господства персептроиа) казалось, что нейронные сети позволяют решить практически любую задачу. Однако в 1969 году вышла книга Минского и Пейперта [745), в которой математически строго обоснованы фуидамеитапьиые ограничения однослойного персептроиа. В небольшом разделе, посвященном многослойным персептроиам, утверждалось, что ограничения однослойных персептроиов вряд ли удастся преодолеть в их многослойных версиях. Важной задачей, возникающей при конструировании многослойного персептроиа, была названа проблема присваивания коэффициентов доверия (сгегйг аяз18пшеп1 ргоЬ1еш) (т.е.
проблема назначения коэффициентов доверия скрытым нейронам сети). Термин присваивалие коэффициентов доеерилвпервые использовал Минский в 1961 году [742). К концу! 960-х уже были сформулированы многие идеи и концепции, необходимые для решения проблемы присваивания коэффициентов доверия для персептроиа. Было также разработано множество идей, положенных впоследствии в основу рекурреитиых сетей, которые получили название сетей Холфилда (Норйе1г) пепкогк).
Однако решения этих важных проблем пришлось ожидать до 1980-х годов. Как отмечено в [222), для такого длительного ожидания существовали объективные причины. ° Одна из причин носила технологический характер: для проведения экспериментов ие существовало персональных компьютеров или рабочих станций. Например, когда Габор создавал свой нелинейный обучаемый фильтр, ему и его команде потребовалось шесть лет для того, чтобы создать этот фильтр на аналоговых устройствах [330), [331).
° Другая причина была отчасти психологической, отчасти финансовой. Монография [745) оттолкнула ученых от работ в этом направлении, а научные фонды и агентства перестали обеспечивать его финансовую поддержку. ° Аналогия между нейронными сетями и пространственными решетками (1апке зрш) была несовершенной. Более точная модель была создана только в 1975 году [980). Эти и другие причины способствовали ослаблению интереса к нейронным сетям в 1970-х годах. Многие исследователи (ие принимая во внимание психологов и иейробиологов) покинули это поле деятельности иа десять лет. Только горстка пионеров 1.9. Историческая справка 79 этого направления поддерживала жизнь науки о нейронных сетях. С технологической точки зрения 1970-е годы можно рассматривать как годы застоя.
В 1970-х годах развернулась деятельность в области карт самоорганизации (кейз огйаппйп8 шар), основанных иа конкурентном принципе обучения (сошреЫЫе 1еагпш8). Принцип самоорганизации впервые был проиллюстрирован с помощью компьютериого моделирования в 1973 году [1100]. В 1976 году была опубликована работа, посвященная картам самоорганизации, отражающим топологически упорядоченную структуру мозга [1159]. В 1980-х годах главный вклад в теорию и конструкцию нейронных сетей был внесен иа нескольких фронтах.
Этот период был отмечен возобновлением интереса к данному научному направлению. Гроссберг (бгоззЬег8), ранние работы которого посвящались принципу конкурентного обучения [396 — 398], в 1980 году открыл новый принцип самоорганизации, получивший название теории адаптивного резонанса (адарг(че гезопапсе гйеогу) [392]. В основе этой теории лежит использование слоя распознавания "снизу вверх" и слоя генерации "сверху вниз". Если входной и изученный образы совпадают, возиикает состояние, иазываемос адаптивным резонансом (т.е. усилением и продлеиием нейронной активности). Этот принцип прямой и обратной проекции (рппс(р1е оГ гогиагИ>ас(онагд рго)есбоп) был впоследствии снова открыт другими учеными, пришедшими к нему совершенно другим путем.
В 1982 году Хопфилд использовал функцию энергии для описания нового уровия понимания вычислений, выполняемых рекурреитиыми сетями с симметричными сииаптическими связями [480]. Кроме того, ои установил изоморфизм между рекуррентной сетью и изинговской моделью (1яп8 шоде1), используемой в статистической физике. Эта аналогия открыла шлюз для притока результатов физической теории (и самих физиков) в нейронное моделирование, трансформировав, таким образом, область нейронных сетей. В 1980-х годах нейронным сетям с обратной связью уделялось большое внимание, и со временем оии стали называться сетями Хопфилда (Норбе!д пепног)г).
Хотя сети Хопфилда нельзя считать реалистичными моделями иейробиологических систем, в иих заложен принцип хранения информации в динамически устойчивых системах. Истоки этого принципа можно найти в более ранних работах других исследователей. ° Крэг и Темперли в 1954 †19 годах сделали следующее наблюдение [228],[229]. Подобно тому, как нейроны могут быть активизированы или приведены в состояиие покоя, атомы пространственной решетки могут иметь спины, направленные вверх и вниз . ° В 1967 году Ковал ввел "сигмоидальиую" характеристику и гладкую функцию активации для нейронов [224]. 80 Глава 1. Введение ° Гроссберг в 1967-1968 годах представил аддитивную модель (а<И!!!че пюде1) нейрона, включающую нелинейные разностно-дифференциальные уравнения, н исследовал возможность использования этой модели в качестве основы кратковременной (зЬог1-депп) памяти [40Ц, [402].
° Амари в 1972 году независимо от других разработал адантивную модель нейрона и использовал ее для изучения динамического поведения нейроноподобных элементов, связанных случайным образом [32]. ° Вильсон и Конан в 1972 году вывели системы нелинейных дифференциальных уравнений для описания динамики пространственно-локализованных популяций, содержащих как возбуждающие, так и тормозящие модели нейронов [116 Ц. ° В 1975 году была предложена вероятностнаямодель (ргоЬаЬВ!зг!с шаде!) нейрона, которая использовалась для разработки теории кратковременной памяти [662]. ° В 1977 году была описана нейросетевая модель, состоящая из простой ассоциативной сети, связанной с нелинейными динамическими элементами [54].
Неудивительно, что работа Хопфилда [480] вызвала лавину дискуссий. Тем не менее принцип хранения информации в динамически устойчивых сетях впервые принял явную форму. Более того, Хопфилд показал, что симметричные синаптические связи гарантируют сходимость к устойчивому состоянию.
В 1983 году в [202] выведен общий принцип устойчивости ассоциативной памяти, включающий в качестве частного случая непрерывную версию сети Хопфилда. Отличительной характеристикой аттракторной нейронной сети является естественное включение времени в нелинейную динамику сети как важного измерения обучения. В этом контексте теорема КохеиаГроссберга приобрела особую важность. Еще одной интересной работой 1982 года стала публикация Кохонена [579], посвященная самоорганизующнмся картам, использующим одно- илн двухмерную структуру пространственной решетки, которая отличалась от ранней работы [1159].
Модель Кохонена получила более активную поддержку и стала своеобразной точкой отсчета для других инноваций в этой области. В [560] описана новая процедура, получившая название моделирования отжига (з!шо!а!ед аппеа!ш8), позволяющая решать задачи комбинаторной оптимизации, Имитация отжига уходит корнями в статистическую механику и основана на простейшей идее, впервые использованной в компьютерном моделировании [730]. Идея имитации отжита позднее использовалась при создании сгохастической машины Балы!- мана (Во)глпапп шасЬ!пе) [9]. Это была первая успешная реализация многослойной нейронной сети. Хотя алгоритм обучения машины Больцмана не обеспечивает такой эффективности, как алгоритм обратного распространения (Ьаск ргорайа!!оп), он разрушил психологический барьер, показав, что теория Минского и Пейперта [745] была некорректно обоснована.
Машина Больцмана также заложила фундамент 1.9. Историческая справка 81 для последующей разработки сигмоидальаых сетей доверия (з18шоЫ Ье![еГ пеПчог)г) [778], которые существенно улучшали процесс обучения и обеспечивали связь нейронных сетей с сетями доверия [822]. В [936] описан способ дальнейшего повышения производительности процесса обучения сигмоидальных сетей доверия. В 1983 году была опубликована работа, посвященная обучению с подкреплением (гешГогсешепг!еапнпй) [100].