formal_languages_translation_theory (852748), страница 10
Текст из файла (страница 10)
Грамматики этого класса, с одной стороны, позволяют вполне адекватно описать синтаксис реальных языков программирования; с другой стороны, для разных подклассов КС-грамматик построены достаточно эффективные алгоритмыразбора.47Элементы теории трансляции / Синтаксический анализИз теории синтаксического анализа известно, что существует алгоритм, который полюбой данной КС-грамматике и данной цепочке выясняет, принадлежит ли цепочка языку,порождаемому этой грамматикой.
Но время работы такого алгоритма (синтаксического анализа с возвратами) экспоненциально зависит от длины цепочки, что с практической точкизрения совершенно неприемлемо.Существуют табличные методы анализа ([3]), применимые ко всему классу КСграмматик и требующие для разбора цепочек длины n времени Cn3 (алгоритм Кока-ЯнгераКасами), где C — константа, либо Cn2 (алгоритм Эрли). Их разумно применять только в томслучае, если для интересующего нас языка не существует грамматики, по которой можно построить анализатор с линейной временной зависимостью от длины цепочки (такими языкамимогут быть, например, подмножества естественного языка).При разработке языков программирования их синтаксис обычно стараются сделатьтаким, чтобы время на анализ было прямо пропорционально длине программы.
Алгоритмыанализа, расходующие на обработку входной цепочки линейное время, применимы только кнекоторым подклассам КС-грамматик.Различные методы синтаксического анализа, или разбора, основываются на разныхпринципах, и используют различные техники построения дерева вывода. Каждый методпредполагает свой способ построения по грамматике программы-анализатора, которая будетосуществлять разбор цепочек.
Корректный анализатор завершает свою работу для любойвходной цепочки и выдает верный ответ о принадлежности цепочки языку. Анализатор некорректен, если: не распознает хотя бы одну цепочку, принадлежащую языку; распознает хотя бы одну цепочку, языку не принадлежащую; зацикливается на какой-либо цепочке.Говорят, что метод анализа применим к данной грамматике, если анализатор, построенный в соответствии с этим методом, корректен.Рассмотрим один из фундаментальных методов разбора, применимый к некоторомуподклассу КС-грамматик.Метод рекурсивного спускаПример: пусть дана грамматика G1 {a, b, c, d}, {S, A, B}, P, S , гдеP:SAB→ ABd→ a | cA→ bAи надо определить, принадлежит ли цепочка cabad языку L(G1).
Построим левый вывод этойцепочки: S → ABd → cABd → caBd → cabAd → cabad.Следовательно, цепочка cabad принадлежит языку L(G1).Построение левого вывода эквивалентно построению дерева вывода методом сверхувниз (нисходящим методом), при котором на очередном шаге раскрывается самый левый нетерминал в частично построенном дереве ( рис. 10):48Элементы теории трансляции / Синтаксический анализSSASBABAcabadcaSAbadBABadadAadBAbbSAaaScccaAbAadcaAbРис. 10. Построение левого вывода.Метод рекурсивного спуска (РС-метод) реализует разбор сверху-вниз и делает это спомощью системы рекурсивных процедур.Для каждого нетерминала грамматики создается своя процедура, носящая его имя;ее задача — начиная с указанного места исходной цепочки найти подцепочку, которая выводится из этого нетерминала.Если такую подцепочку найти не удается, то процедура завершает свою работу, сигнализируя об ошибке.
Это означает, что цепочка не принадлежит языку; разбор останавливается.Если подцепочку удалось найти, то работа процедуры считается нормально завершенной и осуществляется возврат в точку вызова.Тело каждой такой процедуры пишется непосредственно по правилам вывода (по альтернативам) соответствующего нетерминала: для правой части каждого правила осуществляется поиск подцепочки, выводимой из этой правой части. При этом терминалы из правой части распознаются самой процедурой, а нетерминалы соответствуют вызовам процедур, носящих их имена. После распознавания каждого терминала процедура считывает следующийсимвол из исходной цепочки, который становится текущим анализируемым символом.
Выбор нужной альтернативы осуществляется процедурой по первому символу из еще нерассмотренной части исходной цепочки (т. е. по текущему символу).Работа системы процедур начинается с главной функции main( ). Она считывает первый символ исходной цепочки (заданной во входном потоке stdin) и вызывает процедуру S( ),которая проверяет, выводится ли входная цепочка из начального символа S (в общем случаеэто делается с участием других процедур, которые, в свою очередь, рекурсивно могут вызывать и саму S( ) для анализа фрагмента исходной цепочки).
Будем полагать, что в конце любой анализируемой цепочки всегда присутствует символ (признак конца цепочки)16), такчто в задачу main( ) входит также распознавание символа . Можно считать, что main( ) соответствует добавленному в грамматику правилу M → S, где M — новый начальный символ.16)На практике этим признаком может быть ситуация «конец файла» или «конец строки».49Элементы теории трансляции / Синтаксический анализПример.
Совокупность процедур рекурсивного спуска для грамматикиG1:S → ABdA → a | cAB → bAбудет такой:#include <iostream>using namespace std;int c;void A ();void B ();void gc (){cin >> c;}// текущий анализируемый символ// считать очередной символvoid S (){cout << "S-->ABd, "; // применяемое правило выводаA();B();if ( c != 'd' )throw c;gc ();}void A (){if ( c =='a' ){cout << "A-->a, ";gc ();}else if ( c =='c' ){cout << "A-->cA, ";gc ();A ();}elsethrow c;}void B (){if ( c =='b' ){cout << "B-->bA, ";gc ();A ();}50Элементы теории трансляции / Синтаксический анализelsethrow c;}int main (){try{gc ();S ();if ( c != '' )throw c;cout << "SUCCESS !!!" << endl;return 0;}catch ( int c ){cout << "ERROR on lexeme" << c << endl;return 1;}}Для цепочки, выводимой из S, программа напечатает (помимо сообщения об успехе)последовательность правил, применяемых при нисходящем построении дерева вывода дляданной цепочки (эта же последовательность годится для построения левого вывода).
Вместопечати применяемых правил можно вставить действия по формированию дерева в динамической памяти в виде узлов, связанных указателями. Такое дерево может использоваться на последующих этапах трансляции.Заметим, что даже если специально не фиксировать структуру анализируемой цепочки, система рекурсивных процедур все равно неявно обходит дерево вывода этой цепочки.Действительно, распознавание терминала b процедурой B( ) соответствует в дереве вывода ветви B, а вызов процедуры A( ) из процедуры B( ) соответствует ветви B. Добавив в процедурыbAанализа дополнительные действия, можно наряду с проверкой синтаксиса определять смысл(семантику) входной цепочки.
Например, смыслом арифметического выражения является егозначение, и оно может быть вычислено в процессе неявного обхода дерева при разборе этоговыражения системой рекурсивных процедур.Выбор нужной альтернативы при анализе методом рекурсивного спуска легко осуществим, если все альтернативы начинаются с попарно различных терминальных символов.Сформулируем достаточное условие применимости метода рекурсивного спуска.Достаточное условие применимости метода рекурсивного спускаДля применимости метода рекурсивного спуска достаточно, чтобы каждое правило вграмматике удовлетворяло одному из двух видов:(а) X → ,*где (T N ) и это единственное правило вывода для этого нетерминала;(б) X → a11 | a22 | ...
| ann,51Элементы теории трансляции / Синтаксический анализ*где ai T для всех i 1, 2,..., n ; ai aj для i j; i (T N ) , т. е. если для нетерминала X правил вывода несколько, то они должны начинаться с терминалов, причем все эти терминалы должны быть попарно различными;Это условие не является необходимым.
Грамматику, удовлетворяющую данному условию,называют s-грамматикой.Метод рекурсивного спуска является одной из возможных реализаций нисходящегоанализа с прогнозируемым выбором альтернатив. Прогнозируемый выбор означает, что пограмматике можно заранее предсказать, какую альтернативу нужно будет выбрать на очередном шаге вывода в соответствии с текущим символом (т.е. первым символом из еще непрочитанной части входной цепочки).
Далее мы подробно рассмотрим этот подход и сформулируем критерий его применимости.Нисходящий анализ с прогнозируемым выбором альтернативВ процессе построения левого вывода для произвольной цепочки в грамматикеG1:S → ABdA → a | cAB → bAможно отметить следующее:(1) любой вывод начинается с применения правила S → ABd ;(2) если на очередном шаге сентенциальная форма имеет вид wB, где w T —начало анализируемой цепочки, нетерминал B — самый левый в сентенциальнойформе, то для продолжения вывода его нужно заменить на bA (других альтернатив нет);(3) если на очередном шаге сентенциальная форма имеет вид wA, где w T —начало анализируемой цепочки, то выбор нужной альтернативы для замены Aможно однозначно предсказать по тому, какой символ в анализируемой цепочкеследует за начальной подцепочкой w: если символ a, то применяется альтернативаA → a, если символ c, то альтернатива A → cA; если какой-то иной символ —фиксируется ошибка: анализируемая цепочка не принадлежит языку L(G1);(4) если на каком-то шаге получилась сентенциальная форма вида w, отличная от(2) и (3), где w — максимально длинное начало, состоящее только из терминалов,то если пуста и w совпадает с анализируемой цепочкой, процесс вывода успешно завершается, иначе фиксируется ошибка: анализируемая цепочка не принадлежит языку L(G1).Отмеченные факты по поводу выбора нужной альтернативы на очередном шаге вывода в грамматике G1 представим в виде так называемой таблицы прогнозов (или таблицыпредсказаний):abcdSS → ABdS → ABdS → ABdS → ABdAA→aBA → cAB → bAИмея такую таблицу прогнозов (предсказаний) для КС-грамматики G, можно предложить следующий алгоритм нисходящего анализа (построение левого вывода):52Элементы теории трансляции / Синтаксический анализ1.