lex (813547), страница 13
Текст из файла (страница 13)
При этомциклический вызов функции input исключает из входного потока все символы до конца строки.Функция unput возвращает обратно во входной поток символ перевода строки для обработкипо третьему полному правилу. Это правило обеспечивает естественное или аварийноезавершение лексического анализа, в конце входной строки, содержащей скобочное выражение.Последнее правило с пустым действием необходимо для того, чтобы блокировать обработкулюбыхвходныхсимволов,кромеспецифицированныхврегулярныхвыраженияхпредшествующих правил.Результат проверки правильности расстановки скобок с помощью рассмотренной системыправил можно оценить по последнему значению переменной bracketcount, котороевозвращается оператором return системы программирования C в действии третьего полногоправила. Скобочное выражение считается корректным, если значение переменной bracketcountпосле завершения лексического анализа равно нулю.
Если значение переменной bracketcountположительно, то в регулярном выражении открывающих скобок больше, чем закрывающих навеличину значения счетчика скобок. Если значение переменной bracketcount отрицательно, тозакрывающих скобок больше, чем предшествующих им открывающих скобок.Кроме прикладных и перегруженных стандартных функций в секции подпрограмм может бытьспецифицирован исходный код основной функции main, которая необходима, когдалексический анализатор реализуется в формате выполняемого модуля. Основная функция mainв данном случае должна содержать вызов функции yylex, которая формируется генераторомLEX по действиям правил и обеспечивает выполнение процедуры лексического анализа.В стандартном варианте, который содержится в библиотеке объектных модулей генератораLEX, компонуемой при сборке выполняемого модуля лексического анализатора, исходный кодосновной функции main имеет следующий вид:main() {yylex();exit(0);} /* main */При необходимости расширить стандартный вариант основной функции main, ее исходныйкод, дополненный соответствующими инструкциями, может быть размещен в секцииподпрограмм файла спецификации лексем вместе с исходным кодом прикладных иперегруженных стандартных функций.
Кроме того, исходный код основной функции mainследует специфицировать даже в стандартном варианте, если не планируется компоновкабиблиотеки объектных модулей генератора LEX при сборке выполняемого модулялексического анализатора.Модификация стандартного варианта основной функции main необходима, когда требуетсядополнительная постобработка кодов возврата функции yylex, например, для визуализациирезультатов лексического анализа.
Эту ситуацию иллюстрирует следующая спецификацияосновной функции main для лексического анализатора скобочных выражений, правилакоторого были рассмотрены выше:int main() {while(feof(stdin) == 0)switch(yylex()) {case 0:puts(" OK (~)"); /* Правильная расстановка скобок */break;case –1:puts((" ER (<)"); /* Пропущена открывающая скобка */break;default:puts((" ER (>)"); /* Не хватает закрывающих скобок */break;} /* switch */exit(0);} /* main */В данном случае основная функция main обеспечивает визуальную диагностику результатовлексического анализа скобочных выражений. Ее стандартный исходный код может бытьперегружен в секции подпрограмм файла спецификации лексем или задан в отдельном файле,который после компиляции компонуется при сборке лексического анализатора.Для выполнения процедуры лексического анализа входных строк в основной функции mainпредусмотрен циклический вызов функции yylex, которая формируется генератором LEX подействиям правил.
Ее различные коды возврата, передаваемые оператором return в действияхправил, соответствуют трем альтернативам оператора switch в основной функции main. Каждаяальтернатива реализует стандартный вывод диагностического сообщения, которое отражаетрезультат лексического анализа расстановки скобок в текущей строке стандартного ввода. Дляотображения диагностических сообщений во всех альтернативах используется библиотечнаяфункция puts системы программирования C. Цикл вызова функции yylex и диагностика ее кодавозврата продолжается, пока не достигнут конец потока стандартного ввода, которыйидентифицирует библиотечная функция feof системы программирования C.ОБРАБОТКА СПЕЦИФИКАЦИЙ ЛЕКСЕМТехнологический процесс разработки лексического анализатора с использованием генератораLEX разделяется на три этапа:подготовка файла спецификаций лексем,генерация исходного кода лексического анализатора,компиляция объектного или выполняемого модуля лексического анализатора.На первом этапе необходимая спецификация лексем создается разработчиком лексическогоанализатора и сохраняется в текстовом файле с произвольным именем в любом доступномрабочем каталоге файловой системы OS UNIX.
Обычно имя файла спецификации лексемсопровождается расширением .l, которое обозначает его предметную область. Базовое имяфайла спецификации лексем часто выбирают по названию проектируемого лексическогоанализатора. Для формирования файла спецификации лексем может быть использован любойтекстовый редактор OS UNIX.На втором этапе по файлу спецификации лексем формируется исходный код лексическогоанализатора на языке программирования C. Для решения этой задачи генератор LEXпредоставляет одноименную команду lex, выполняемый модуль которой располагается вкаталоге /usr/bin файловой системы OS UNIX.
В простейшем варианте команда lex можетбыть вызван с единственным аргументом, который обозначает имя файла спецификациилексем. В этом случае исходный код проектируемого лексического анализатора по умолчаниюформируется в текстовом файле с предопределенным именем lex.yy.c, который создается втекущем каталоге файловой системы OS UNIX. Если, например, спецификация лексемсосредоточена в файле lexan.l, то его обработка генератором LEX для получения исходногокода в файле lex.yy.c может быть реализована следующей командной строкой:$ lex lexan.lКогда требуется получить исходный код лексического анализатора в файле с заданным именем,командная строка вызова генератора LEX должна содержать опцию -t перед аргументом,который обозначает имя файла спецификации лексем. В этом случае исходный кодлексического анализатора формируется в потоке стандартного вывода, который всегда можноперенаправить в файл с указанным именем средствами любого интерпретатора командOS UNIX.
Например, следующая командная строка обрабатывает спецификацию лексем вфайле lexan.l и обеспечивает получение исходного кода лексического анализатора в файлеlexan.c, куда перенаправляется поток стандартного вывода:$ lex -t lexan.l > lexan.cЧтобы получить возможность практически использовать лексический анализатор, необходимона третьем этапе преобразовать его исходный код, построенный генератором LEX по файлуспецификации лексем, в объектный или исполняемый модуль. Для этого могут бытьиспользованы стандартные инструментальные средства компилирующей системы языкапрограммирования C.
Обращение к ней в OS UNIX обеспечивает команда cc (или gcc),результат выполнения которой зависит от опций и аргументов командной строки ее вызова. Вчастности, компиляцию исходного кода лексического анализатора, который сосредоточен,например, в файле lex.yy.c в объектный модуль обеспечивает следующая командная строка:$ cc -c lex.yy.cВ результате выполнения этой командной строки, образуется объектный файл lex.yy.o втекущем каталоге файловой системы OS UNIX. Он может компоноваться с другимиобъектными модулями при конструировании выполняемой программы, обеспечивая в нейчтение и требуемую лексическую обработку входного потока символьной информации.Например, при проектировании разнообразных трансляторов Обычно лексический анализаторобычно реализуется в формате объектного модуля, который компонуется с объектным модулемсинтаксического анализатора, передавая ему коды типов и значения распознаваемых лексемвходного потока.
должен передавать на следующую стадию синтаксического анализа кодытипов и значения распознанных лексем. При этом особенно просто осуществляетсявзаимодействие с объектным модулем синтаксического анализатора, который формируетсягенератором синтаксических анализаторов YACC.Во втором случае, когда требуется получить исполняемый модуль лексического анализатора,исходный код которого сосредоточен, например, в файле lexan.c, обращение к средствамкомпилирующей системы языка программирования C может быть реализовано следующейкомандной строкой:$ cc –o lexan lexan.c –llПри выполнении этой командной строки исходный код лексического анализатора в файлеlexan.c транслируется в указанный после ключа –o исполняемый файла lexan, которыйобразуется в текущем каталоге файловой системы OS UNIX. Последний аргумент (–ll) этойкомандной строки гарантирует компоновку объектных модулей стандартной библиотекиlibl.a или libl.so генератора LEX, которые обычно располагаются в каталоге /usr/libфайловой системы OS UNIX.
Это необходимо, когда лексический анализатор используетстандартные варианты перегружаемой функции yywrap и основной функции main, которыеявно не определены в секции подпрограмм файла спецификации лексем.Построение лексического анализатора в формате исполняемого файла целесообразно, когда ондолжен решать самостоятельные задачи, связанные с лексической обработкой входного потокасимвольных данных. Например, преобразование формата входного потока данных, контекстнаязамена, обработка комментариев в исходном тексте программы, исключение лишних пробелов,измерение количественных характеристик входного потока. В любом из перечисленныхслучаев лексический анализатор должен выполняться как индивидуальная программа,обеспечивая требуемую лексическую обработку входного потока.ПРИМЕР РАЗРАБОТКИ ЛЕКСИЧЕСКОГО АНАЛИЗАТОРАМногие практические приложения лексического анализа являются частными разновидностямиобщей проблемы поиска совпадений для фрагмента входного текста, ограниченного (илиразделяемого) известными символьными элементами.