lex_doc (1119420), страница 2

Файл №1119420 lex_doc (Синтаксические и лексические анализаторы) 2 страницаlex_doc (1119420) страница 22019-05-092019-05-09СтудИзба

Синтаксические и лексические анализаторы

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

можно указывать в двойных кавычках. В этом случае это всегда

просто символ - его специальное значение отменяется. Напри-

мер:

"abc"

abc

эти последовательности символов идентичны.

. точка означает любой символ, кроме символа новой строки

"\n";

\восьмеричный_код_символа

указание символа его восьмеричным кодом (как в Си);

\n символ новой строки;

\t символ табуляции;

\b возврат курсора на один шаг назад;

пробел

любой символ пробела в выражении, если он не находится

внутри квадратных скобок, необходимо заключать в двой-

ные кавычки. Это необходимо, так как пробел и табуляция

используются lex в качестве разделителя между определе-

нием и действием в правиле.

2.2. Операторы регулярных выражений

Операторы обозначаются символами-операторами, к ним

относятся:

\ ^ ? * + | $ / %

[] {} () <<>>

Каждый из этих символов или пар скобок в регулярном выраже-

нии играет роль оператора. Если необходимо отменить специ-

альное значение символа, обозначающего оператор, перед ним

нужно поставить символ \ или указать его в двойных кавычках.

Например:

abc+ - символ "+" - оператор;

abc\+ - символ "+";

abc"+" - символ "+".

2.3. Оператор выделения классов символов

Квадратные скобки задают классы символов, которые в них

заключены.

[abc]

означает либо символ "a", либо "b", либо символ "c";

Знак - используется для указания любого символа из лек-

сикографически упорядоченной последовательности:

[A-z]

означает любой латинский символ;

[А-Я]

любая прописная русская буква;

[+-0-9]

все цифры и знаки "+" и "-".

2.4. Повторители

Когда необходимо указать повторяемость вхождения сим-

вола в регулярном выражении, используют операторы-

повторители * и +.

Оператор * означает любое (в том числе и 0) число вхож-

дений символа или класса символов. Например:

x* любое число вхождений символа "x";

abc* любое число вхождений цепочки "abc";

[A-z]*

любое число вхождений любой латинской буквы;

[A-ZА-Яa-zа-я_0-9]*

любое вхождение русских и латинских букв, знака подчер-

кивания и цифр.

Оператор + означает одно и более вхождений. Например:

x+ одно или более вхождений "x";

[0-9]+

одно или более вхождений цифр;

abc+ одно или более вхождений цепочки abc;

[A-z]+

одно или более вхождений любой латинской буквы.

2.5. Операторы выбора

Операторы:

/ | ? $ ^

управляют процессом выбора символов.

Оператор /:

ab/cd

"ab" учитывается только тогда, когда за ним следует

"cd".

Опeратор |:

ab|cd

или "ab", или "cd".

Опeратор ?:

x? означает необязательный символ "x".

_?[A-Za-z]*

означает, что перед цепочкой любого количества латинс-

ких букв может быть необязательный знак подчеркивания.

-?[0-9]+

выделит любое целое число с необязательным минусом впе-

реди.

Оператор $:

x$ означает выбрать символ "x", если он является последним

в строке. Стоит перед символом "\n"!

abc$ означает выбрать цепочку "abc", если она завершает

строку.

Оператор ^:

^x означает выбрать символ "x", если он является первым

символом строки;

^abc означает выбрать цепочку символов "abc", если она начи-

нает строку.

[^A-Z]*

означает все символы, кроме прописных латинских букв.

Когда символ ^ стоит перед выражением или внутри [], он

выполняет операцию дополнение. Внутри квадратных скобок

символ ^ должен обязательно стоять первым у открывающей

скобки!

2.6. Оператор {}

Оператор {} имеет два различных применения:

x{n,m} здесь n и m натуральные, m > n. Означает от n до m

вхождений x, например, x{2,7} - от 2 до 7 вхождений

{имя} вместо {имя} в данное место выражения будет подстав-

лено определение имени из области определений Lex-

программы.

Пример:

БУКВА [A-ZА-Яa-zа-я_]

ЦИФРА [0-9]

ИДЕНТИФИКАТОР {БУКВА}({БУКВА}|{ЦИФРА})*

{ИДЕНТИФИКАТОР} printf("\n%s",yytext);

lex построит лексический анализатор, который будет опреде-

лять и выводить все "слова" из входного файла. Под словом в

данном случае подразумевается идентификатор Си-программы. В

этом примере {ИДЕНТИФИКАТОР} будет заменен на

{БУКВА}({БУКВА}|{ЦИФРА})*, затем на [A-ZА-Яa-zа-я_]([A-ZА-

Яa-zа-я_]|[0-9])*.

yytext - это внешний массив символов программы

lex.yy.c, которую строит lex. yytext формируется в процессе

чтения входного файла и содержит текст, для которого уста-

новлено соответствие какому-либо выражению. Этот массив дос-

тупен пользовательским разделам Lex-программы.

Оператор printf выводит каждый идентификатор на новой

строке.

Правило ".|\n ;" используется для того, чтобы

пропустить (не выводить) все цепочки символов, которые не

соответствуют регулярному выражению {ИДЕНТИФИКАТОР}.

2.7. Оператор <<>>. Служебные слова START и BEGIN

Раздел правил Lex-программы может содержать активные и

неактивные правила. Активные правила выполняются всегда.

Неактивные выполняются только в тех случаях, когда выполня-

ется некоторое начальное условие.

Начальные условия Lex-программы помещаются в раздел

определений, а неактивные правила помечаются соответствую-

щими условиями. Оператор START позволяет указать список

начальных условий Lex-программы, а оператор BEGIN позволяет

активировать правила, помеченные начальными условиями.

Активные правила имеют следующий синтаксис:

РЕГУЛЯРНОЕ_ВЫРАЖЕНИЕ ДЕЙСТВИЕ

Неактивные правила имеют следующий синтаксис:

<<МЕТКА_УСЛОВИЯ>>РЕГ_ВЫРАЖЕНИЕ ДЕЙСТВИЕ

ВАЖНО: любое правило должно начинаться с первой позиции

строки, пробелы и табуляции недопустимы - они используются

как разделители между регулярным выражением и действием в

правиле!

Рассмотрим пример:

%START COMMENT

КОММ_НАЧАЛО "/*"

КОММ_КОНЕЦ "*/"

{КОММ_НАЧАЛО} { ECHO;

BEGIN COMMENT;};

[\t\n]* ;

<COMMENT>[^*]* ECHO;

<COMMENT>[^/] ECHO;

<COMMENT>{КОММ_КОНЕЦ} {

ECHO;

printf("0);

BEGIN 0;};

lex построит лексический анализатор, который выделяет ком-

ментарии в Си-программе и записывает их в стандартный файл

вывода. Программа начинается с ключевого слова START, кото-

рое указано после символа %. Ключевое слово START можно

указать и так: Start, или S, или s . За ключевым словом

START указана метка начального условия COMMENT.

Оператор "<COMMENT>x" означает - x, если анализатор

находится в начальном условии COMMENT.

Oператор "BEGIN COMMENT;" переводит анализатор в

начальное условие COMMENT (смотрите первое правило раздела

правил этой Lex-программы). После этого анализатор уже нахо-

дится в новом состоянии и теперь разбор входного потока сим-

волов будет осуществляется и теми правилами, которые начина-

ются оператором "<COMMENT>". Например, правило

<COMMENT>[^*]* ECHO;

выполняется только тогда, когда во входном потоке символов

будет обнаружено начало комментариев ("/*"). В этом случае

анализатор записывает в стандартный файл вывода любое число

(в том числе и ноль) символов, отличных от символа "*". Опе-

ратор "BEGIN 0;" переводит анализатор в исходное состояние.

Lex-программа может содержать несколько помеченных

начальных условий. Например, если Lex-программа начинается

строкой

%START AA BB CC DD

то это означает, что она управляет четырьмя начальными сос-

тояниями анализатора. В каждое из этих начальных состояний

анализатор можно перевести, используя оператор BEGIN.

Каждое правило, перед которым указан оператор типа

"<<МЕТКА>>", мы будем называть помеченным правилом. Метка фор-

мируется так же, как и метка в Си.

Количество помеченных правил не ограничивается. Кроме

того, разрешается одно правило помечать несколькими метками,

например:

<<МЕТКА1,МЕТКА2,МЕТКА3>>x ДЕЙСТВИЕ

Запятая - обязательный разделитель списка меток!

Рассмотрим пример с несколькими начальными условиями:

%START AA BB CC

БУКВА [A-ZА-Яa-zа-я_]

ЦИФРА [0-9]

ИДЕНТИФИКАТОР {БУКВА}({БУКВА}|{ЦИФРА})*

^# BEGIN AA;

^[ \t]*main BEGIN BB;

^[ \t]*{ИДЕНТИФИКАТОР} BEGIN CC;

\t ;

\n BEGIN 0;

<AA>define printf("Определение.\n");

<AA>include printf("Включение.\n");

<AA>ifdef {

printf("Условная компиляция.\n"); }

<BB>[^\,]*","[^\,]*")" {

printf("main с аргументамии.\n"); }

<BB>[^\,]*")" {

printf("main без аргументов.\n"); }

<CC>":"/[ \t] printf("Метка.\n");

Программа содержит активные и неактивные правила. Все неак-

тивные правила помечены, перед ними указана метка начального

условия. Lex-программа управляет тремя начальными условиями,

в соответствии с которыми активируются помеченные правила.

В результате работы lex мы получим лексический анализа-

тор, который будет распознавать в Си-программе строки преп-

роцессора Си-компилятора, выделять функцию main, распозна-

вая, с аргументами она или без них, распознавать метки.

Лексический анализатор не выводит ничего, кроме сообщений о

выделенных лексемах.

3. Структура Lex-программы

Lex-программа включает разделы опредeлений, правил и

пользовательских программ. Рассмотрим подробнее способы

оформления этих разделов.

Все строки, в которых занята первая позиция, относятся

к Lex-программе. Любая строка, не являющаяся частью правила

или действия, которая начинается с пробела или табуляции,

копируется в сгенерированную программу lex.yy.c - результат

работы lex.

3.1. Раздел определений Lex-программы

Определения, предназначенные для lex, помещаются перед

первым %%. Любая строка этого раздела, не содержащаяся между

%{ и %} и начинающаяся в первой колонке, является определе-

нием строки подстановки lex. Раздел определений Lex-

программы может включать:

начальные условия,

определения,

фрагменты программы пользователя,

таблицы наборов символов,

указатели host-языка,

изменения размеров внутренних массивов,

комментарии в формате host-языка.

НАЧАЛЬНЫЕ УСЛОВИЯ задаются в форме:

%START имя1 имя2 ...

Если начальные условия определены, то эта строка должна быть

первой в Lex-программе.

ОПРЕДЕЛЕНИЯ задаются в форме:

имя трансляция

В качестве разделителя используется один или более пробелов

или табуляций. Пример:

БУКВА [A-ZА-Яa-zа-я_]

DIGIT [0-9]

ИДЕНТИФИКАТОР {БУКВА}({БУКВА}|{DIGIT})*

Характеристики

Тип файла

Документ

Размер

120,71 Kb

Материал

Синтаксические и лексические анализаторы

Тип материала

Другое

Предмет

Практикум (Прикладное программное обеспечение и системы программирования)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов учебной работы

sintaksicheskie-i-leksicheskie-analizatory.rar

Синтаксические и лексические анализаторы

Coco-R

Программа - для С++

CocoR

Coco.exe

CocoSourcesCPP.zip

Action.cpp

Action.h

ArrayList.cpp

ArrayList.h

BitArray.cpp

BitArray.h

CharClass.cpp

CharClass.h

CharSet.cpp

CharSet.h

Coco.atg

Coco.cpp

Comment.cpp

Comment.h

DFA.cpp

DFA.h

Generator.cpp

Generator.h

Graph.h

HashTable.cpp

HashTable.h

Makefile.

Melted.cpp

Melted.h

Node.cpp

Node.h

Parser.cpp

Parser.frame

Parser.h

ParserGen.cpp

Полное содержание архива

Parser.frame

Scanner.frame

Taste.zip

Taste

Coco.exe

CodeGenerator.h

Makefile.

Parser.cpp

Parser.frame

Parser.h

Scanner.cpp

Scanner.frame

Scanner.h

SymbolTable.cpp

SymbolTable.h

Taste.IN

Taste.atg

Taste.cpp

Taste.exe

Test.TAS

build.bat

coc.bat

run.bat

__MACOSX

Taste

._Scanner.frame

cocorc17 - for unix.tgz

Разные мануалы

Примеры

Taste

Coco.exe

CodeGenerator.h

Makefile.

Parser.cpp

Parser.frame

Parser.h

Scanner.cpp

Scanner.frame

Scanner.h

SymbolTable.cpp

SymbolTable.h

Taste.IN

Taste.atg

Taste.cpp

Taste.exe

Test.TAS

build.bat

Полное содержание архива

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.