LEX7 (1131462)

Файл №1131462 LEX7 (Материалы к контрольным работам)LEX7 (1131462)2019-05-12СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла


Глава 2. Лексический анализ

Основная задача лексического анализа - разбить входной текст, состоящий из последовательности одиночных символов, на последовательность слов, или лексем, т.е. выделить эти слова из непрерывной последовательности символов. Все символы входной последовательности с этой точки зрения разделяются на символы, принадлежащие каким-либо лексемам, и символы, разделяющие лексемы (разделители). В некоторых случаях между лексемами может и не быть разделителей. С другой стороны, в некоторых языках лексемы могут содержать незначащие символы (пробел в Фортране). В Си разделительное значение символов-разделителей может блокироваться ('\' в конце строки внутри "...").

Обычно все лексемы делятся на классы. Примерами таких классов являются числа (целые, восьмеричные, шестнадцатиричные, действительные и т.д.), идентификаторы, строки. Отдельно выделяются ключевые слова и символы пунктуации (иногда их называют символы-ограничители). Как правило, ключевые слова - это некоторое конечное подмножество идентификаторов. В некоторых языках (например, ПЛ/1) смысл лексемы может зависеть от ее контекста и невозможно провести лексический анализ в отрыве от синтаксического.

С точки зрения дальнейших фаз анализа лексический анализатор выдает информацию двух сортов: для синтаксического анализатора, работающего вслед за лексическим, существенна информация о последовательности классов лексем, ограничителей и ключевых слов, а для контексного анализа, работающего вслед за синтаксическим, важна информация о конкретных значениях отдельных лексем (идентификаторов, чисел и т.д.). Поэтому общая схема работы лексического анализатора такова. Сначала выделяем отдельную лексему (возможно, используя символы-разделители). Если выделенная лексема - ограничитель, то он (точнее, некоторый его признак) выдается как результат лексического анализа. Ключевые слова распознаются либо явным выделением непосредственно из текста, либо сначала выделяется идентификатор, а затем делается проверка на принадлежность его множеству ключевых слов. Если да, то выдается признак соответствующего ключевого слова, если нет - выдается признак идентификатора, а сам идентификатор сохраняется отдельно. Если выделенная лексема принадлежит какому-либо из других классов лексем (число, строка и т.д.), то выдается признак класса лексемы, а значение лексемы сохраняется.

Л
ексический анализатор может работать или как самостоятельная фаза трансляции, или как подпрограмма, работающая по принципу "дай лексему". В первом случае (рис. 2.1) выходом лексического анализатора является файл лексем, во втором (рис. 2.2) лексема выдается при каждом обращении к лексическому анализатору (при этом, как правило, тип лексемы возвращается как значение функции "лексический анализатор", а значение передается через глобальную переменную). С точки зрения формирования значений лексем, принадлежащих классам лексем, лексический анализатор может либо просто выдавать значение каждой лексемы и в этом случае построение таблиц переносится на более поздние фазы, либо он может самостоятельно строить таблицы объектов (идентификаторов, строк, чисел и т.д.). В этом случае в качестве значения лексемы выдается указатель на вход в соответствующую таблицу.

Работа лексического анализатора описывается формализмом конечных автоматов. Однако, непосредственное описание конечного автомата неудобно практически. Поэтому для описания лексических анализаторов, как правило, используют либо формализм регулярных выражений, либо формализм контекстно свободных грамматик, а именно подкласса автоматных, или регулярных, грамматик. Все три формализма (конечных автоматов, регулярных выражений и автоматных грамматик) имеют одинаковую выразительную мощность. По описанию лексического анализатора в виде регулярного выражения или автоматной грамматики строится конечный автомат, распознающий соответствующий язык.

2.1. Регулярные множества и регулярные выражения

Пусть T - конечный алфавит. Регулярное множество в алфавите T определяется рекурсивно следующим образом (знаком '<-' будем обозначать принадлежность множеству, знаком '<=' включение):

(1) {} (пустое множество) - регулярное множество в алфавите T;

(2) {a} - регулярное множество в алфавите T для каждого a<-T;

(3) {е} - регулярное множество в алфавите T (e - пустая цепочка);

(4) если P и Q - регулярные множества в алфавите T, то таковы же и множества

(а) P U Q (объединение),

(б) PQ (конкатенация, т.е. множество pq, p<-P, q<-Q),

(в) P* (итерация: P*={e} U P U PP U...;

(5) ничто другое не является регулярным множеством в алфавите T.

Итак, множество в алфавите T регулярно тогда и только тогда, когда оно либо {}, либо {e}, либо {a} для некоторого a<-T, либо его можно получить из этих множеств применением конечного числа операций объединения, конкатенации и итерации.

Приведенное выше определение регулярного множества одновременно определяет и форму его записи, которую будем называть регулярным выражением. Для сокращенного обозначения выражения PP* будем пользоваться записью P+ и там, где это необходимо, будем использовать скобки. В этой записи наивысшим приоритетом обладает операция *, затем конкатенация и, наконец, операция U, для записи которой иногда будем использовать значок '|'. Так, 0|10* означает (0|(1(0*))). Кроме того, мы будем использовать запись вида

d1 = r1
d2 = r2
.......
dn = rn

где di - различные имена, а каждое ri - регулярное выражение над символами T U {d1,d2,...,di-1}, т.е. символами основного алфавита и ранее определенными символами. Таким образом, для любого ri можно построить регулярное выражение над Т, повторно заменяя имена регулярных выражений на обозначаемые ими регулярные выражения.

Пример 2.1. Несколько примеров регулярных выражений и обозначаемых ими множеств

Идентификатор - это регулярное выражение

Идентификатор = Буква (Буква|Цифра)*
Буква = {a,b,...,z}
Цифра = {0,1,...,9}

Число в десятичной записи - это регулярное выражение

Целое = Цифра+
Дробная_часть = . Целое | е
Спепень = ( Е ( + | - | е ) Целое ) | е
Число = Целое Дробная_часть Степень

Ясно, что для каждого регулярного множества можно найти по крайней мере одно регулярное выражение, обозначающее это множество. И обратно: для каждого регулярного выражения можно построить регулярное множество, обозначаемое этим выражением. Для каждого регулярного множества существует бесконечно много обозначающих его регулярных выражений. Будем говорить, что два регулярных выражения равны, если они обозначают одно и то же множество.

2.2. Конечные автоматы

Недетерминированный конечный автомат (НКА) - это пятерка M=<Q,T,D,q0,F>, где

(1) Q - конечное множество состояний;

(2) T - конечное множество допустимых входных символов;

(3) D - функция переходов, отображающая множество QxTU{e} во множество подмножеств множества Q и определяющая поведение управляющего устройства;

(4) q0<-Q - начальное состояние управляющего устройства;

(5) F<=Q - множество заключительных состояний.

Детерминированный конечный автомат (ДКА) - это пятерка M=<Q,T,D,q0,F>, где

(1) Q - конечное множество состояний;

(2) T - конечное множество допустимых входных символов;

(3) D - функция переходов, отображающая множества QxT в множество Q и определяющая поведение управляющего устройства;

(4) q0<-Q - начальное состояние управляющего устройства;

(5) F<=Q - множество заключительных состояний.

Работа конечного автомата представляет собой некоторую последовательность шагов, или тактов. Такт определяется текущим состоянием управляющего устройства и входным символом, обозреваемым в данный момент входной головкой. Сам шаг состоит из изменения состояния и сдвига входной головки на одну ячейку вправо (рис. 2.3).

Текущее состояние управляющего устройства, символ под головкой и цепочка символов вправо от головки называются конфигурацией автомата. Конфигурация (q0,w) называется начальной, а пара (q,e), где q<-F, называется заключительной (или допускающей).

Такт автомата M представляется бинарным отношением |-, определенным на конфигурациях: отношение имеет место, если есть переход из конфигурации (q1,w1) в конфигурацию (q2,w2). Для детерминированного конечного автомата всегда w1=aw2. Для нетерминированного автомата может быть w1=w2, если q2<-D(q1,e). Отношения |‑+ и |‑* - это, соответственно, транзитивное и рефлексивно-транзитивное замыкание отношения |-. Говорят, что автомат M допускает цепочку w, если (q0,w)|-*(q,e) для некоторого q<-F. Языком, допускаемым (распознаваемым, определяемым) автоматом M, (обозначается L(M)), называется множество входных цепочек, допускаемых автоматом M. Т.е.

L(M)={w | w<-T* и (q0,w)|-*(q,e) для некоторого q<-F}

Конечный автомат может быть изображен графически в виде графа, в котором каждому состоянию соответствует вершина, а дуга, помеченная символом a, соединяет две вершины p и q, если функция переходов содержит (q,a)->p. На диаграмме выделяются конечные состояния (в примерах выше двойным контуром).

Пример 2.2. Диаграмма для чисел языка Паскаль приведена на рис. 2.4.

2.3. Построение детерминированного конечного автомата по недерминированному

Алгоритм строит функцию переходов Dtran для детерминированного конечного автомата DFA. Каждое состояние DFA - это некоторое множество состояний недерминированного автомата NFA. DFA моделирует “в параллель” все возможные шаги NFA, которые он может сделать на входной строке. В алгоритме будут использоваться следующие операции:

e-closure(S) - множество состояний NFA, достижимых из некоторого состояния q<-S на e-переходах.

move(S,a) - множество состояний NFA, в которые есть переход на входе a для некоторого состояния q<-S.

Прежде, чем увидеть первый входной символ, NFA может находиться в любом состоянии из множества e-closure({q0}). Пусть S - множество состояний, достижимых NFA на некоторой последовательности входных символов и пусть a - очередной входной символ. Читая a, NFA может перейти в любое из состояний из move(S,a). Если учесть e-переходы, NFA может оказаться в любом из состояний из e-closure(move(S,a)).

Алгоритм 2.1. Построение детерминированного конечного автомата по недетермнированному

Вначале единственное состояние в Dstates - e-closure({q0}) и оно не помечено.

while (в Dstates есть непомеченное состояние S)
{пометить S;
for (каждого входного символа a<-T)
{R= e-closure(move(S,a));
if (R !<- Dstates)
добавить R в Dstates как непомеченное состояние;
определить Dtran[S,a]=R;
}
}

Начальное состояние так построенного автомата DFA - это e-closure({q0}), заключительное - любое такое, которое содержит заключительное состояние NFA.

e-closure(S) можно вычислить следующим образом:

R=e-closure(S)=S;
while (R!={})
{Пусть r<-R;
for (каждого q такого, что q <- D(r,e))
if (q !<- e-closure(S))
{добавить q к e-closure(S);
добавить q к R;
}
убрать r из R;
}

Пример применения алгортима приведен на рис. 2.5.

2.4. Построение детерминированного конечного автомата по регулярному выражению.

Приведем теперь алгоритм построения детерминированного конечного автомата по регулярному выражению [1]. К регулярному выражению (сокращенно РВ) r добавим маркер конца: (r)#. После построения ДКА для расширенного РВ легко построить ДКА для исходного РВ: все состояния ДКА из которых есть переход в конечное с чтением символа "#", можно считать конечными, а символ "#" и соответствующие переходы удалить.

Представим РВ в виде дерева, листья которого - терминальные символы, а внутренние вершины - операции "." (конкатенации), "U" (объединение), "*" (итерация).

Характеристики

Тип файла
Документ
Размер
474 Kb
Высшее учебное заведение

Тип файла документ

Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.

Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.

Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.

Список файлов ответов (шпаргалок)

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее