сист пр об ч 3 (1085772), страница 3
Текст из файла (страница 3)
8.1.5.3. Фаза сборки
В начале данной главы было сказано, что задача компилятора — создать эквивалент исходной программы на машинном языке. Однако в наших примерах генерации кодов выходная программа была представлена на языке ассемблера. Литералы и символические адреса нагляднее для читателя, однако компилятор должен создавать программы на машинном языке.
Компилятор может генерировать вместо литералов и переменных ссылки на фактические места в оперативной памяти, выделенные им программой распределения памяти. Однако меткам значения не могут быть присвоены до тех пор, пока не будет сгенерирована последняя команда. Следовательно, с фазой генерации кодов связывается:
-
Генерирование кода.
-
Определение значений меток и разрешение всех ссылок. Мы разделяем (1) фазу генерации кодов и (2) фазу сборки, так как они логически различны и часто реализуются отдельно. Функционально фаза сборки похожа на второй просмотр ассемблера.
8.1.6. ОБЩАЯ СХЕМА КОМПИЛЯТОРА
При анализе компиляции нашей простой программы на языке ПЛ/1 мы определили семь различных логических задач, которые перечислены ниже и представлены на рис. 8.13.
-
Лексический анализ — распознавание базовых элементов, и создание стандартных символов.
-
Синтаксический анализ — распознавание базовых синтаксических конструкций с использованием редукций.
-
Интерпретация — определение точного смыслового значения, создание матрицы и таблиц при помощи программ интерпретации.
-
Машинно-независимая оптимизация — создание более оптимальной матрицы.
-
Распределение памяти — модификация таблиц идентификаторов и литералов. В матрицу помещается информация, позволяющая при генерации кода создавать код, который распределяет динамическую память. Это также позволяет на фазе сборки резервировать надлежащее количество статической памяти.
-
Генерация кода — использование макропроцессора для получения более оптимального кода сборки.
-
Сборка и выдача — разрешение символических адресов к генерирование программы на машинном языке.
Эти наименования используются в качестве названий семи фаз в нашей схеме компилятора. Фазы от первой до четвертой — машинно-независимые и определяются только языком. Фазы от пятой до седьмой — машинно-зависимые и не зависят от языка. В целях эффективности в практических реализациях эти фазы могут и не быть так четко разделены.
Мы должны оценивать компилятор не только по производимому объектному коду, но также и по количеству оперативной памяти, занимаемой им, и по времени, требуемому для трансляции.
К сожалению, эти критерии оптимальности часто противоречивы. Кроме того, оптимальность кода обычно обратно пропорциональна сложности, размеру и времени работы самого компилятора. На самом деле требуются компромиссы, необходимость в которых станет очевидной по прочтении этой главы.
Мы также упоминали или предполагали наличие следующих основных баз данных, используемых компилятором и обеспечивающих связи между фазами:
А. Исходный код — в нашем примере это простая программа на языке ПЛ/1, изображенная на рис. 8.1.
Б. Таблица стандартных символов — состоит из полного или частичного списка лексических единиц, расположенных в том порядке, в каком они встречаются в программе. Она создается при лексическом анализе и используется для синтаксического анализа и интерпретации (рис. 8.3).
В. Таблица терминальных символов — постоянная таблица, в которой записаны все ключевые слова и специальные символы языка в символьной форме (на них ссылаются стандартные символы на рис. 8.3).
Г. Таблица идентификаторов — содержит все переменные данной программы (в нашем примере их четыре), временную память и информацию, необходимую для того, чтобы сослаться или отвести память для них; эта таблица создается при лексическом анализе, модифицируется при интерпретации и распределении памяти, используется при генерации кода и сборке (рис. 8.8). В ней может содержаться информация о всех ячейках временной памяти, которые компилятор создает для последующего использования во время выполнения исходной программы (например, временные записи в матрице).
Д. Таблица литералов — содержит все константы программы (две в нашем примере). Создается и используется аналогично таблице идентификаторов.
Е. Редукции — постоянная таблица решающих правил в форме образцов для сравнения с таблицей стандартных символов в целях распознавания синтаксической структуры.
Ж. Матрица — промежуточная форма, которая создается программами интерпретации, оптимизируется и потом используется для генерации кода (рис. 8.6).
3. Кодовые продукции — постоянная таблица определений. В таблице имеется отдельный элемент, определяющий код для каждой возможной операции матрицы (рис. 8.9).
И. Код сборки — версия программы на языке сборки, созданная фазой генерации кода и служащая входом для фазы сборки.
К. Перемещаемый объектный код — окончательный выход фазы сборки, используется как входная информация для загрузчика.
Эти фазы, базы данных и их взаимодействие представлены на рис. 8.13. На этом рисунке представлена также общая схема компилятора, описанная во второй части и используемая в третьей части этой главы. При чтении остальных частей этой главы для полноты картины рекомендуется обращаться к этому рисунку,
Часть 2
8.2. ФАЗЫ КОМПИЛЯТОРА
В данном разделе подробно рассматриваются семь фаз компилятора. Каждая фаза (рис. 8.13) описывается хронологически, и базы данных вводятся по мере того, как компилятор создает их или впервые обращается к ним. В целях эффективности или из-за особых свойств исходных языков фактические реализации могут в той или иной степени отходить от предлагаемых баз данных и алгоритмов. Например, языки, подобные ФОРТРАНу или КОБОЛу, могут не требовать того, чтобы компилятор устанавливал столько же атрибутов в таблице идентификаторов, сколько необходимо для языков типа ПЛ/1 или АЛГОЛ. Предложенные алгоритмы также могут оказаться не лучшими для отдельных частных ситуаций. Однако нашей схемой мы хотим показать основные принципы, которым необходимо следовать при разработке компиляторов. Мы полагаем, что читатель может расширить базы данных для того, чтобы учесть исключения и специальные случаи, с которыми он столкнется при реализации своего собственного компилятора.
8.2.1. ЛЕКСИЧЕСКАЯ ФАЗА
8.2.1.1. Задачи
При выполнении фазы лексического анализа решаются следующие задачи:
-
Грамматический разбор программы на базовые элементы, или лексические единицы языка.
-
Построение таблиц литералов и идентификаторов,
-
Построение таблицы стандартных символов,
8.2.1.2. Базы данных
При решении этих задач используются следующие базы данных:
1. Исходная программа — программа в ее первоначальном формате; воспринимается компилятором как строка символов,
2. Таблица терминальных символов — постоянная база данных, которая имеет отдельный элемент для каждого терминального символа (например, арифметические операции, ключевые слова, символы, не являющиеся буквами или цифрами). Каждый элемент состоит из терминального символа, указателя его классификации (операция, разделитель) и его старшинства (используемого в последующих фазах). Смотри упражнение 1 в гл. 7„ Ниже представлен элемент таблицы терминальных символов:
Символ
Указатель
Старшинство \
3. Таблица литералов — создается при лексическом анализе для того, чтобы описать все литералы, используемые в исходной программе. Каждому литералу соответствует один элемент таблицы, состоящий из ряда атрибутов, адреса, указывающего на местоположение литерала во время счета (заполняется последующими фазами), и другой информации (например, в некоторых реализациях можно различать литералы, используемые программой, и литералы, используемые компилятором, такие, как литерал 31 в выражении ВINARY FIXED (31). Такие атрибуты, как тип данных или точность, могут быть выведены из самого литерала и записаны при лексическом анализе. Элемент таблицы литералов выглядит следующим образом:
Литерал I Основание
Формат
Точность
Другая информация I Адрес
4. Таблица идентификаторов — создается при лексическом анализе для того, чтобы описать все идентификаторы, имеющиеся в исходной программе. Каждому идентификатору соответствует отдельный элемент таблицы. Во время лексического анализа в этот элемент помещается имя идентификатора. Так как во многих языках длина идентификатора может меняться от 1 до 31, то лексическая фаза для эффективного использования памяти записывает в таблицу идентификаторов указатель. Указатель указывает на имя в таблице имен. Атрибуты данных и адрес для каждого идентификатора записываются последующими фазами. Элемент таблицы идентификаторов выглядит так:
Имя:
Атрибуты \ Адрес \
5. Таблица стандартных символов — создается при лексическом анализе для того, чтобы представить программу строкой
лексических единиц, а не отдельных символов. (Пробелы и комментарии исходной программы не представляются стандартными символами и не используются последующими фазами. Каждой лексической единице в программе соответствует стандартный символ.) Каждый стандартный символ содержит указатель на таблицу, элементом которой является соответствующая лексическая единица (например, указатель таблицы или программы), и его индекс внутри этой таблицы. Ниже представлен элемент таблицы стандартных символов.
Таблица | Индекс |
8.2.1.3. Алгоритм
Первой задачей алгоритма лексического анализа является разбор входной строки символов на лексические единицы. Второй — заполнение соответствующих таблиц. Лексическая единица — это подстрока входной строки, представляющая собой базовый элемент языка. Она может содержать только элементарные символы и не может включать другие лексические единицы. Для остальной части компилятора лексическая единица выступает в качестве наименьшей единицы языка. С элементарными символами имеют дело только фаза лексического анализа и выходной процессор фазы сборки. Стандартные символы служат терминальными символами для синтаксического анализа.
Существует много способов реализации фазы лексического анализа. На рис. 8.14 представлен результат работы лексической фазы для нашего примера программы на ПЛ/1.
Входная строка разделяется на лексические единицы символами-разделителями. Разделители помечаются в специальном поле таблицы терминальных символов. Символы исходной программы читаются, проверяются на корректность и выясняется, не являются ли они разделительными. Стоящие подряд символы, не являющиеся разделителями, объединяются в лексические единицы. Строки между разделителями являются лексическими единицами, если состоят из символов, отличных от пробела. Пробел может служить разделителем. В противном случае он игнорируется.
При лексическом анализе распознаются три типа лексических единиц: терминальные символы, возможные идентификаторы и литералы. Сначала все лексические единицы сравниваются с элементами таблицы терминальных символов. В случае совпадения лексическая единица классифицируется как терминальный символ и формируетRя стандартный символ типа ТRМ, который помещается затем в таблицу стандартных символов. Если
лексическая единица не является терминальным символом, при последующем анализе она классифицируется как возможный идентификатор или литерал. Те лексические единицы, которые
1 2 3 4 5 € 7 8 9 10
Таблица, терминальных символов Символ Разделитель Другие
: | Да | |
; | Да | |
( | Да- | |
) | Ди | |
, | Да | |
# | Да | |
РRОСЕDURЕ | Нет | |
DЕСLARЕ | Нет | |
RETURN | Нет | |
END | Нет | |
+ - | ||
и т.д. |
Таблица стандартных символов
Тип Индекс Лексические