Лекция 3. Программирование на языке SAS. Основы шага DATA (1185375)
Текст из файла
Программирование на языкеSASЛекция 3 (Основы шага DATA)Авторы материалов:Петровский Михаил (ВМК МГУ, SAS Russia/CIS), michael@cs.msu.su1Форматы• Данные могут быть стандартные и нет:• Стандартные данные — это данные, которые SAS считывает без специальныхинструкций. Примеры стандартных числовых данных:58-2367.2300.995.67E51.2E-2• Нестандартные данные — это данные, которые SAS не может считать безспециальных инструкций. Примеры нестандартных числовых данных:5,823 15% $67.23 01/12/1999 12MAY2006• Форматы – инструмент в SAS для решения задач:••••Преобразования типовСпециального отображения/распознавания значений переменных«Эмуляции» сложных структурированных типов (а-ля union, date, time,structure и другие)Табличного поиска• Форматы бывают:•••Символьные и числовыеВходные (для чтения данных) и выходные (для отображения данных)встроенные и пользовательские, постоянные и временные (в зависимости отместа хранения), хранятся обычно в каталогах, либо в наборах данныхПроцедура создания форматаPROC FORMAT <option(s)>;EXCLUDE entry(s);INVALUE <$>name <(informat-option(s))> <valuerange-set(s)>;PICTURE name <(format-option(s))><value-range-set-1 <(picture-1-option(s))><value-range-set-2 <(picture-2-option(s))>> ...>;SELECT entry(s);VALUE <$>name <(format-option(s))> <value-range-set(s)>;• Именование форматов:• <$>name – любое корректное УНИКАЛЬНОЕ имя (как у переменной),если $ то символьный формат, если нет, то числовой.• Замечание:• По сути форматы аналог «большого switch», ставящего в соотвествиезначению исходной переменной (или множеству значений) значениепреобразованной переменной• При поиске подходящей ветки с условием может использоватьсябинарный поиск (таблица форматов грузится в память)3Примеры входных форматов SASПримеры входных форматов с указанием значений необработанныхданных и преобразованных числовых значений SAS:Входной форматЗначение данныхSAS$8.OutdoorsOutdoors5.1234512345COMMA7.DOLLAR7.$12,34512345COMMAX7.DOLLARX7.$12.34512345EUROX7.€12.3451234515%.15PERCENT3.4ЗначениенеобработанныхданныхПримеры входных форматов даты SASПримеры входных форматов даты с указанием значенийнеобработанных данных и преобразованных числовых значений SAS:Входной формат5ЗначениенеобработанныхданныхЗначение даты SASMMDDYY6.0101600MMDDYY8.01/01/600MMDDYY10.01/01/19600DDMMYY6.311260365DDMMYY8.31/12/60365DDMMYY10.31/12/1960365DATE7.31DEC59-1DATE9.31DEC1959-1Использование форматов в операторахFORMAT и INFORMAT• Операторы FORMAT и INFORMAT при определении переменной• Вывод:6Использование форматов в операторах ифункциях PUT/INPUT• Функции INPUT() и PUT()• используются для явного преобразования форматов, в том числе«внутри» выражений и условий:• Вывод: value=14463 str=07/08/99• Операторы INPUT и PUT• используются для вывода/чтения значения форматированнойпеременной при работе с журналом (как в примере) или с внешнимфайлом (будет далее).7Создание выходных нешаблонных форматовPROC FORMAT <option(s)>;VALUE <$>name <(format-option(s))> <value-range-set(s)>;RUN;• Имя формата не должно оканчиваться на цифру• В <value-range-set(s)> задается допустимый интервал входныхзначений и соответсвующий ему выходной текст• Интервал входных значений может быть:•••••Единичным значением, например, 0 или ‘ABC’Интервалом или списком, например, 1,3,7-11,19-100Ключевым словом OTHER (все остальные значения входной переменной)Опции MIN, MAX, DEFAULT задают «ширину» форматаИнтервал может содержать ключевые слова для правой и левой границыLOW и HIGH, интервалы могут быть открытые (указывае – перед или после<), например:8Создание входных нешаблонных форматовPROC FORMAT <option(s)>;INVALUE <$>name <(informat-option(s))> <value-range-set(s)>;RUN;• Имя формата аналогично выходному, причем может совпадать с«парным» выходным форматом• В <value-range-set(s)> задается допустимый интервал входныхзначений и соответсвующее ему выходное числовое значение• Интервал входных значений аналогично выходному формату• Дополнительно:• Опиция UPCASE автоматически переводит входное значение в верхний регистр• Опиця JUST удаляет пробелы слева• Специальные выходные значения _ERROR_ (генерирует ошибку) и _SAME_ (непреобразует вход)9Шаблонные форматыСпециальное форматированиечисловых данных (похоже нашаблоны printf, но проще)Исходное значениечисловых данныхФорматированноезначение5552134567(555)213-45672525%-25.1225.12DR213**********213Применяется для следующих задач:• отображение чисел с начальными нулями (0005);• заполнение чисел специальными символами (***5);• вставка символов в числа, например скобок (для телефонных номеров),символа процента и знака минус и других разделителей;• изменение отображения даты, времени или даты и времени;• форматирование валюты, если нет подходящего формата SAS.Шаблонные форматы состоят из селекторов для цифр и специальныхсимволов, вставляемых «внутрь» числа.Оператор PICTURE в PROC FORMATPROC FORMAT;PICTURE namevalue-or-range-1 <..., value-or-range-n>='picture';RUN;• Параметр picture задает выходной шабон и может содержать• Цифровые селекторы —символы (от 0 до 9), определяющие позициицифровых значений.• Селектор 0 подавляет начальные нули, а с 1 до 9 отображает числа сдобавлением нулей слева, например:‘001’‘001.11’’00,001’11.00112312.3412,345Оператор PICTURE в PROC FORMATНецифровые символы• Распечатываются так, как они указаны в шаблонеТелефонОтображениес форматом us_phone.Отображениес форматомus_phone_withzeros.121555559061 (215) 555-59061 (215) 555-590621555559060 (215) 555-5906215) 555-590655559060 (000) 555-5906555-590659060 (000) 000-59065906Оператор PICTURE в PROC FORMATПараметры• PREFIX= указывает нецифровые символы, печатаемые передцифрами• FILL= указывает символ для заполнения по умолчанию• MULT= задает множитель, на который домножается переменнаяперед применением форматаВложенные форматыВ операторе VALUE можно ссылаться на ранее определенный формат.value=[existing-format]Имя формата следует заключить в квадратные скобки:Способ сохранения форматов• Форматы сохраняются как записи каталога SAS.• Каталоги SAS — это специальные файлы SAS, в которых информацияразличных типов сохраняется как записи небольшого размера.• Одиночный каталог SAS может содержать несколько различных записей.• Каталоги SAS (work – временный, на сессию только)work.formatsPROC FORMAT;mylib.formatsPROC FORMATLIBRARY=mylib;mylib.MyFmtsPROC FORMATLIBRARY=mylib.MyFmts;Просмотр форматовПроцедура CATALOG в частности управляет записями каталогов SAS.Основные возможности PROC CATALOG:••••создание списка содержимого каталога;копирование каталога или выбранных записей каталога;переименование или удаление записей каталога;изменение описания записи каталога.Использование системной опции для заданияпутей поиска форматов FMTSEARCHСтандартные форматы SASwork.formatsmylib.formatsmylib.MyCatalog1mylib.MyCatalog2Нельзя поставитьприоитет своегокаталога вышестандартных форматовSASПоэтому нельзя«подменить»стандартные форматыРедактирование форматов с помощьконтрольных наборов данныхДва варианта:• Очевидный: измените код и перезапустить PROC FORMAT, создающийисходный формат• Неочевидный: создать набор данных SAS из формата, изменить наборданных и использовать опцию CNTLIN=, чтобы пересоздать формат.Шаг 1Каталогформатовproc format library=libref.catalogcntlout=SAS-data-set;select format-name;exclude format-name;run;Шаг 2Набор данныхШаг 3SASИзменитезначенияproc format library=libref.catalogcntlin=SAS-data-set;run;Пример редактирования форматов черезнабор данныхПреимущества и недостатки форматовПреимуществаНедостаткиИнтуитивно понятноТребования к памяти для загрузкицелого формата для двоичного поиска.Не нужно создавать дополнительныеданные.Для табличного поиска используетсятолько одна переменная.Возможность использованияв процедурах.Для хранения формата требуетсябольше места на диске, чем дляхранения эквивалентного набораданных SAS.Поиск в диапазоне для символьныхи числовых значений.Двоичный поиск в таблице.Централизованное обслуживание.Использование нескольких функцийPUT для создания несколькихпеременных.Возможность постоянного сохранения.Время и дата• Главное –все хранится как числа!!!• Типы «времени»:• Момент на временной шкале (в SAS + и – от полночи 1 января 1960 года вднях для дат и в секундах для времени)• Стандартный интервал календаря (месяц, год, день, час …)• Разница двух временных точек (в разных единицах - месяц, год, час и т.д.)• Обозначение «временных» констант:• Суфиксы d, t и dt, например, '0:00:12't или '25JAN1999 0:06:14'dt• Текущие значения через функции:• Date(), Time(), DateTime()• Много стандартных форматов:• DATE, MMDDYY, MONYY, WORDDATE, …• В том числе локализованных:• Выведет: 25Янв199921Функции для даты и времениДля работы с такими данными (все хранятся в переменных числового типа) есть, в частности,функции:DATEТекущая дата во внутр.
ФорматеDATEPART Извлекает часть, содержащую дату, из временной меткиDATETIMEТекущая дата/время (timestamp)DAYЧисло из даты во внутр. формате:DHMSReturns a SAS datetime value from date, hour, minute, and second values.HMSReturns a SAS time value from hour, minute, and second values.HOURЧас из внутр. формата времени или временной меткиINTCKКоличество временных промежутков, укладывающихся на данный интервал (годы, месяцы, недели …)INTNXКорректное увеличение даты или времени на заданный интервалMDYДата во внутреннем формате из месяца, числа, года: Mdy(1,1,2013) -> 19359MINUTEминуты из внутр. формата времени или временной меткиMONTHМесяц из внутр.
формата датыQTRВозвращает кварталSECONDВозвращает секундыTIMEТекущее время.TIMEPARTИзвлекает часть, содержащую время, из временной меткиTODAYТекущая дата во внутр. формате датыWEEKНомер недели из внутр. формата датыWEEKDAYДень недели из внутр. формата датыYEARГод из внутр. формата датыYRDIFВозвращает разность в указанных единицах с учетом календаря.day ( ’01jan2013’d ) -> 1; day (19359)-> 122Дополнительные возможности для работы свременем и датой• В параметре picture ключевое слово datatype=date или =time или=datetime• И набор спецсимволов, начинающихся с % для элементов дат ивремени, например:• Год %Y, год в две цифры %0Y, месяц %b, день в две цифры %0d, секунды%0S и так далее• Операции со временем и датам («временная» арифметика)• Как с обычными числами, включая циклы типа DO• А также специальные функции, корректно считающие интервалы сучетом календаря, например:23Другие «типы данных»• Бинарное представление••••Конастанта с суфиксом b, например, ‘1010111’bБитовые маски для сравнения, например, if (x=‘.01..1’b) then …Специальные входные и выходные форматы $BINARYw.Побитовые логические операции BAND, BOR,BXOR … и сдвиги BRSHIFT иBLSHIFT• Аналогично шестнадцетиричная арифметика:• Только суфикс x, формат $HEXw• Есть еще много форматов для:• представления чисел и символьных данных на разных нестандартныхвычислительных платформах• специальных числовых (например, только положительных) или символьных(например, zip) данных• Основные концепции при «эмуляции» сложных типов данных (union,structure и т.д.)• Хранить максимально компактно в символьном представлении• Использовать substr для доступа к элементам представления (как к полямструктуры)• Использовать форматы для преобразования значений• Использовать select для «условной» обработки элементов такой структуры24Преобразование типов• Реально типов только два: символьный и числовой с плавающейточкой• Где применимо SAS делает автоматическое преобразованиетипов:• Вернет x=8 y=100• Для явного преобразования типов••••PUT - из числового в символьныйИз символьного в числовой - INPUTЕсть специальный формат BETSЕсть спец.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.