Попов И.И., Матвеев А.А., Максимов Н.В. Архитектура электронно-вычислительных машин и систем (2004) (1186255), страница 14
Текст из файла (страница 14)
4). Заметим,с начала 50-х годов (а во многом и сейчас) под термином теорияинформации подразумевались теоретические методы, связанные собеспечением как можно более точного приема, передачи, записи,воспроизведения, преобразования непрерывных сигналов (основныепонятия - линейность, нелинейность, шум, спектр сигнала, полосапропускания и пр.).Рис. 18. Аналоговый сигнал и его дискретная (цифровая) аппроксимация(оцифровка)Более чем тридцатилетнее развитие теории и практики ЭВМприводит к вытеснению (в том числе и на бытовом уровне) аналоговыхустройств и сигналов цифровыми. Наиболее типичным примеромявляется, несомненно, аудио компакт-диск (digital audio CD).
В этомслучае звуковой сигнал (рис. 4) сначала преобразуется в дискретнуюаппроксимацию ("многоуровневый ступенчатый сигнал"), затем каждаяступенькапредставляетсяпоследовательностьюбинарных,двухуровневых, цифровых сигналов. Принятый в настоящее времястандарт CD использует т.н. "16-разрядный звук с частотойсканирования 44 кГц". Для рис. 4 переводе на нормальный язык этоозначает, что "длина ступеньки" (τ) равна 1/44000 секунды, а "высотаступеньки" (δ) составляет 1/65536 от максимальной громкости сигнала(поскольку 216=65536). При этом частотный диапазон воспроизведениясоставляет 0 - 22 кГц, а динамический диапазон - 96 децибелл (чтосоставляет совершенно недостижимую для магнитной или механическойзвукозаписи характеристику качества).81В последующие годы появляются следующие цифровые средстваработы с аналоговыми сигналами:- MIDI (Musical Instruments Digital Interface) - аппаратурнопрограммные средства записи / воспроизведения музыкального сигналав цифровой форме, предназначенные также для редактирования,арранжировки, написания музыкальных произведений на компьютере);- цифровые фотокамеры: например, CASIO QV-10A, позволяющаязаписать 96 кадров 6х9 см.
(240х320 пикселей). Находящиеся в памятикадры могут быть переписаны в компьютер и подвергнуты обработкелюбым графическим редактором;- цифровые видеодиски (DVD), цифровые телевизоры и т.п.Измерение количества информацииТермин «информация» имеет корень «form» (форма), что означает- «информирование - придание формы, вывод из состояниянеопределенности», поэтому логично подходить к определению понятия"количество информации", исходя из того, что информацию,содержащуюся в сообщении, можно трактовать в смысле её новизныили, иначе, уменьшения неопределённости наших знаний об объекте.Американский инженер Р.
Хартли в 1928 г. процесс полученияинформации рассматривал как выбор одного сообщения из конечногозаданного множества из N равновероятных сообщений, а количествоинформации I, содержащееся в выбранном сообщении, определял какдвоичный логарифм N:I = log2NДопустим, нужно угадать одно число из набора чисел от единицыдо ста. По формуле Хартли можно вычислить, какое количествоинформации для этого требуется:I = log2100≈6,644.Таким образом, сообщение о верно угаданном числе содержитколичество информации, приблизительно равное 6,644 единицыинформации.Другие примеры равновероятных сообщений:- при бросании монеты: "выпала решка", "выпал орел";- на странице книги: "количество букв чётное", "количество буквнечётное".Определим теперь, являются ли равновероятными сообщения"первой выйдет из дверей здания женщина" и "первым выйдет из дверейздания мужчина".
Однозначно ответить на этот вопрос нельзя. Всезависит от того, о каком именно здании идет речь. Если это, например,станция метро, то вероятность выйти из дверей первым одинакова длямужчины и женщины, а если это военная казарма, то для мужчины этавероятность значительно выше, чем для женщины.82Для задач такого рода американский учёный Клод Шеннонпредложил в 1948 г. другую формулу определения количестваинформации, учитывающую возможную неодинаковую вероятностьсообщений в наборе.Формула Шеннона: I =- ( p1log2 p1 + p2 log2 p2 + . .
. + pN log2 pN)=N∑ p logi =1i2piгде pi — вероятность того, что именно i-е сообщение выделено в набореиз N сообщений.Очевидно, что если вероятности p1, ..., pN равны, то каждая из нихравна1, и формула Шеннона превращается в формулу Хартли.NПомимо двух рассмотренных подходов к определению количестваинформации, существуют и другие. Важно помнить, что любыетеоретические результаты применимы лишь к определённому кругуслучаев, очерченному первоначальными допущениями.В качестве единицы информации Клод Шеннон предложилпринять один бит (англ. bit — binary digit — двоичная цифра).Бит в теории информации — количество информации,необходимое для различения двух равновероятных сообщений("орел"—"решка", "чет"—"нечет" и т.п.).В вычислительной технике битом называют наименьшую"порцию" памяти компьютера, необходимую для хранения одного издвух знаков "0" и "1", используемых для внутримашинногопредставления данных и команд.За единицу информации можно было бы выбрать количествоинформации, необходимое для различения, например, десятиравновероятных сообщений.
Это будет не двоичная (бит), а десятичная(дит) единица информации.Бит — слишком мелкая единица измерения. На практике чащеприменяется более крупная единица — байт, равная восьми битам.Восемь бит требуется для того, чтобы закодировать любой из 256символов алфавита клавиатуры компьютера (256=28).Используются также ещё более крупные производные единицыинформации:Килобайт (Кбайт) = 1024 байт = 210 байт,Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.В последнее время в связи с увеличением объёмовобрабатываемой информации входят в употребление такие производныеединицы, как:Терабайт (Тбайт) = 1024 Гбайт = 240 байт,Петабайт (Пбайт) = 1024 Тбайт = 250 байт.Экзобайт = 1018 Мбайт, и пр.83Кодирование символьной информацииРассмотрим методы дискретного представления информации, иликодирования (которые, надо сказать, появились задолго довычислительных машин).
Первым широко известным примеромявляется Азбука Морзе (табл. 3), в которой буквы латиницы (иликириллицы) и цифры кодируются сочетаниями из "точек" и "тире".Воспользуемся данным кодом для иллюстрации основных понятий,связанных с кодированием (не вдаваясь в теорию кодирования).Таблица 18Фрагменты кода МорзеСимвол входного Мнемоническоеалфавитаобозначение поМСС*)alfaAbravoBcharlieCdeltaDechoE......yankeeYzuluZone1......nine9*) Международный Свод СигналовКодовая(знаковая)комбинация.-...-.-.-......-.---...---...----.Кодируемые (обозначаемые) элементы входного алфавитаназываются символами; кодирующие (обозначающие) элементывыходного алфавита - знаками; количество различных знаков ввыходном алфавите назовем значностью (-арностью, -ичностью);количество знаков в кодирующей последовательности для одногосимвола - разрядностью кода; последовательным кодом является такой,в котором знаки следуют один за другим во времени (например, радиоили оптические сигналы, либо передача по двум проводам,двужильному кабелю,), параллельным - тот, в котором знаки передаютсяодновременно (например, по 4-м проводам, 4-жильному кабелю),образуя символ (т.е.
символ передается в один прием, в один моментвремени).Применительно к азбуке Морзе (АМ):- символами являются элементы языкового алфавита (буквы А - Zили А - Я) и цифровой алфавит (здесь - цифры 0 - 9);84- знаками - точка и тире (или + и - либо 1 и 0, короче - два любыхразных знака);- поскольку знаков два, АМ является двузначным (бинарным,двоичным) кодом, если бы их было 3, то мы имели бы дело с троичным,тернарным, трехзначным кодом;- поскольку число знаков в АМ колеблется от 1 (буквы Е, Т) до 5(цифры), здесь имеет место код с переменной разрядностью (в АМ частовстречающиеся в тексте символы обозначены более короткими кодами,нежели редкие символы).Рис.
19. Перфокарта ХоллеритаПоскольку знаки передаются последовательно (электрическиеимпульсы, звуковые или оптические сигналы разной длины,соответствующие "точкам" и "тире"), АМ есть последовательный код(можно представить себе некоторое табло, на котором вспыхивали бысочетания лампочек, образующих точки и тире, одновременнопредставляющие передаваемый символ, но автору не приходилосьслышать о подобных абсурдных приспособлениях).Первые опыты телеграфной и радиосвязи осуществлялись именнопосредством АМ, причем приемное устройство записывало импульсыпеременной длины в виде "точек" и "тире" на движущуюся телеграфнуюленту, однако уже в начале ХХ-го века был осуществлен переход на 5разрядный (5-битовый) телеграфный код.В таблице 19 приводится перечень наиболее известных кодов,некоторые из них использовались первоначально для связи, кодированияданных, а затем - для представления информации в ЭВМ:- код Бодо - 5 разрядный код, бывший в прошлом европейскимстандартом для телеграфной связи (другое название - IA-1 - internationalalphabet #1);85- M-2 (российское обозначение) или IA-2 (международноеобозначение) - телеграфный код, предложенный МеждународнымКомитетом по телефонии и телеграфии (МККТТ) и заменивший кодБодо;- ASCII (American Standard Code for Information Interchange) стандартный 7-битовый код для передачи данных, поддерживает 128символов, включающих заглавные и строчные символы латиницы,цифры, специальные значки и управляющие символы.
Этот код, ккоторому были добавлены некоторые национальные символы (10бинарных комбинаций), был принят Международной организацией постандартизации (ISO) как стандарт ISO-7;- EBCDIC (Expanded Binary Coded Decimal Information Code) - 8разрядный код, предложенный фирмой IBM для машин серий IBM/360375 (внутреннее представление данных в памяти), а затемраспространившийся и на системы других производителей;- ASCII-8 - 8-разрядный код, принятый для внутреннего ивнешнего представления данных в вычислительных системах. Включаетстандартную часть (128 символов) и национальную (128 символов).Соответственно, в зависимости от национальной части, кодовыетаблицы различаются (см. Приложения 2-3)- код Холлерита, предложенный для ПК (1913 год), затемиспользовавшийся для кодирования информации перед вводом в ЭВМ сперфокарт (рис.19).Таблица 19Некоторые кодовые таблицыНаименованиекодовойстраницы (CodePage)Latin-1Latin-8Latin-CCP-437CP-850CP-852 ,CP-862CP-866Интерпретация кодовой страницыМеждународный стандарт (ISO-8859-1) дляинтерпретации 2-й половины (128-256) кодаASCII, таблица предназначена для латиницыМеждународный стандарт (ISO-8859-8), дляивритаМеждународный стандарт (ISO-8859), длякириллицыСтандарт IBM для интерпретации 2-й половины(128-256) кода ASCII, таблица предназначенадля греческого алфавитаСтандарт IBM для восточно-европейскихалфавитовСтандарт IBM для греческого алфавитаСтандарт IBM для ивритаСтандарт IBM для русской кириллицы86Таблица 20Разрядность некоторых наиболее известных кодовКодIA-2 (M2, МККТТ-2)Baudot (Бодо)ISO-7 (IA-5, ASCII-7, USASCII, ANSIX3.4)EBCDICASCII-8Hollerith (Перфокарты Холлерита)Разрядность5578812Таблица 21Фрагменты некоторых кодовых таблицСимволIA-2БодоISO-7ABCDabcd.
(точка), (запятая):(двоеточие)? (вопрос)03190E091006161E1C0C1E050941424344616263642E2C3B100D3FEBCDI ASCIIC8C1A1C2A2C3A3C4A481E182E283E384E44B4E6B4C5E5B6F5FХоллерит90088084082084224240A206Кодирование чисел и их обработкаКроме кодирования символов, в ЭВМ, очевидное и важноезначение имеет кодирование и представление чисел.Системы счисленияМы привыкли считать предметы десятками, сотнями: десятьединиц образуют десяток, десять десятков — сотню, десять сотен —тысячу и т. д. Это - система счисления десятичная. Но десятичнаясистема не единственно возможная.