45963 (665269), страница 4
Текст из файла (страница 4)
Мы уже знаем, что, программа, с которой непосредственно общается пользователь
при работе с ресурсами WWW, называется программой просмотра WWW-документов.
Напоминаем, что работа такой программы заключается в посылке запроса к заданному
серверу, интерпретации полученной информации и представления ее пользователю.
Кроме того, она выполняет ряд вспомогательных задач, например, поддерживает
список прочитанных документов, чтобы пользователь мог к ним вернуться в
дальнейшем.
В настоящее время получили распространение более десяти программ просмотра
WWW-документов. Из графических программ просмотра наибольшего внимания, на наш
взгляд, заслуживают NCSA Mosaic, Netscape Navigator и Microsoft Internet
Explorer.
Программа NCSA Mosaic была создана в Национальном Центре Суперкомпьютерных
Приложений Университета штата Иллинойс в Урбана-Шампэйн в начале 1993 года
группой программистов, возглавляемых студентом по имени Марк Андреессен. В то
время Mosaic являлась единственной программой просмотра, написанной на
профессиональном уровне, дружественной по отношению к пользователю и работающей
на многих типах компьютеров. Не вызывает сомнений, что именно Mosaic открыла
World Wide Web для большинства пользователей. В настоящее время в NCSA группа
разработчиков (в основном, студентов старших курсов) продолжает трудиться над
новыми версиями Mosaic, несмотря на то, что по своим возможностям эта программа
уже существенно уступает более новым программам. Mosaic является некоммерческим
программным продуктом, доступным для пользователей бесплатно. Исходный код
программы Mosaic открыт и активно используется разработчиками многих других
программ просмотра.
Netscape Navigator (сокращенно - Netscape) - это в настоящий момент, пожалуй,
самая популярная программой просмотра, работающая на тех же типах компьютеров,
что и Mosaic. Netscape - детище компании Netscape Communications Corporation,
основанной в начале 1994 года Джимом Кларком, который в свое время основал
крупную компанию Silicon Graphics, знаменитую своими графическими станциями.
Джиму Кларку удалось переманить в Netscape Communications Corporation
первоначальных разработчиков программы Mosaic из Иллинойса, в том числе и самого
Марка Андреессена. Netscape - это коммерческий продукт, за пользование которым
надо платить. Однако, для пользователей в университетах Netscape доступна
бесплатно. Кроме версий, работа над которыми завершена, компания периодически
выпускает отладочные версии Netscape (так называемые бетаверсии), которыми можно
пользоваться бесплатно до наступления определенной даты, после которой программа
перестает функционировать.
Microsoft Internet Explorer (сокращенно - IE) - творение фирмы Microsoft
Corporation. По функциональным возможностям и удобству использования IE примерно
эквивалентен упомянутой выше программе Netscape Navigator. В отличие от
последней, IE работает на значительно меньшем количестве компьютерных платформ.
IE распространяется бесплатно для всех пользователей.
Кроме Mosaic, Netscape и IE, стоит упомянуть такие программы как Lynx, IBM Web
Explorer и AOL Browser.
Анализ доступа на сервер Engineering показывает, что наиболее широко
используется Netscape Navigator. В настоящее время между Microsoft Corporation и
Netscape Corporation идет острейшая борьба за первенство на рынке программного
обеспечения для Internet, и весьма вероятно, что Microsoft вскоре существенно
потеснит Netscape и остальных своих конкурентов.
2.5. Основные команды программ просмотра
Оконный интерфейс графических программ просмотра прост и интуитивно понятен всем
пользователям, знакомым с Microsoft Windows. В полосе заголовка окна, которая
располагается вдоль верхней границы окна, выводится название программы просмотра
- Netscape - и название текущего документа. Далее в верхней части окна
расположены элементы управления программой: меню и экранные кнопки. Большую
часть окна занимает собственно область, в которой выводится содержание
просматриваемых WWW-документов. В нижней части окна расположена строка
состояния. В этой строке Netscape отображает такую информацию, как, например,
процентную долю от полного размера загружаемого в данный момент файла или URL
документа, на который указывает гиперссылка, если курсор мыши поместить на
соответствующий участок документа.
В таблице ниже приведены команды, необходимые для выполнения простейших действий
при просмотре документов в WWW при помощи Netscape Navigator 3.0. Система команд
и меню в других графических программах ненамного отличается от принятой в
Netscape. Следует учесть, что авторы программ просмотра из какихто таинственных
побуждений используют различные термины для обозначения одних и тех же понятий.
ДействиеКоманда в Netscape 3.0
Открыть документ с известным URL на WWW-сервере.Меню: File Open Location
Затем впечатать URL в появившемся диалоговом окне и “нажать” экранную
кнопку OK.
Или: Впечатать URL в поле “Location:”, расположенное в верхней части окна,
и нажать клавишу Enter.
Открыть домашнюю страницу (homepage).“Нажать” экранную кнопку с
изображением домика Home
Прервать загрузку документа.“Нажать” экранную кнопку Stop
Открыть документ, находящийся в файле на локальном компьютере.Меню: File
Open File
Перезагрузить текущий документ.“Нажать” экранную кнопку Reload.
Сохранить текущий документ в файле.Меню: File Save As
Перейти к просмотру документа, с которым имеется гиперсвязь в текущем
документе.Переместить указатель мыши в выделенный подчеркиванием и/или
контрастным цветом участок на экране и щелкнуть левой клавишей мыши.
Двигаться назад по цепочке документов, просмотренных в текущем сеансе
работы.“Нажать” экранную кнопку << Back
Вернуться к произвольному документу, просмотренному в текущем сеансе
работы.Меню: Go, затем указать название необходимого документа из списка.
Двигаться вперед по цепочке просмотренных документов.“Нажать” экранную
кнопку >> Forward
Запомнить URL текущего документа в списке “закладок” для последующего
возврата к немуМеню: Bookmark Add Bookmark
Открыть документ из списка “закладок”.Меню: Bookmark
Выбрать документ из спускающегося меню
Программы просмотра способны правильно отобразить содержимое файлов самых
различных форматов, начиная от простейших текстовых и заканчивая графическими,
звуковыми и другими специализированными форматами; при этом, как мы уже знаем,
“родным” форматом для WWW является HyperText Markup Language (HTML). А что же
происходит, когда программа просмотра “не понимает” формата загружаемого файла?
В первый раз столкнувшись с этой нередкой ситуацией, можно и растеряться,
поэтому мы кратко опишем два возможных варианта развития событий:
1. Программа просмотра знает, какая из других программ, установленных на вашем
компьютере, понимает формат данного файла. - В этом случае программа просмотра
запустит требуемую программупомощника или программуприставку и передаст ей
полученный файл для обработки. Как правило, программа просмотра, прежде чем
запустить программупомощника, спрашивает вашего разрешения. Это делается по той
причине, что даже самый невинный на первый взгляд файл может быть потенциально
опасен для вашего компьютера. В частности, документы в формате Word for Windows
6.0 могут содержать макрокоманды, способные уничтожать или переписывать файлы на
вашем жестком диске!
2. Программа просмотра не знает, у какой программы попросить помощи при
интерпретации данного файла. - В этом случае вам будет предложено четыре
альтернативы:
More Info... - дать дополнительную информацию о возникшей ситуации и предложить
установить программу-приставку (plugin), которая понимает данный формат файла,
Pick App... - выбрать программу-помощника, уже установленную на вашем
компьютере, для обработки данного файла,
Save File... - сохранить файл на локальном диске,
Cancel - отменить загрузку данного файла. Часто команду Save File... используют
для того, чтобы получить программное обеспечение и документацию из коллекций
(“архивов”).
Проблема русификации
Создатели программного обеспечения для работы в WWW первоначально не были
слишком озабочены нуждами людей, желающих публиковать и читать информацию на
своих родных языках, не использующих латинский алфавит, в том числе и на русском
языке. В последнее время ситуация начинает заметно изменяться к лучшему, но все
же просмотр и публикация документов на русском языке сопряжена с некоторыми
трудностями.
2.6. Коды и символы
Файл, содержащий гипертекстовый WWW-документ, представляет собой текстовый файл.
“Внутри” компьютера современной архитектуры и при передаче по сетям каждый
символ текста представляется в виде целого числа, которое, в свою очередь,
кодируется комбинацией из восьми двоичных разрядов, называемых битами. Такая
комбинация из восьми бит, обрабатываемых ЭВМ как одно целое, получила название
байт. Каждый бит в байте может иметь ровно два состояния: “включен” и
“выключен”, или “1” и “0”.
Легко убедиться, что существует ровно 256 комбинаций из восьми бит, каждый из
которых может быть занят -либо нулем, -либо единицей. Таким образом получается,
что восемью битами (то есть, одним байтом) могут быть представлены числа, или
коды, от 0 до 255 (то есть, от 00000000 до 11111111 в двоичной системе
счисления). Каждому коду можно поставить в соответствие определенный текстовый
символ, например, букву или цифру, или управляющий символ, такой как возврат
каретки, переход на новую строку и т. п. Чтобы текст выглядел одинаково на
мониторах разных компьютеров, необходим определенный стандарт на соответствие
кодов и представляемых ими символов для текстовой информации. Такой стандарт,
принятый в настоящее время на подавляющем большинстве компьютерных систем,
получил название American Standard Code for Information Interchange (ASCII,
произносится как “аски”). Этот стандарт охватывает лишь коды от 0 до 127. В
кодовой таблице ASCII не нашлось места для многих часто используемых специальных
символов. Также, из буквенных символов там присутствуют только символы
английского алфавита. Чтобы закодировать буквы национальных алфавитов, в том
числе русского, сохранив при этом совместимость с таблицей ASCII, необходимо
использовать коды в диапазоне от 128 до 255. Вот тутто и начинаются сложности.
Кодовые таблицы для кодировки букв русского алфавита (кириллицы)
Существует довольно много различных кодовых таблиц, совпадающих в диапазоне
кодов от 0 до 127 со стандартом ASCII и использующих диапазон кодов от 128 до
255 для специальных символов и букв русского алфавита. Среди них наиболее
распространены следующие четыре:
1. Microsoft Windows Cyrillic code page 1251
Известна также как CP1251 или Windows1251. Наиболее широко применяется в
“русифицированных” системах Microsoft Windows 3.1, 95 и NT.
2. KOI8r
Базируется на государственном стандарте Кода Обмена Информацией КОИ8 (ГОСТ
1976874). Применяется в основном на компьютерах с операционной системой UNIX.
Принята за стандарт кодирования русскоязычных текстов при обмене по электронной
почте. Большинство WWW-серверов хранят русскоязычные документы в этой кодировке.
В настоящее время имеются наборы шрифтов для Microsoft Windows в кодировке
KOI8r. Они были разработаны специально для сетевых программ, работающих под
Windows.
3. CP866 Microsoft/IBM code page 866
Известна также как “альтернативная кодировка ГОСТа” (в некоторых документах ее
обозначают AltGOST или alt). Применяется в основном на персональных компьютерах
IBM PC с операционной системой MSDOS при работе в текстовом режиме. Программы
просмотра под DOS практически не используются (обычно на IBMсовместимых машинах
они работают под Microsoft Windows). Однако, мы упоминаем эту кодировку,
поскольку текст WWW-документа можно создавать в текстовом редакторе, работающем
под DOS.
4. ISO88595
Расположение русских букв в ней практически совпадает с так называемой “основной
кодировкой ГОСТа” (иногда можно встретить ее обозначение как MainGOST).
Применяется редко, хотя и является международным стандартом кодировки русского
алфавита, зарегистрированным International Standards Organization (ISO).
Несколько особняком от вышеперечисленных кодировок стоит кодировка Unicode,
которая, по замыслу ее разработчиков, входящих в так называемый консорциум
Unicode, должна раз и навсегда решить проблему хранения в текстовых файлах
символов любой из существующих на Земле систем письменности. К сожалению, пока
еще Unicode используется весьма редко.
При переносе файлов с текстами на русском языке с одного компьютера на другой,