Лекции: 2015 Лекции (Майсурадзе)
Описание
Характеристики лекций
Список файлов
- 2015 Лекции (Майсурадзе)
- 0.1. Знакомство (Майсурадзе).pptx 415,34 Kb
- 0.2. Знакомство (Сенько).pptx 856,06 Kb
- 0.3. Знакомство (Сенько) (big source) (extra).pptx 1,24 Mb
- 1.1. Введение. Общие сведения об интеллектуальном анализе данных.pdf 248,72 Kb
- 1.2. Методология анализа данных.pptx 247,49 Kb
- 2.1. Качество классификации (original).pptx 159,54 Kb
- 2.1. Качество классификации (с заметками).pptx 173,61 Kb
- 3.0. Формат хранения данных_ кодировки.txt 3,74 Kb
- 3.1. Elements of Decision Making (2011).pptx 3,18 Mb
- 4.1. Скользящий контроль - MachineLearning.pdf 392,75 Kb
- 5.1 Особенности поиска кратчайшего пути 2010.pptx 2,01 Mb
- 5.2 Объем шара и площадь сферы в разных метрических пространствах.docx 19,42 Kb
- Thumbs.db 12,5 Kb
- _ Доп. материалы по лекциям (Майсурадзе).7z 15,73 Mb
Форматы хранения данных:
comma separated values - допускается, что разделитель может встречаться внутри полей, поэтому нужен механизм quotes (возможность заключения в кавычки (для защиты от проблемы с использованием кавычек с самих полях ведётся подсчёт чётности справа и слева от запятой (вообще говоря справа, потому что lookahead быстрее))) (регулярными выражениями легче разбирается, чем экранированием)
tab delimited values - подразумевается, что разделитетль в полях не встречается
character map - это такая логическая конструкция, которая фиксирует конечное множество символов, где каждый символ характеризуется своим кодом и своей интерпретацией. (например, что 401h - это прописная кириллическая "а" (при этом мы не говорим, как оно выглядит))
Дополнительно может храниться информация о том, как эти символы делятся на классы.
Collation - это сопоставление символов (например перевод строчных в прописных и обратно, например при желании сравнивать символы, игнорируя регистр, ...)
Ещё бывают символы, которые входят в комбинацию с другими символами (например постановка 2-х точек над предыдущей букве, или постановка ударения, ...)
Для большинства таблиц символов множество кодов лежит от 0 до 255 - нету никаких гарантий на тему дырок/упорядочивания/...
В unicode коды лежат от 0 до 10FFFF
Coding/encoding - перевод последовательности кодов в последовательность байт.
Самая известная процедура кодирования - singlebyte, но потом начали придумывать multibyte (utf8, cp1251, ...)
Проблема endians - проблема того, в каком порядке писать multibyte
В unicode есть символ BOM (byte order mark) (FFFE).
Договорились, что текстовый файл начинается с этого символа.
После чего этот символ сохраняют соответствующей кодировкой, и дальше в зависимости от того, что получилось, можно понять, какая кодировка использовалась. utf-8 этот символ превращает в 3 байта. Кстати этот байт хорошо виден, если открыть файл в бинарном режиме.
Считается, что символ конца строки в строке не содержится.
Считается, что в конце файла лежит символ конца строки (хотя при работе с файлом, например конкатенации посимвольной, то мы его не увидим)
Для работы со строками часто пользуют регулярные выражения.