46663 (588412), страница 3
Текст из файла (страница 3)
06/ - ключевые слова и текст статьи.
Первая строка атрибута – ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:
Бюджет. Задолженность.
Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.
07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;
08/ - автор статьи.
Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.
=== - признак завершения информационного сообщения (три символа "равно").
Пример заполнения информационной части сообщения приведен в приложении В.
3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии
К подготовке информационных сообщений СМИ предъявляются следующие требования:
1. Текст сообщения подготавливается в виде текстового файла.
2. Информация в текстовом файле размещается в одну колонку и не форматируется.
3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).
4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.
5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.
6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.
7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.
8. Текст не должен содержать незаконченных предложений и обрывов в словах.
9. В текстовый файл не заносятся:
- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;
- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;
- спецсимволы, отсутствующие на клавиатуре ПЭВМ.
Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:
По материалам российского радио.
10. Если к статье газеты дается аннотация или комментарий, выделенные
другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:
Комментарий (фамилия автора).
11. Фамилия от инициалов отделяется пробелом.
12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.
13. Аббревиатуры вводятся без точек и разрядки.
14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.
15. В числах между цифрами не должно быть пробелов.
16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.
17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.
18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).
19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:
_________________
(прим.2) - ...
*) ....
20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.
21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».
22. Текст сообщения должен быть отредактирован. Все спецсимволы в
тексте должны быть заменены следующим образом:
- кавычки («») на кавычки (" ");
- номер (№) на номер (латинская буква N);
- длинное тире () на тире (-);
- буква (ё) на букву (е);
- апостроф (') на твердый знак.
Характерными ошибками в текстовых файлах являются:
- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);
- слова написаны слитно без пробела;
- в сложных словосочетаниях пропуск дефиса;
- после сокращения и знаков препинания отсутствует пробел;
- пропуск точки в сокращении и в единицах измерения;
- вместо запятой стоит точка и наоборот;
- вместо номера (латинской буквы N) стоит другой символ.
Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.
Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:
- рубрики 1-го уровня;
- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;
- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;
- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.
Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документов представлена в приложении Е.
3.4 Описание организации информационной базы
3.4.1 Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:
- статьи;
- газета;
- регион;
- отрасль;
- справочник отраслей;
- рубрики;
- классификация;
- рубрикатор 1;
- рубрикатор 2;
- рубрикатор 3;
- рубрикатор 4;
- словарь рубрикатора 3;
- словарь рубрикатора 4.
Их описание представлено в таблицах 3.1 – 3.13 соответственно.
Таблица 3.1 – Таблица «Статьи»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Код газеты | Числовой | Длина 2 символа | |
| Код региона | Числовой | Длина 8 символов | |
| Код статьи | Счетчик | Последовательное значение | |
| Уникальный ключ | Наименование | Текстовый | Длина 150 символов |
| Ключевые слова | Текстовый | Длина 255 символов | |
| Текст | Поле MEMO | ||
| Дата | Дата/время | Краткий формат даты | |
| Автор | Текстовый | Длина 150 символов | |
| Файл | Текстовый | Длина 255 символов | |
| Классифицировано | Логический | Истина/ложь |
Таблица 3.2 – Таблица «Газета»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код газеты | Числовой | Длина 2 символа |
| Наименование | Текстовый | Длина 150 символов |
Таблица 3.3 – Таблица «Регион»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код региона | Числовой | Длина 8 символов |
| Наименование региона | Текстовый | Длина 150 символов |
Таблица 3.4 – Таблица «Отрасль»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Составной ключ | Код статьи | Числовой | Длинное целое |
| Код отрасли | Числовой | Длинное целое |
Таблица 3.5 – Таблица «Справочник отраслей»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код отрасли | Числовой | Длинное целое |
| Наименование | Текстовый | Длина 150 символов |
Таблица 3.6 – Таблица «Рубрики»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Составной ключ | Код рубрики | Числовой | Длинное целое |
| Код статьи | Числовой | Длинное целое | |
| Уровень рубрики | Числовой | Длинное целое |
Таблица 3.7 – Таблица «Классификация»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код статьи | Числовой | Длинное целое |
| Код рубрики | Числовой | Длинное целое | |
| Уровень рубрики | Числовой | Длинное целое | |
| По названию статьи | Числовой | Длинное целое | |
| По ключевым словам | Числовой | Длинное целое | |
| По тексту статьи | Числовой | Длинное целое | |
| Результат | Текстовый | Длина 50 символов |
Таблица 3.8 – Таблица «Рубрикатор 1»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_1 | Счетчик | Последовательное значение |
| Индекс_1 | Числовой | Длинное целое | |
| Наименование_1 | Текстовый | Длина 150 символов |
Таблица 3.9 – Таблица «Рубрикатор 2»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_2 | Счетчик | Последовательное значение |
| Индекс_2 | Числовой | Длинное целое | |
| Наименование_2 | Текстовый | Длина 150 символов | |
| Код_1 | Числовой | Длинное целое |
Таблица 3.10 – Таблица «Рубрикатор 3»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_3 | Счетчик | Последовательное значение |
| Индекс_3 | Числовой | Длинное целое | |
| Наименование_3 | Текстовый | Длина 150 символов | |
| Код_2 | Числовой | Длинное целое |
Таблица 3.11 – Таблица «Рубрикатор 4»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_4 | Счетчик | Последовательное значение |
| Индекс_4 | Числовой | Длинное целое | |
| Наименование_4 | Текстовый | Длина 150 символов | |
| Код_3 | Числовой | Длинное целое |
Таблица 3.12 – Таблица «Словарь рубрикатора 3»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_3 | Числовой | Длинное целое |
| Слова | Текстовый | Длина 255 символов |
Таблица 3.13 – Таблица «Словарь рубрикатора 4»
| Первичный ключ | Атрибуты | Тип данных | Описание |
| Уникальный ключ | Код_4 | Числовой | Длинное целое |
| Слова | Текстовый | Длина 255 символов |
Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.











