46663 (588412), страница 3

Файл №588412 46663 (Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации) 3 страница46663 (588412) страница 32016-07-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

06/ - ключевые слова и текст статьи.

Первая строка атрибута – ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:

Бюджет. Задолженность.

Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.

07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;

08/ - автор статьи.

Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.

=== - признак завершения информационного сообщения (три символа "равно").

Пример заполнения информационной части сообщения приведен в приложении В.

3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии

К подготовке информационных сообщений СМИ предъявляются следующие требования:

1. Текст сообщения подготавливается в виде текстового файла.

2. Информация в текстовом файле размещается в одну колонку и не форматируется.

3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).

4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.

5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.

6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.

7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.

8. Текст не должен содержать незаконченных предложений и обрывов в словах.

9. В текстовый файл не заносятся:

- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;

- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;

- спецсимволы, отсутствующие на клавиатуре ПЭВМ.

Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:

По материалам российского радио.

10. Если к статье газеты дается аннотация или комментарий, выделенные

другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:

Комментарий (фамилия автора).

11. Фамилия от инициалов отделяется пробелом.

12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.

13. Аббревиатуры вводятся без точек и разрядки.

14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.

15. В числах между цифрами не должно быть пробелов.

16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.

17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.

18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).

19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:

_________________

(прим.2) - ...

*) ....

20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.

21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».

22. Текст сообщения должен быть отредактирован. Все спецсимволы в

тексте должны быть заменены следующим образом:

- кавычки («») на кавычки (" ");

- номер (№) на номер (латинская буква N);

- длинное тире () на тире (-);

- буква (ё) на букву (е);

- апостроф (') на твердый знак.

Характерными ошибками в текстовых файлах являются:

- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);

- слова написаны слитно без пробела;

- в сложных словосочетаниях пропуск дефиса;

- после сокращения и знаков препинания отсутствует пробел;

- пропуск точки в сокращении и в единицах измерения;

- вместо запятой стоит точка и наоборот;

- вместо номера (латинской буквы N) стоит другой символ.

Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.

Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:

- рубрики 1-го уровня;

- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;

- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;

- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.

Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.

Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат

классификации.

Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.

Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.

Структура выходных данных и документов представлена в приложении Е.

3.4 Описание организации информационной базы

3.4.1 Описание организации внутримашинной базы

Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:

- статьи;

- газета;

- регион;

- отрасль;

- справочник отраслей;

- рубрики;

- классификация;

- рубрикатор 1;

- рубрикатор 2;

- рубрикатор 3;

- рубрикатор 4;

- словарь рубрикатора 3;

- словарь рубрикатора 4.

Их описание представлено в таблицах 3.1 – 3.13 соответственно.

Таблица 3.1 – Таблица «Статьи»

Первичный ключ

Атрибуты

Тип данных

Описание

Код газеты

Числовой

Длина 2 символа

Код региона

Числовой

Длина 8 символов

Код статьи

Счетчик

Последовательное значение

Уникальный ключ

Наименование

Текстовый

Длина 150 символов

Ключевые слова

Текстовый

Длина 255 символов

Текст

Поле MEMO

Дата

Дата/время

Краткий формат даты

Автор

Текстовый

Длина 150 символов

Файл

Текстовый

Длина 255 символов

Классифицировано

Логический

Истина/ложь

Таблица 3.2 – Таблица «Газета»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код газеты

Числовой

Длина 2 символа

Наименование

Текстовый

Длина 150 символов

Таблица 3.3 – Таблица «Регион»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код региона

Числовой

Длина 8 символов

Наименование региона

Текстовый

Длина 150 символов

Таблица 3.4 – Таблица «Отрасль»

Первичный ключ

Атрибуты

Тип данных

Описание

Составной ключ

Код статьи

Числовой

Длинное целое

Код отрасли

Числовой

Длинное целое

Таблица 3.5 – Таблица «Справочник отраслей»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код отрасли

Числовой

Длинное целое

Наименование

Текстовый

Длина 150 символов

Таблица 3.6 – Таблица «Рубрики»

Первичный ключ

Атрибуты

Тип данных

Описание

Составной ключ

Код рубрики

Числовой

Длинное целое

Код статьи

Числовой

Длинное целое

Уровень рубрики

Числовой

Длинное целое

Таблица 3.7 – Таблица «Классификация»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код статьи

Числовой

Длинное целое

Код рубрики

Числовой

Длинное целое

Уровень рубрики

Числовой

Длинное целое

По названию статьи

Числовой

Длинное целое

По ключевым словам

Числовой

Длинное целое

По тексту статьи

Числовой

Длинное целое

Результат

Текстовый

Длина 50 символов

Таблица 3.8 – Таблица «Рубрикатор 1»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_1

Счетчик

Последовательное значение

Индекс_1

Числовой

Длинное целое

Наименование_1

Текстовый

Длина 150 символов

Таблица 3.9 – Таблица «Рубрикатор 2»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_2

Счетчик

Последовательное значение

Индекс_2

Числовой

Длинное целое

Наименование_2

Текстовый

Длина 150 символов

Код_1

Числовой

Длинное целое

Таблица 3.10 – Таблица «Рубрикатор 3»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_3

Счетчик

Последовательное значение

Индекс_3

Числовой

Длинное целое

Наименование_3

Текстовый

Длина 150 символов

Код_2

Числовой

Длинное целое

Таблица 3.11 – Таблица «Рубрикатор 4»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_4

Счетчик

Последовательное значение

Индекс_4

Числовой

Длинное целое

Наименование_4

Текстовый

Длина 150 символов

Код_3

Числовой

Длинное целое

Таблица 3.12 – Таблица «Словарь рубрикатора 3»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_3

Числовой

Длинное целое

Слова

Текстовый

Длина 255 символов

Таблица 3.13 – Таблица «Словарь рубрикатора 4»

Первичный ключ

Атрибуты

Тип данных

Описание

Уникальный ключ

Код_4

Числовой

Длинное целое

Слова

Текстовый

Длина 255 символов

Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.

Характеристики

Список файлов ВКР

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6927
Авторов
на СтудИзбе
266
Средний доход
с одного платного файла
Обучение Подробнее