2016 Вопросы к КР 2 (1185442)
Текст из файла
Вопросы 2
-
Автоматическая классификация текстов. Задачи классификации. Основные подходы к автоматической классификации (рубрицирования) текстов.
-
Что такое инженерный метод классификации текстов? Плюсы и минусы инженерных методов классификации
-
Укажите плюсы и минусы ручного рубрицирования.
-
Метод Байеса для автоматической классификации текстов
-
Байесовский классификатор в задаче обнаружения поискового спама
-
Метод Роккио для автоматической классификации текстов
-
Метод Knn для автоматической классификации текстов
-
Поясните основной принцип метода SVM для автоматической классификации текстов
-
Плюсы и минусы методов машинного обучения для классификации текстов
-
Особенности применения методов машинного обучения при классификации текстов в зависимости от размера обучающей коллекции
-
Метрики качества для систем автоматической классификации (рубрикации) текстов. Микро и макро усреднение
-
Что такое кластеризация текстов? Чем она отличается от классификации (рубрикации) текстов? Типы методов кластеризации
-
Метод K-means для кластеризации текстов
-
Аггломеративная кластеризация – основной принцип и подвиды
-
Методы тестирования автоматической кластеризации
-
Особенности кластеризации потока новостей в реальном времени
-
Автоматическое аннотирование. Виды автоматических аннотаций.
-
Методы и признаки для отбора предложений в экстрактивном методе автоматического аннотирования
-
Метод MMR автоматического аннотирования
-
Метрика Rouge для тестирования автоматических аннотаций
-
Метод пирамид для тестирования автоматических аннотаций
-
Что такое PageRank? Зачем нужен, как вычисляется
-
Алгоритм HITS
-
Особенности использования кликов пользователя в качестве фидбека от пользователя. Каскадная модель при обработке кликов.
-
Классификация запросов по цели. Зачем нужна. Особенности обработки разных типов запросов
-
Вероятностная модель информационного поиска: основная идея, различие с векторной моделью
-
Языковые статистические модели. Сглаживание. Где применяются
-
Языковая модель информационного поиска
-
Методы приблизительного вычисления сходства документов в реальных поисковых системах
-
Обработка фразовых запросов и запросов с указанием близости слов в поисковых системах
-
Позиционный индекс в поисковой системе. Зачем нужен, как обрабатывается
-
Какие факторы помимо веса tf.idf учитываются в поисковых моделях, как создаются многофакторные модели в информационно поиске
Задачи на следующие темы:
-
Байесовская модель классификации текстов
-
Макро- и микро- усреднение при оценке качества автоматической рубрикации
-
Кластеризация текстов
-
Метрика Rouge оценки качества автоматического аннотирования
-
Вычисление близости документа к запросу по языковой модели информационного поиска
-
Вычисление PageRank
-
Объяснение формулы BM25 (вероятностный информационный поиск)
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.