Для студентов МГУ им. Ломоносова по предмету ДругиеРешение задачи тематического моделирования набора статей посвящённых COVID-19 с использованием кластеризационных теоретико-информационных подходовРешение задачи тематического моделирования набора статей посвящённых COVID-19 с использованием кластеризационных теоретико-информационных подходов
2024-11-102024-11-10СтудИзба
Решение задачи тематического моделирования набора статей посвящённых COVID-19 с использованием кластеризационных теоретико-информационных подходов
Описание
РЕФЕРАТ
Отчёт 85 с.. 1 кн.. 24 рис.. 12 табл., 50 источи.. 2 прил.
Ключевые слова: ПОИСКОВЫЕ СИСТЕМЫ, МАШИННОЕ ОБУЧЕНИЕ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, КЛАСТЕРИЗАЦИЯ, ТЕМАТИЧЕСКИЙ АНАЛИЗ, ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ
Объектом данной работы является анализ процесса построения вычислительной системы, решающей проблему медленного поиска путем кластеризационных методик моделирования данных.
Цель работы – разработать алгоритмы и программное обеспечение поисковой системы на основе кластеризационного подхода.
В процессе работы проводились экспериментальные исследования времени выполнения отдельных компонентов кластеризующей программы.
В результате исследования был построен и протестирован модуль машинного обучения, который может интегрироваться в различные системы поиска. В частности, в системы, предназначенные для специалистов по коронавирусу.
Основные конструктивные и технико-эксплуатационные показатели: высокая точность измерения при больших значениях размеров данных.
Эффективность программно-аналитического модуля определяется точностью поиска, построенного на основе кластеризации. Данный алгоритм может применяться для построения закрытых поисковых систем для врачей-инфекционистов.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Основная часть
1 Теоретический анализ поисковых систем
1.1 Постановка прикладной задачи
1.2 Программное обеспечение, используемое при моделировании
1.3 Основная терминология
1.4 Обзор существующих решений
2 Технические средства и методы реализации системы
2.1 Машинное обучение и искусственный интеллект в задачах обработки естественного языка
2.1 1 Тематическое моделирование
2.1.2 Кластеризация
2.1.2 Математическое описание построенной модели
2.1.3 Латентное размещение Дирихле
2.1.3 Алгоритм k-средних
2.1.4 t-SNE алгоритм
2.1.5 UMAP-алгоритм и «проклятие размерности»
2.1.6 Метрики оценки качества кластеризации
2.2 Архитектура построения приложения с использованием теории компиляторов
3 Практическая часть
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
На сегодняшний день любой живущий на планете человек не может представить свою жизнь без слова «информация». В связи с появлением информационно-коммуникационной сети Интернет, количество информации стало увеличиваться в геометрической прогрессии. К сожалению, не каждый индивид в состоянии оценить ее качество, к которой он имеет доступ. Негативным фактором является усталость человека к концу рабочего дня, вследствие чего он становится легко убеждаем [1]. В результате принимаются неправильные и несвоевременные решения, оставляющие негативный след в жизни общества.
Основанием для проведения исследования является требование быстрого ответа инфекционистов на различные мутации коронавируса.
В качестве исходных данных выступает источник данных CORD-19. Это ресурс, содержащий более 1 000 000 научных статей, в том числе более 400 000 с полным текстом,
Отчёт 85 с.. 1 кн.. 24 рис.. 12 табл., 50 источи.. 2 прил.
Ключевые слова: ПОИСКОВЫЕ СИСТЕМЫ, МАШИННОЕ ОБУЧЕНИЕ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, КЛАСТЕРИЗАЦИЯ, ТЕМАТИЧЕСКИЙ АНАЛИЗ, ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ
Объектом данной работы является анализ процесса построения вычислительной системы, решающей проблему медленного поиска путем кластеризационных методик моделирования данных.
Цель работы – разработать алгоритмы и программное обеспечение поисковой системы на основе кластеризационного подхода.
В процессе работы проводились экспериментальные исследования времени выполнения отдельных компонентов кластеризующей программы.
В результате исследования был построен и протестирован модуль машинного обучения, который может интегрироваться в различные системы поиска. В частности, в системы, предназначенные для специалистов по коронавирусу.
Основные конструктивные и технико-эксплуатационные показатели: высокая точность измерения при больших значениях размеров данных.
Эффективность программно-аналитического модуля определяется точностью поиска, построенного на основе кластеризации. Данный алгоритм может применяться для построения закрытых поисковых систем для врачей-инфекционистов.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Основная часть
1 Теоретический анализ поисковых систем
1.1 Постановка прикладной задачи
1.2 Программное обеспечение, используемое при моделировании
1.3 Основная терминология
1.4 Обзор существующих решений
2 Технические средства и методы реализации системы
2.1 Машинное обучение и искусственный интеллект в задачах обработки естественного языка
2.1 1 Тематическое моделирование
2.1.2 Кластеризация
2.1.2 Математическое описание построенной модели
2.1.3 Латентное размещение Дирихле
2.1.3 Алгоритм k-средних
2.1.4 t-SNE алгоритм
2.1.5 UMAP-алгоритм и «проклятие размерности»
2.1.6 Метрики оценки качества кластеризации
2.2 Архитектура построения приложения с использованием теории компиляторов
3 Практическая часть
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ВВЕДЕНИЕ
На сегодняшний день любой живущий на планете человек не может представить свою жизнь без слова «информация». В связи с появлением информационно-коммуникационной сети Интернет, количество информации стало увеличиваться в геометрической прогрессии. К сожалению, не каждый индивид в состоянии оценить ее качество, к которой он имеет доступ. Негативным фактором является усталость человека к концу рабочего дня, вследствие чего он становится легко убеждаем [1]. В результате принимаются неправильные и несвоевременные решения, оставляющие негативный след в жизни общества.
Основанием для проведения исследования является требование быстрого ответа инфекционистов на различные мутации коронавируса.
В качестве исходных данных выступает источник данных CORD-19. Это ресурс, содержащий более 1 000 000 научных статей, в том числе более 400 000 с полным текстом,
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
4,54 Mb
Список файлов
Решение задачи тематического моделирования набора статей посвящённых COVID-19 с использованием кластеризационных теоретико-информационных подходов.docx