From 691c227132087c753030974d49a62c57c1915b87 Mon Sep 17 00:00:00 2001 From: MokhovAS <mokhovas@mpei.ru> Date: Tue, 27 Feb 2024 13:29:31 +0000 Subject: [PATCH] lab02: list --- labs/OATD_LR2.md | 17 +++++++++++------ 1 file changed, 11 insertions(+), 6 deletions(-) diff --git a/labs/OATD_LR2.md b/labs/OATD_LR2.md index f5d8c99..0f3f459 100644 --- a/labs/OATD_LR2.md +++ b/labs/OATD_LR2.md @@ -14,12 +14,17 @@ 5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные 6. Провести векторизацию выборки: - 1. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) - 1. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. - 1. Рассчитать сходство по коэффициенту Жаккара между тремя классами - 1. Применить процедуру отсечения стоп-слов и повторить пункты b-c. - 1. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга. - 1. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). + A. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) + + B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. + + C. Рассчитать сходство по коэффициенту Жаккара между тремя классами + + D. Применить процедуру отсечения стоп-слов и повторить пункты B - C. + + E. Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга. + + F. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). 7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества (значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.