diff --git a/labs/OATD_LR2.md b/labs/OATD_LR2.md index f5d8c99..0f3f459 100644 --- a/labs/OATD_LR2.md +++ b/labs/OATD_LR2.md @@ -14,12 +14,17 @@ 5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные 6. Провести векторизацию выборки: - 1. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) - 1. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. - 1. Рассчитать сходство по коэффициенту Жаккара между тремя классами - 1. Применить процедуру отсечения стоп-слов и повторить пункты b-c. - 1. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга. - 1. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). + A. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) + + B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. + + C. Рассчитать сходство по коэффициенту Жаккара между тремя классами + + D. Применить процедуру отсечения стоп-слов и повторить пункты B - C. + + E. Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга. + + F. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). 7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества (значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.