2. Импортировать необходимые для работы библиотеки и модули
2. Импортировать необходимые для работы библиотеки и модули
3. Загрузить обучающую и экзаменационную выборку в соответствие с вариантом
3. Загрузить обучающую и экзаменационную выборку в соответствие с вариантом
4. Вывести на экран по одному-два документа каждого класса.
4. Вывести на экран по одному-два документа каждого класса.
5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
5. Провести векторизацию выборки:
6. Провести векторизацию выборки:
A. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
A. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
@ -20,9 +19,11 @@
C. Применить процедуру отсечения стоп-слов и повторить пункт B.
C. Применить процедуру отсечения стоп-слов и повторить пункт B.
D. Провести пункт A для обучающей и тестовой выборки, для которой выполнен стемминг.
D. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
7. Рассчитать сходство по коэффициенту Жаккара между тремя классами для исходых выборок и для выборок после отсечения стоп-слов. При подсчете использовать все слова выборки.
E. Провести пункт A для обучающей и тестовой выборки, для которой выполнен стемминг.
6. Рассчитать сходство по коэффициенту Жаккара между тремя классами для исходых выборок и для выборок после отсечения стоп-слов. При подсчете использовать все слова выборки.
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.