|
|
|
@ -14,12 +14,17 @@
|
|
|
|
|
5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
|
|
|
|
|
6. Провести векторизацию выборки:
|
|
|
|
|
|
|
|
|
|
1. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
|
|
|
|
|
1. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
|
|
|
|
1. Рассчитать сходство по коэффициенту Жаккара между тремя классами
|
|
|
|
|
1. Применить процедуру отсечения стоп-слов и повторить пункты b-c.
|
|
|
|
|
1. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
|
|
|
|
|
1. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
|
|
|
|
|
A. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
|
|
|
|
|
|
|
|
|
|
B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
|
|
|
|
|
|
|
|
|
C. Рассчитать сходство по коэффициенту Жаккара между тремя классами
|
|
|
|
|
|
|
|
|
|
D. Применить процедуру отсечения стоп-слов и повторить пункты B - C.
|
|
|
|
|
|
|
|
|
|
E. Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга.
|
|
|
|
|
|
|
|
|
|
F. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
|
|
|
|
|
|
|
|
|
|
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
|
|
|
|
|
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
|
|
|
|
|