lab02: правки
Этот коммит содержится в:
@@ -13,12 +13,13 @@
|
|||||||
4. Вывести на экран по одному-два документа каждого класса.
|
4. Вывести на экран по одному-два документа каждого класса.
|
||||||
5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
|
5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
|
||||||
6. Провести векторизацию выборки:
|
6. Провести векторизацию выборки:
|
||||||
a. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
|
|
||||||
b. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
1. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
|
||||||
c. Рассчитать сходство по коэффициенту Жаккара между тремя классами
|
1. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
||||||
d. Применить процедуру отсечения стоп-слов и повторить пункты b-c.
|
1. Рассчитать сходство по коэффициенту Жаккара между тремя классами
|
||||||
e. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
|
1. Применить процедуру отсечения стоп-слов и повторить пункты b-c.
|
||||||
f. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
|
1. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
|
||||||
|
1. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
|
||||||
|
|
||||||
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
|
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
|
||||||
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
|
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
|
||||||
@@ -26,7 +27,7 @@
|
|||||||
* Наличие \ отсутствие стемминга
|
* Наличие \ отсутствие стемминга
|
||||||
* Отсечение \ не отсечение стоп-слов
|
* Отсечение \ не отсечение стоп-слов
|
||||||
* Взвешивание: Count, TF, TF-IDF
|
* Взвешивание: Count, TF, TF-IDF
|
||||||
* Количество информативных терминов (max_features) - исследовать 5 значений в диапазоне от 100 до общего количества слов в выборке.
|
* Количество информативных терминов (max_features) - исследовать 5 значений: {100, 1000, 5000, 10000, dict_vol}, где dict_vol - общего количества слов в выборке.
|
||||||
|
|
||||||
При проведении данного исследования предлагается зафиксировать все переменные кроме одной, а далее менять незафиксированную переменную для определения ее наилучего значения.
|
При проведении данного исследования предлагается зафиксировать все переменные кроме одной, а далее менять незафиксированную переменную для определения ее наилучего значения.
|
||||||
После того как наилучшее значение найдено, фиксировать это значение, и переходить к следующей переменной.
|
После того как наилучшее значение найдено, фиксировать это значение, и переходить к следующей переменной.
|
||||||
|
|||||||
Ссылка в новой задаче
Block a user