lab02: correction
Этот коммит содержится в:
@@ -18,14 +18,11 @@
|
|||||||
|
|
||||||
B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
|
||||||
|
|
||||||
C. Рассчитать сходство по коэффициенту Жаккара между тремя классами
|
C. Применить процедуру отсечения стоп-слов и повторить пункт B.
|
||||||
|
|
||||||
D. Применить процедуру отсечения стоп-слов и повторить пункты B - C.
|
|
||||||
|
|
||||||
E. Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга.
|
D. Провести пункт A для обучающей и тестовой выборки, для которой выполнен стемминг.
|
||||||
|
|
||||||
F. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
|
|
||||||
|
|
||||||
|
7. Рассчитать сходство по коэффициенту Жаккара между тремя классами для исходых выборок и для выборок после отсечения стоп-слов. При подсчете использовать все слова выборки.
|
||||||
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
|
7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества
|
||||||
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
|
(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации.
|
||||||
Должны быть исследованы следующие характеристики:
|
Должны быть исследованы следующие характеристики:
|
||||||
@@ -40,9 +37,7 @@
|
|||||||
Теперь фиксируем B = False, C = 20,42, ищем оптимальное значение переменной A, и т.д.
|
Теперь фиксируем B = False, C = 20,42, ищем оптимальное значение переменной A, и т.д.
|
||||||
|
|
||||||
8. По каждому пункту работы занести в отчет программный код и результат вывода.
|
8. По каждому пункту работы занести в отчет программный код и результат вывода.
|
||||||
9. По результатам классификации занести в отчет выводы о влиянии каждого из этапом предобработки данных (наличие стемминга, взвешивание терминов, стоп-слова, количество информативных терминов)
|
9. По результатам классификации занести в отчет выводы о влиянии каждого из этапов предобработки данных (наличие стемминга, взвешивание терминов, стоп-слова, количество информативных терминов) и о наиболее подходящей их комбинации. Объяснить различия (если имеются) в качестве классификации разных классов.
|
||||||
и о наиболее подходящей их комбинации. Объяснить различия (если имеются) в качестве классификации разных классов.
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
## Варианты заданий
|
## Варианты заданий
|
||||||
|
|||||||
Ссылка в новой задаче
Block a user