diff --git a/labs/OATD_LR2.md b/labs/OATD_LR2.md index 5ae2f97..6669a68 100644 --- a/labs/OATD_LR2.md +++ b/labs/OATD_LR2.md @@ -18,14 +18,11 @@ B. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. - C. Рассчитать сходство по коэффициенту Жаккара между тремя классами - - D. Применить процедуру отсечения стоп-слов и повторить пункты B - C. - - E. Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга. + C. Применить процедуру отсечения стоп-слов и повторить пункт B. - F. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). + D. Провести пункт A для обучающей и тестовой выборки, для которой выполнен стемминг. +7. Рассчитать сходство по коэффициенту Жаккара между тремя классами для исходых выборок и для выборок после отсечения стоп-слов. При подсчете использовать все слова выборки. 7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества (значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации. Должны быть исследованы следующие характеристики: @@ -40,9 +37,7 @@ Теперь фиксируем B = False, C = 20,42, ищем оптимальное значение переменной A, и т.д. 8. По каждому пункту работы занести в отчет программный код и результат вывода. -9. По результатам классификации занести в отчет выводы о влиянии каждого из этапом предобработки данных (наличие стемминга, взвешивание терминов, стоп-слова, количество информативных терминов) -и о наиболее подходящей их комбинации. Объяснить различия (если имеются) в качестве классификации разных классов. - +9. По результатам классификации занести в отчет выводы о влиянии каждого из этапов предобработки данных (наличие стемминга, взвешивание терминов, стоп-слова, количество информативных терминов) и о наиболее подходящей их комбинации. Объяснить различия (если имеются) в качестве классификации разных классов. ## Варианты заданий