diff --git a/labs/OATD_LR2.md b/labs/OATD_LR2.md index 2584b05..f5d8c99 100644 --- a/labs/OATD_LR2.md +++ b/labs/OATD_LR2.md @@ -13,12 +13,13 @@ 4. Вывести на экран по одному-два документа каждого класса. 5. Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные 6. Провести векторизацию выборки: - a. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) - b. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. - c. Рассчитать сходство по коэффициенту Жаккара между тремя классами - d. Применить процедуру отсечения стоп-слов и повторить пункты b-c. - e. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга. - f. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). + + 1. Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer) + 1. Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности. + 1. Рассчитать сходство по коэффициенту Жаккара между тремя классами + 1. Применить процедуру отсечения стоп-слов и повторить пункты b-c. + 1. Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга. + 1. Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний). 7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества (значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации. @@ -26,7 +27,7 @@ * Наличие \ отсутствие стемминга * Отсечение \ не отсечение стоп-слов * Взвешивание: Count, TF, TF-IDF - * Количество информативных терминов (max_features) - исследовать 5 значений в диапазоне от 100 до общего количества слов в выборке. + * Количество информативных терминов (max_features) - исследовать 5 значений: {100, 1000, 5000, 10000, dict_vol}, где dict_vol - общего количества слов в выборке. При проведении данного исследования предлагается зафиксировать все переменные кроме одной, а далее менять незафиксированную переменную для определения ее наилучего значения. После того как наилучшее значение найдено, фиксировать это значение, и переходить к следующей переменной.