lab02: правки

2024-02-26 09:48:30 +00:00
--- a/labs/OATD_LR2.md
+++ b/labs/OATD_LR2.md
@@ -13,12 +13,13 @@
 4.	Вывести на экран по одному-два документа каждого класса.
 5.	Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
 6.	Провести векторизацию выборки:
-    a.	Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
-    b.	Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
-	c.  Рассчитать сходство по коэффициенту Жаккара между тремя классами
-    d.	Применить процедуру отсечения стоп-слов и повторить пункты b-c.
-    e.	Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
-    f.	Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
+
+    1.	Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
+    1.	Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
+	1.  Рассчитать сходство по коэффициенту Жаккара между тремя классами
+    1.	Применить процедуру отсечения стоп-слов и повторить пункты b-c.
+    1.	Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
+    1.	Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
 	
 7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества 
 (значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации. 
@@ -26,7 +27,7 @@
 	* Наличие \ отсутствие стемминга
 	* Отсечение \ не отсечение стоп-слов
 	* Взвешивание: Count, TF, TF-IDF
-	* Количество информативных терминов (max_features) - исследовать 5 значений в диапазоне от 100 до общего количества слов в выборке. 
+	* Количество информативных терминов (max_features) - исследовать 5 значений: {100, 1000, 5000, 10000, dict_vol}, где dict_vol - общего количества слов в выборке. 

 	При проведении данного исследования предлагается зафиксировать все переменные кроме одной, а далее менять незафиксированную переменную для определения ее наилучего значения.
 	После того как наилучшее значение найдено, фиксировать это значение, и переходить к следующей переменной.