lec07, lab03

2024-03-26 08:47:13 +03:00
--- a/README.md
+++ b/README.md
@@ -45,4 +45,15 @@
 * [Методические указания](labs/OATD_LR2_metod.ipynb)


+### Лабораторная работа №3
+
+| Группа  |    Дата    | 
+|:--------|:----------:| 
+| А-01-20 | 09.04.2024 | 
+| А-03-20 | 16.04.2024 | 
+
+* [Задание](labs/OATD_LR3.md) 
+* [Методические указания](labs/OATD_LR3_metod.ipynb)
+
+

--- a/labs/OATD_LR3.md
+++ b/labs/OATD_LR3.md
@@ -9,7 +9,7 @@

 1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно.
 2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием, 
-вывести оптимальные значения параметров и результаты классификации модели (полнота, точность, f1-мера и аккуратности) с данными параметрами. 
+вывести оптимальные значения параметров и качество классификации модели (f1-мера) с данными параметрами. 
 3. Перевести выборку к векторному представлению word embedding согласно варианту.
 4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке
 5. По каждому пункту работы занести в отчет программный код и результат вывода.
@@ -22,10 +22,10 @@

 | Вариант | Метод    | Word embedding |
 | :---    | :---     | :---           | 
-| 1       | KNN, SVM | glove-wiki-gigaword-100 |
-| 2       | RF, MNB  | glove-wiki-gigaword-50
+| 1       | KNN, SVM | glove-wiki-gigaword-50 |
+| 2       | RF, MNB  | glove-wiki-gigaword-100
 | 3       | KNN, DT  | glove-wiki-gigaword-200 |
-| 4       | RF, KNN  | glove-wiki-gigaword-25 |
+| 4       | RF, KNN  | glove-wiki-gigaword-300 |
 | 5       | LR, MNB  | word2vec-google-news-300 |
 | 6       | DT, LR   | glove-wiki-gigaword-200 |
 | 7       | RF, SVM  | glove-twitter-100 |
@@ -61,11 +61,12 @@
 * метод нахождения экстремума (параметр solver: ‘newton-cg’, ‘lbfgs’, ‘sag’, ‘liblinear’), 
 * регуляризация (параметр penalty: ‘L1’, ‘L2’)
 Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума. 
+Предлагается сначала настроить модель для одного из типом регулязиации, затем для другого, и выбрать лучшую модель из двух.

 **Метод опорных векторов (SVM):**
 * функция потерь (параметр kernel: ‘linear’, ‘rbf’), 
-* регуляризация (параметр C: {0.1, 1, 5})
-Обратить внимание, что разные виды регуляризации работают с разными функциями потерь
+* коэффициент регуляризации (параметр C: {0.1, 1, 5})
+

 **Мультиномиальный Наивный Байесовский метод (MNB)**
 * параметр сглаживания α (параметр alpha: {0.1, 1, 2})
--- a/labs/OATD_LR3_metod.ipynb
+++ b/labs/OATD_LR3_metod.ipynb
@@ -99,7 +99,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-    "Далее необходимо создать объект класса `GridSearchCV`, передав в него объект `pipeline` или классификатор, список параметров сетки, а также при необходимости, задав прочие параметры, такие так количество задействованых ядер процессора `n_jobs`, количество фолдов кросс-валидации `cv` и другие"
+    "Далее необходимо создать объект класса `GridSearchCV`, передав в него объект `pipeline` или классификатор, список параметров сетки, а также при необходимости, задав прочие параметры, такие так количество задействованых ядер процессора `n_jobs`, количество фолдов кросс-валидации `cv`, метрику, по которой будем судить о качестве модели `scoring`, и другие"
   ]
  },
  {
@@ -108,7 +108,7 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "gs_clf = GridSearchCV(text_clf, parameters, n_jobs=-1, cv=3)"
+    "gs_clf = GridSearchCV(text_clf, parameters, n_jobs=-1, cv=3, scoring = 'f1_weighted')"
   ]
  },
  {
--- a/lections/OATD_lec_7.pdf
+++ b/lections/OATD_lec_7.pdf
--- a/lections/OATD_lec_7.pptx
+++ b/lections/OATD_lec_7.pptx
--- a/lections/notebooks/lec7_clustering.ipynb
+++ b/lections/notebooks/lec7_clustering.ipynb