diff --git a/labs/OATD_LR3.md b/labs/OATD_LR3.md index 35e99d7..90697bb 100644 --- a/labs/OATD_LR3.md +++ b/labs/OATD_LR3.md @@ -9,11 +9,11 @@ 1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно. 2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием, -вывести оптимальные значения параметров и качество классификации модели (взвешенная f1-мера) с данными параметрами. +вывести оптимальные значения параметров и качество классификации модели (взвешенная f1-мера) с данными параметрами. Область поиска параметров прдеварительно обработки выбрать с учетом результатов ЛР2. 3. Перевести выборку к векторному представлению word embedding согласно варианту. -4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке +4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на выборке, представленной с помощью word embedding 5. По каждому пункту работы занести в отчет программный код и результат вывода. -6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками. +6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками. Объяснить результаты и подумать, как их можно улучшить. Сделать выводы о наиболее подходящем методе классификации ваших данных с указанием параметров метода и описанием предварительной обработки данных. diff --git a/lections/notebooks/lec5_text2vec_classifier.ipynb b/lections/notebooks/lec5_text2vec_classifier.ipynb index 4658805..024d322 100644 --- a/lections/notebooks/lec5_text2vec_classifier.ipynb +++ b/lections/notebooks/lec5_text2vec_classifier.ipynb @@ -410,7 +410,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": null, "id": "0d6af65a", "metadata": {}, "outputs": [ @@ -534,6 +534,7 @@ } ], "source": [ + "# Пусть выборка состоит из двух документов: \n", "text_data = ['Hello world I love python', 'This is a great computer game! 00 000 zyxel']\n", "# Векторизуем с помощью обученного CountVectorizer\n", "X = vectorizer.transform(text_data)\n", @@ -792,7 +793,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": null, "id": "1bdb459e", "metadata": {}, "outputs": [ @@ -1172,7 +1173,7 @@ } ], "source": [ - "train_data_glove = text2vec(twenty_train['data']);\n", + "train_data_glove = text2vec(twenty_train['data'])\n", "train_data_glove" ] }, @@ -1212,12 +1213,12 @@ }, { "cell_type": "code", - "execution_count": 19, + "execution_count": null, "id": "e459faaf", "metadata": {}, "outputs": [], "source": [ - "test_data_glove = text2vec(twenty_test['data']);" + "test_data_glove = text2vec(twenty_test['data'])" ] }, {