Andrey 1 месяц назад
Родитель b671922597
Сommit b5b773aff3

@ -9,11 +9,11 @@
1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно. 1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно.
2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием, 2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием,
вывести оптимальные значения параметров и качество классификации модели (взвешенная f1-мера) с данными параметрами. вывести оптимальные значения параметров и качество классификации модели (взвешенная f1-мера) с данными параметрами. Область поиска параметров прдеварительно обработки выбрать с учетом результатов ЛР2.
3. Перевести выборку к векторному представлению word embedding согласно варианту. 3. Перевести выборку к векторному представлению word embedding согласно варианту.
4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке 4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на выборке, представленной с помощью word embedding
5. По каждому пункту работы занести в отчет программный код и результат вывода. 5. По каждому пункту работы занести в отчет программный код и результат вывода.
6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками. 6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками. Объяснить результаты и подумать, как их можно улучшить.
Сделать выводы о наиболее подходящем методе классификации ваших данных с указанием параметров метода и описанием предварительной обработки данных. Сделать выводы о наиболее подходящем методе классификации ваших данных с указанием параметров метода и описанием предварительной обработки данных.

@ -410,7 +410,7 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": 10, "execution_count": null,
"id": "0d6af65a", "id": "0d6af65a",
"metadata": {}, "metadata": {},
"outputs": [ "outputs": [
@ -534,6 +534,7 @@
} }
], ],
"source": [ "source": [
"# Пусть выборка состоит из двух документов: \n",
"text_data = ['Hello world I love python', 'This is a great computer game! 00 000 zyxel']\n", "text_data = ['Hello world I love python', 'This is a great computer game! 00 000 zyxel']\n",
"# Векторизуем с помощью обученного CountVectorizer\n", "# Векторизуем с помощью обученного CountVectorizer\n",
"X = vectorizer.transform(text_data)\n", "X = vectorizer.transform(text_data)\n",
@ -792,7 +793,7 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": 15, "execution_count": null,
"id": "1bdb459e", "id": "1bdb459e",
"metadata": {}, "metadata": {},
"outputs": [ "outputs": [
@ -1172,7 +1173,7 @@
} }
], ],
"source": [ "source": [
"train_data_glove = text2vec(twenty_train['data']);\n", "train_data_glove = text2vec(twenty_train['data'])\n",
"train_data_glove" "train_data_glove"
] ]
}, },
@ -1212,12 +1213,12 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": 19, "execution_count": null,
"id": "e459faaf", "id": "e459faaf",
"metadata": {}, "metadata": {},
"outputs": [], "outputs": [],
"source": [ "source": [
"test_data_glove = text2vec(twenty_test['data']);" "test_data_glove = text2vec(twenty_test['data'])"
] ]
}, },
{ {

Загрузка…
Отмена
Сохранить