@ -9,7 +9,7 @@
1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно.
1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно.
2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием,
2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием,
вывести оптимальные значения параметров и результаты классификации модели (полнота, точность, f1-мера и аккуратности ) с данными параметрами.
вывести оптимальные значения параметров и качество классификации модели (f1-мера ) с данными параметрами.
3. Перевести выборку к векторному представлению word embedding согласно варианту.
3. Перевести выборку к векторному представлению word embedding согласно варианту.
4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке
4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке
5. По каждому пункту работы занести в отчет программный код и результат вывода.
5. По каждому пункту работы занести в отчет программный код и результат вывода.
@ -22,10 +22,10 @@
| Вариант | Метод | Word embedding |
| Вариант | Метод | Word embedding |
| :--- | :--- | :--- |
| :--- | :--- | :--- |
| 1 | KNN, SVM | glove-wiki-gigaword-10 0 |
| 1 | KNN, SVM | glove-wiki-gigaword-5 0 |
| 2 | RF, MNB | glove-wiki-gigaword-5 0
| 2 | RF, MNB | glove-wiki-gigaword-10 0
| 3 | KNN, DT | glove-wiki-gigaword-200 |
| 3 | KNN, DT | glove-wiki-gigaword-200 |
| 4 | RF, KNN | glove-wiki-gigaword-25 |
| 4 | RF, KNN | glove-wiki-gigaword-300 |
| 5 | LR, MNB | word2vec-google-news-300 |
| 5 | LR, MNB | word2vec-google-news-300 |
| 6 | DT, LR | glove-wiki-gigaword-200 |
| 6 | DT, LR | glove-wiki-gigaword-200 |
| 7 | RF, SVM | glove-twitter-100 |
| 7 | RF, SVM | glove-twitter-100 |
@ -61,11 +61,12 @@
* метод нахождения экстремума (параметр solver: ‘ newton-cg’ , ‘ lbfgs’ , ‘ sag’ , ‘ liblinear’ ),
* метод нахождения экстремума (параметр solver: ‘ newton-cg’ , ‘ lbfgs’ , ‘ sag’ , ‘ liblinear’ ),
* регуляризация (параметр penalty: ‘ L1’ , ‘ L2’ )
* регуляризация (параметр penalty: ‘ L1’ , ‘ L2’ )
Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума.
Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума.
Предлагается сначала настроить модель для одного из типом регулязиации, затем для другого, и выбрать лучшую модель из двух.
**Метод опорных векторов (SVM):**
**Метод опорных векторов (SVM):**
* функция потерь (параметр kernel: ‘ linear’ , ‘ rbf’ ),
* функция потерь (параметр kernel: ‘ linear’ , ‘ rbf’ ),
* регуляризация (параметр C: {0.1, 1, 5})
* коэффициент регуляризации (параметр C: {0.1, 1, 5})
Обратить внимание, что разные виды регуляризации работают с разными функциями потерь
**Мультиномиальный Наивный Байесовский метод (MNB)**
**Мультиномиальный Наивный Байесовский метод (MNB)**
* параметр сглаживания α (параметр alpha: {0.1, 1, 2})
* параметр сглаживания α (параметр alpha: {0.1, 1, 2})