|
|
@ -21,7 +21,7 @@
|
|
|
|
## Варианты заданий
|
|
|
|
## Варианты заданий
|
|
|
|
|
|
|
|
|
|
|
|
| Вариант | Метод | Word embedding |
|
|
|
|
| Вариант | Метод | Word embedding |
|
|
|
|
| :--- | :---: | :--- |
|
|
|
|
| :--- | :--- | :--- |
|
|
|
|
| 1 | KNN, SVM | glove-wiki-gigaword-100 |
|
|
|
|
| 1 | KNN, SVM | glove-wiki-gigaword-100 |
|
|
|
|
| 2 | RF, MNB | glove-wiki-gigaword-50
|
|
|
|
| 2 | RF, MNB | glove-wiki-gigaword-50
|
|
|
|
| 3 | KNN, DT | glove-wiki-gigaword-200 |
|
|
|
|
| 3 | KNN, DT | glove-wiki-gigaword-200 |
|
|
|
@ -39,31 +39,36 @@
|
|
|
|
|
|
|
|
|
|
|
|
Помимо параметров предварительной обработки, таких как: взвешивание, отсечение стоп-слов,
|
|
|
|
Помимо параметров предварительной обработки, таких как: взвешивание, отсечение стоп-слов,
|
|
|
|
количество информативных терминов, для каждого метода классификации необходимо настроить следующие параметры:
|
|
|
|
количество информативных терминов, для каждого метода классификации необходимо настроить следующие параметры:
|
|
|
|
*К-ближайших соседей (KNN): *
|
|
|
|
**К-ближайших соседей (KNN):**
|
|
|
|
• количество ближайших соседей,
|
|
|
|
|
|
|
|
• метрика (евклидова, косинусная)
|
|
|
|
* количество ближайших соседей,
|
|
|
|
|
|
|
|
* метрика (евклидова, косинусная)
|
|
|
|
*Дерево решений (DT): *
|
|
|
|
|
|
|
|
• критерий (параметр criterion: ‘gini’, ‘entropy’),
|
|
|
|
|
|
|
|
• глубина дерева (параметр max_depth: {5, 15, 50, 100}).
|
|
|
|
**Дерево решений (DT):**
|
|
|
|
|
|
|
|
|
|
|
|
*Случайный лес (RF): *
|
|
|
|
* критерий (параметр criterion: ‘gini’, ‘entropy’),
|
|
|
|
• количество деревьев решений,
|
|
|
|
* глубина дерева (параметр max_depth: {5, 15, 50, 100}).
|
|
|
|
• критерий (параметр criterion: ‘gini’, ‘entropy’),
|
|
|
|
|
|
|
|
• глубина дерева (5, 15, 50, 100).
|
|
|
|
**Случайный лес (RF):**
|
|
|
|
|
|
|
|
|
|
|
|
*Логистическая регрессия (LR): *
|
|
|
|
* количество деревьев решений,
|
|
|
|
• метод нахождения экстремума (параметр solver: ‘newton-cg’, ‘lbfgs’, ‘sag’, ‘liblinear’),
|
|
|
|
* критерий (параметр criterion: ‘gini’, ‘entropy’),
|
|
|
|
• регуляризация (параметр penalty: ‘L1’, ‘L2’)
|
|
|
|
* глубина дерева (5, 15, 50, 100).
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
**Логистическая регрессия (LR):**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
* метод нахождения экстремума (параметр solver: ‘newton-cg’, ‘lbfgs’, ‘sag’, ‘liblinear’),
|
|
|
|
|
|
|
|
* регуляризация (параметр penalty: ‘L1’, ‘L2’)
|
|
|
|
Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума.
|
|
|
|
Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума.
|
|
|
|
|
|
|
|
|
|
|
|
*Метод опорных векторов (SVM): *
|
|
|
|
**Метод опорных векторов (SVM):**
|
|
|
|
• функция потерь (параметр loss: ‘hinge’, ‘squared_hinge’),
|
|
|
|
* функция потерь (параметр loss: ‘hinge’, ‘squared_hinge’),
|
|
|
|
• регуляризация (параметр penalty: ‘L1’, ‘L2’)
|
|
|
|
* регуляризация (параметр penalty: ‘L1’, ‘L2’)
|
|
|
|
Обратить внимание, что разные виды регуляризации работают с разными функциями потерь
|
|
|
|
Обратить внимание, что разные виды регуляризации работают с разными функциями потерь
|
|
|
|
|
|
|
|
|
|
|
|
*Мультиномиальный Наивный Байесовский метод (MNB) *
|
|
|
|
**Мультиномиальный Наивный Байесовский метод (MNB)**
|
|
|
|
• параметр сглаживания α (параметр alpha {0.1, 1, 2}
|
|
|
|
* параметр сглаживания α (параметр alpha {0.1, 1, 2})
|
|
|
|
|
|
|
|
|
|
|
|
## Контрольные вопросы
|
|
|
|
## Контрольные вопросы
|
|
|
|
|
|
|
|
|
|
|
|