Изменил(а) на 'labs/OATD_LR3.md'

master
MokhovAS 1 год назад
Родитель 99af1be1a6
Сommit 7d77174597

@ -1,83 +1,83 @@
# Лабораторная работа №3. Классификация текстовых данных # Лабораторная работа №3. Классификация текстовых данных
## Цель работы ## Цель работы
Получить практические навыки решения задачи классификации текстовых данных в среде Jupiter Notebook. Получить практические навыки решения задачи классификации текстовых данных в среде Jupiter Notebook.
Научиться проводить предварительную обработку текстовых данных, настраивать параметры методов классификации и обучать модели, оценивать точность полученных моделей Научиться проводить предварительную обработку текстовых данных, настраивать параметры методов классификации и обучать модели, оценивать точность полученных моделей
## Задание ## Задание
1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно. 1. Загрузить выборки по варианту из лабораторной работы №2. Стемминг проводить не нужно.
2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием, 2. Используя GridSearchCV произвести предварительную обработку данных и настройку методов классификации в соответствие с заданием,
вывести оптимальные значения параметров и качество классификации модели (f1-мера) с данными параметрами. вывести оптимальные значения параметров и качество классификации модели (взвешенная f1-мера) с данными параметрами.
3. Перевести выборку к векторному представлению word embedding согласно варианту. 3. Перевести выборку к векторному представлению word embedding согласно варианту.
4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке 4. Провести обучение и настройку тех же алгоритмов классификации и с теми же параметрами, что и в п.2, но на векторизованной выборке
5. По каждому пункту работы занести в отчет программный код и результат вывода. 5. По каждому пункту работы занести в отчет программный код и результат вывода.
6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками. 6. Оформить сравнительную таблицу с результатами классификации различными методами с разными настройками.
Сделать выводы о наиболее подходящем методе классификации ваших данных с указанием параметров метода и описанием предварительной обработки данных. Сделать выводы о наиболее подходящем методе классификации ваших данных с указанием параметров метода и описанием предварительной обработки данных.
## Варианты заданий ## Варианты заданий
| Вариант | Метод | Word embedding | | Вариант | Метод | Word embedding |
| :--- | :--- | :--- | | :--- | :--- | :--- |
| 1 | KNN, SVM | glove-wiki-gigaword-50 | | 1 | KNN, SVM | glove-wiki-gigaword-50 |
| 2 | RF, MNB | glove-wiki-gigaword-100 | 2 | RF, MNB | glove-wiki-gigaword-100
| 3 | KNN, DT | glove-wiki-gigaword-200 | | 3 | KNN, DT | glove-wiki-gigaword-200 |
| 4 | RF, KNN | glove-wiki-gigaword-300 | | 4 | RF, KNN | glove-wiki-gigaword-300 |
| 5 | LR, MNB | word2vec-google-news-300 | | 5 | LR, MNB | word2vec-google-news-300 |
| 6 | DT, LR | glove-wiki-gigaword-200 | | 6 | DT, LR | glove-wiki-gigaword-200 |
| 7 | RF, SVM | glove-twitter-100 | | 7 | RF, SVM | glove-twitter-100 |
| 8 | SVM, DT | glove-twitter-200 | | 8 | SVM, DT | glove-twitter-200 |
| 9 | RF, SVM | glove-twitter-100 | | 9 | RF, SVM | glove-twitter-100 |
| 10 | MNB, SVM | glove-twitter-25 | | 10 | MNB, SVM | glove-twitter-25 |
| 11 | MNB, DT | word2vec-google-news-300 | | 11 | MNB, DT | word2vec-google-news-300 |
| 12 | RF, LR | glove-twitter-50 | | 12 | RF, LR | glove-twitter-50 |
## Параметры, которые необходимо настроить ## Параметры, которые необходимо настроить
Помимо параметров предварительной обработки, таких как: взвешивание, отсечение стоп-слов, Помимо параметров предварительной обработки, таких как: взвешивание, отсечение стоп-слов,
количество информативных терминов, для каждого метода классификации необходимо настроить следующие параметры: количество информативных терминов, для каждого метода классификации необходимо настроить следующие параметры:
**К-ближайших соседей (KNN):** **К-ближайших соседей (KNN):**
* количество ближайших соседей, * количество ближайших соседей,
* метрика (евклидова, косинусная) * метрика (евклидова, косинусная)
**Дерево решений (DT):** **Дерево решений (DT):**
* критерий (параметр criterion: gini, entropy), * критерий (параметр criterion: gini, entropy),
* глубина дерева (параметр max_depth: {5, 15, 50, 100}). * глубина дерева (параметр max_depth: {5, 15, 50, 100}).
**Случайный лес (RF):** **Случайный лес (RF):**
* количество деревьев решений (параметр n_estimators: {5, 30, 100}), * количество деревьев решений (параметр n_estimators: {5, 30, 100}),
* критерий (параметр criterion: gini, entropy), * критерий (параметр criterion: gini, entropy),
* глубина дерева (параметр max_depth: {5, 15, 50}). * глубина дерева (параметр max_depth: {5, 15, 50}).
**Логистическая регрессия (LR):** **Логистическая регрессия (LR):**
* метод нахождения экстремума (параметр solver: newton-cg, lbfgs, sag, liblinear), * метод нахождения экстремума (параметр solver: newton-cg, lbfgs, sag, liblinear),
* регуляризация (параметр penalty: L1, L2) * регуляризация (параметр penalty: L1, L2)
Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума. Обратить внимание, что разные виды регуляризации работают с разными методами нахождения экстремума.
Предлагается сначала настроить модель для одного из типом регулязиации, затем для другого, и выбрать лучшую модель из двух. Предлагается сначала настроить модель для одного из типом регулязиации, затем для другого, и выбрать лучшую модель из двух.
**Метод опорных векторов (SVM):** **Метод опорных векторов (SVM):**
* функция потерь (параметр kernel: linear, rbf), * функция потерь (параметр kernel: linear, rbf),
* коэффициент регуляризации (параметр C: {0.1, 1, 5}) * коэффициент регуляризации (параметр C: {0.1, 1, 5})
**Мультиномиальный Наивный Байесовский метод (MNB)** **Мультиномиальный Наивный Байесовский метод (MNB)**
* параметр сглаживания α (параметр alpha: {0.1, 1, 2}) * параметр сглаживания α (параметр alpha: {0.1, 1, 2})
## Контрольные вопросы ## Контрольные вопросы
1. Алгоритм и особенности метода опорных векторов. 1. Алгоритм и особенности метода опорных векторов.
2. Алгоритм и особенности метода логистической регрессии. 2. Алгоритм и особенности метода логистической регрессии.
3. Алгоритм и особенности метода деревьев решений. 3. Алгоритм и особенности метода деревьев решений.
4. Что такое регуляризация? 4. Что такое регуляризация?
5. Что такое метрика расстояния? Какие метрики вам известны? 5. Что такое метрика расстояния? Какие метрики вам известны?

Загрузка…
Отмена
Сохранить