16 KiB

Исходник Вина История

Отчет по лабораторной работе №2

Текотова Виктория, Секирин Артем, А-02-22

Задание 1.

1. В среде GoogleColab создали блокнот(notebook.ipynb).

import os
os.chdir('/content/drive/MyDrive/Colab Notebooks')

импорт модулей

import numpy as np
import lab02_lib as lib

2. Генерация датасета

data=lib.datagen(1,1,1000,2)

Вывод данных и размерности

print('Исходныеданные:')
print(data)
print('Размерностьданных:')
print(data.shape)

Исходныеданные: [[1.13623025 1.07517135] [1.03093312 1.06813773] [0.97208689 1.0748715 ] ... [1.19215258 0.990978 ] [0.95942384 0.94390713] [1.04279375 1.03934433]] Размерностьданных: (1000, 2)

3. Создание и обучение автокодировщик AE1

patience= 10
ae1_trained, IRE1, IREth1= lib.create_fit_save_ae(data,'out/AE1.h5','out/AE1_ire_th.txt', 50, True, patience)

Задать архитектуру автокодировщиков или использовать архитектуру по умолчанию? (1/2): 1 Задайте количество скрытых слоёв (нечетное число) : 1 Задайте архитектуру скрытых слоёв автокодировщика, например, в виде 3 1 3 : 1 Epoch 1/50 1/1 ━━━━━━━━━━━━━━━━━━━━ 1s 1s/step - loss: 1.6461 Epoch 2/50 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 36ms/step - loss: 1.6388 ... Epoch 49/50 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 36ms/step - loss: 1.3041 Epoch 50/50 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 35ms/step - loss: 1.2973 Restoring model weights from the end of the best epoch: 49. 32/32 ━━━━━━━━━━━━━━━━━━━━ 0s 3ms/step WARNING:absl:You are saving your model as an HDF5 file via model.save() or keras.saving.save_model(model). This file format is considered legacy. We recommend using instead the native Keras format, e.g. model.save('my_model.keras') or keras.saving.save_model(model, 'my_model.keras').

4. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

patience= 10
ae1_trained, IRE1, IREth1= lib.create_fit_save_ae(data,'out/AE1.h5','out/AE1_ire_th.txt', 50, True, patience)

print("Порог ошибки реконструкции = ",IREth1)

Порог ошибки реконструкции = 1.97

5. Создание и обучиние второй автокодировщик AE2

ae2_trained, IRE2, IREth2= lib.create_fit_save_ae(data,'out/AE2.h5','out/AE2_ire_th.txt', 1000, True, patience)
lib.ire_plot('training', IRE2, IREth2, 'AE2')

Задать архитектуру автокодировщиков или использовать архитектуру по умолчанию? (1/2): 2 Epoch 1/1000 1/1 ━━━━━━━━━━━━━━━━━━━━ 4s 4s/step - loss: 0.4184 Epoch 2/1000 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 40ms/step - loss: 0.4084 ... Epoch 195/1000 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 35ms/step - loss: 0.0146 Epoch 196/1000 1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 36ms/step - loss: 0.0145 Epoch 196: early stopping Restoring model weights from the end of the best epoch: 186. 32/32 ━━━━━━━━━━━━━━━━━━━━ 0s 4ms/step WARNING:absl:You are saving your model as an HDF5 file via model.save() or keras.saving.save_model(model). This file format is considered legacy. We recommend using instead the native Keras format, e.g. model.save('my_model.keras') or keras.saving.save_model(model, 'my_model.keras').

6. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

lib.ire_plot('training', IRE2, IREth2, 'AE2')

print("Порог ошибки реконструкции = ",IREth2)

Порог ошибки реконструкции = 0.54

7. Рассчитет характеристик качества обучения EDCA для AE1 и AE2. Визуализация и сравнение области пространства признаков,распознаваемые автокодировщиками AE1 и AE2. Вывод о пригодности AE1 и AE2 для качественного обнаружения аномалий.

numb_square= 20
xx,yy,Z1=lib.square_calc(numb_square,data,ae1_trained,IREth1,'1',True)

Качество обучения AE1

amount: 21 amount_ae: 310 ООценка качества AE1 IDEAL = 0. Excess: 13.761904761904763 IDEAL = 0. Deficit: 0.0 IDEAL = 1. Coating: 1.0 summa: 1.0 IDEAL = 1. Extrapolation precision (Approx): 0.06774193548387096

Качество обучения AE2

numb_square= 20
xx,yy,Z2=lib.square_calc(numb_square,data,ae2_trained,IREth2,'2',True)

amount: 21 amount_ae: 62 Оценка качества AE2 IDEAL = 0. Excess: 1.9523809523809523 IDEAL = 0. Deficit: 0.0 IDEAL = 1. Coating: 1.0 summa: 1.0 IDEAL = 1. Extrapolation precision (Approx): 0.33870967741935487

lib.plot2in1(data,xx,yy,Z1,Z2)

Вывод: На основе проведенного сравнения можно заключить, что автокодировщик AE2 с пятислойной архитектурой является оптимальным решением, поскольку обеспечивает минимальную ошибку реконструкции по сравнению с более простой моделью AE1.

8. Создание тестовой выборки

test_data = np.array([[1.6, 1.2], [1.2, 1], [1.1, 1], [1.5,1.5], [1, 1], [1.5, 1.5]])

9. Применение обученных автокодировщиков AE1 и AE2 к тестовым данным

Автокодировщик AE1

predicted_labels1, ire1 = lib.predict_ae(ae1_trained, data_test, IREth1)
lib.anomaly_detection_ae(predicted_labels1, ire1, IREth1)
lib.ire_plot('test', ire1, IREth1, 'AE1')

Аномалий не обнаружено

predicted_labels2, ire2 = lib.predict_ae(ae2_trained, data_test, IREth2)
lib.anomaly_detection_ae(predicted_labels2, ire2, IREth2)
lib.ire_plot('training', IRE2, IREth2, 'AE2')

Аномалий не обнаружено

10. Визуализировать элементы обучающей и тестовой выборки в областях пространства признаков

Построение областей аппроксимации и точек тестового набора

lib.plot2in1_anomaly(data, xx, yy, Z1, Z2, data_test)

11. Результаты исследования занести в таблицу

Модель	Количество скрытых слоев	Количество нейронов в скрытых слоях	Количество эпох обучения	Ошибка MSE_stop	Порог ошибки реконструкции	Excess	Approx	Аномалии
AE1	1	1	50	1.2973	1.97	13.7	0.067	0
AE2	5	3 2 1 2 3	1000	0.0145	0.54	1.95	0.338	0

11. Выводы о требованиях

Вывод:
Критерии качественного детектирования аномалий:
1.Данные: двумерный формат входных данных
2.Архитектура: наличие bottleneck-слоя уменьшенной размерности
3.Обучение: увеличение эпох при росте сложности сети
4.Качество: MSE_stop ∈ [0,1] и минимальная ошибка реконструкции
5.Метрики: Excess=0, Deficit=0, Coating=1, Approx=1"

Задание 2.

1. Оописание своего набора реальных данных

Исходный набор данных Letter Recognition Data Set из репозитория машинного обучения UCI представляет собой набор данных для многоклассовой классификации. Набор предназначен для распознавания черно-белых пиксельных прямоугольников как одну из 26 заглавных букв английского алфавита, где буквы алфавита представлены в 16 измерениях. Чтобы получить данные, подходящие для обнаружения аномалий, была произведена подвыборка данных из 3 букв, чтобы сформировать нормальный класс, и случайным образом их пары были объединены так, чтобы их размерность удваивалась. Чтобы сформировать класс аномалий, случайным образом были выбраны несколько экземпляров букв, которые не входят нормальный класс, и они были объединены с экземплярами из нормального класса. Процесс объединения выполняется для того, чтобы сделать обнаружение более сложным, поскольку каждый аномальный пример также будет иметь некоторые нормальные значения признаков.
Количество признаков - 32
Количество примеров - 1600
Количество нормальных примеров - 1500
Количество аномальных примеров - 100

2. Загрузка многомерной обучающей выборки

train= np.loadtxt('letter_train.txt', dtype=float)
test = np.loadtxt('letter_test.txt', dtype=float)

3. Вывод данных и размера выборки

print('Исходные данные:')
print(train)
print('Размерность данных:')
print(train.shape)

Исходные данные: [[ 6. 10. 5. ... 10. 2. 7.] [ 0. 6. 0. ... 8. 1. 7.] [ 4. 7. 5. ... 8. 2. 8.] ... [ 7. 10. 10. ... 8. 5. 6.] [ 7. 7. 10. ... 6. 0. 8.] [ 3. 4. 5. ... 9. 5. 5.]] Размерность данных: (1500, 32)

4. Создание и обучение автокодировщика с подходящей для данных архитектурой.

ae3_trained, IRE3, IREth3 = lib.create_fit_save_ae(train,'out/AE3.h5','out/AE3_ire_th.txt',
100000, False, 5000, early_stopping_delta = 0.001)

Задать архитектуру автокодировщиков или использовать архитектуру по умолчанию? (1/2): 1 Задайте количество скрытых слоёв (нечетное число) : 7 Задайте архитектуру скрытых слоёв автокодировщика, например, в виде 3 1 3 : 31 31 31 31 31 31 31

Epoch 1000/100000

loss: 6.0089 Epoch 2000/100000

loss: 6.0089 ... Epoch 98000/100000

loss: 0.0500 Epoch 99000/100000

loss: 0.0489 Epoch 100000/100000

loss: 0.0524

5. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

lib.ire_plot('training', IRE3, IREth3, 'AE3')

print("Порог ошибки реконструкции = ",IREth3)

Порог ошибки реконструкции = 2.97

6. Загрузка многомерной тестовой выборки

print('Исходные данные:')
print(test)
print('Размерность данных:')
print(test.shape)

Исходные данные: [[ 8. 11. 8. ... 7. 4. 9.] [ 4. 5. 4. ... 13. 8. 8.] [ 3. 3. 5. ... 8. 3. 8.] ... [ 4. 9. 4. ... 8. 3. 8.] [ 6. 10. 6. ... 9. 8. 8.] [ 3. 1. 3. ... 9. 1. 7.]] Размерность данных: (100, 32)

7. Вывести график ошибки реконструкции элементов тестовой выборки относительно порога

predicted_labels3, ire3 = lib.predict_ae(ae3_trained, test, IREth3)
lib.anomaly_detection_ae(predicted_labels3, ire3, IREth3)
lib.ire_plot('test', ire3, IREth3, 'AE3')

i Labels IRE IREth 0 [1.] [3.16] 2.97 1 [1.] [3.54] 2.97 ... 98 [1.] [3.28] 2.97
99 [0.] [1.76] 2.97
Обнаружено 22.0 аномалий

8. Параметры наилучшего автокодировщика и результаты обнаружения аномалий

Dataset name	Количество скрытых слоев	Количество нейронов в скрытых слоях	Количество эпох обучения	Ошибка MSE_stop	Порог ошибки реконструкции	% обнаруженных аномалий
Letter	7	31 31 31 10 31 31 31	100000	0.0524	2.97	22.0

9. Вывод о требованиях

Для качественного обнаружения аномалий в случае, когда размерность пространства признаков высока. Данные для обучения должны быть без аномалий, чтобы автокодировщик смог рассчитать верное пороговое значение Архитектура автокодировщика должна постепенно сужатся к бутылочному горлышку,а затем постепенно возвращатся к исходным выходным размерам, кол-во скрытых слоев 7-11. В рамках данного набора данных оптимальное кол-во эпох 100000 с patience 4000 эпох Оптимальная ошибка MSE-stop в районе 0.001, желательно не меньше для предотвращения переобучения Значение порога не больше 1.6

16 KiB Исходник Вина История

Отчет по лабораторной работе №2

Задание 1.

1. В среде GoogleColab создали блокнот(notebook.ipynb).

2. Генерация датасета

3. Создание и обучение автокодировщик AE1

4. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

5. Создание и обучиние второй автокодировщик AE2

6. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

8. Создание тестовой выборки

9. Применение обученных автокодировщиков AE1 и AE2 к тестовым данным

10. Визуализировать элементы обучающей и тестовой выборки в областях пространства признаков

11. Результаты исследования занести в таблицу

11. Выводы о требованиях

Задание 2.

1. Оописание своего набора реальных данных

2. Загрузка многомерной обучающей выборки

3. Вывод данных и размера выборки

4. Создание и обучение автокодировщика с подходящей для данных архитектурой.

5. Построение график ошибки реконструкции обучающей выборки. Вывод порога ошибки реконструкции – порога обнаружения аномалий.

6. Загрузка многомерной тестовой выборки

7. Вывести график ошибки реконструкции элементов тестовой выборки относительно порога

8. Параметры наилучшего автокодировщика и результаты обнаружения аномалий

9. Вывод о требованиях

16 KiB

Исходник Вина История