 <font size="6">Нейронные сети</font>

#  Ограничения Линейного классификатора

Вспомним материал лекции №2:

Мы обучали линейный классификатор на датасете CIFAR-10

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/input_img_scalar_product_add_bias_get_scores.jpg" width="600">




- Основная операция линейного классификатора: скалярное произведение
- Функции потерь: SVM Loss, Cross-Entropy Loss
- Метод обучения: градиентный спуск
- Оценка точности линейного классификатора на CIFAR-10: ~0.38

Попробуем визуализировать шаблоны (матрицы весовых коэффициентов), получающиеся в результате обучения линейного классификатора. 

In [None]:
from IPython.display import clear_output
!wget https://edunet.kea.su/repo/EduNet-web_dependencies/L05/lc_cifar10_weights.txt
clear_output()

In [None]:
import torch
import numpy as np
import matplotlib.pyplot as plt

# Display templates
plt.rcParams["figure.figsize"] = (25, 10)

W = torch.from_numpy(np.loadtxt("lc_cifar10_weights.txt")) # load weigths, shape 3073x10
print(f'Shape with bias: {W.shape}')

# Remove bias
W = W[:-1, :]
print(f'Shape without bias: {W.shape}')

# Denormalize
w_min = torch.min(W)
w_max = torch.max(W)
templates =  255 * (W - w_min) / (w_max - w_min)

# Display templates
labels_names = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
for i in range(10):
    plt.subplot(1, 10, i+1)
    img = templates[:,i].view(3, 32, 32).permute(1, 2, 0).type(torch.uint8)
    plt.imshow(img)
    plt.axis('off')
    plt.title(labels_names[i])

Ограничение линейного классификатора состоит в том, что для каждого класса существует только один шаблон. Шаблон каждого класса будет пытаться вобрать в себя информацию обо всех объектах класса сразу (например, на получившихся шаблонах у лошади две головы, машина красная и т. д.). Сильная внутриклассовая вариативность будет мешать линейному классификатору запоминать разные варианты объектов одного класса, и это ограничивает точность модели.

##  ХОR — проблема

У линейного классификатора есть существенные ограничения применения. Рассмотрим задачу XOR. На вход подаётся упорядоченный набор из двух чисел согласно таблице истинности логической функции "исключающее ИЛИ" (XOR). Задача линейного классификатора — сопоставить этим числам их класс согласно таблице. Графически два входных числа можно изобразить как координаты точек на плоскости, а цветом обозначить их истинный класс. Тогда задача классификатора — построить линию, отделяющую красные точки (класс 0) от зелёных точек (класс 1). Однако видно, что одной линией это сделать геометрически невозможно — точки, размеченные по таблице истинности XOR являются **линейно неразделимыми**.

То есть, линейный классификатор уже не может справиться с этой, казалось бы, простой задачей.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/xor_problem.png"  width="600">

## Проблемы классификации более сложных объектов

Человек узнает на изображении кошку или любой другой объект, руководствуясь целостным представлением о данном объекте на изображении. Такое целостное интуитивное представление об объектах для компьютера напрямую недоступно. С точки зрения компьютера, изображение представляет собой не более чем таблицу из чисел, кодирующих цвета всех его пикселей. Небольшое цветное изображение (с тремя  цветовыми каналами: красным, зеленым и синим) в разрешении $32 \times 32$ для компьютера представлено просто упорядоченным набором из $32 \times 32 \times 3 = 3072 $ целых чисел.

Легко себе представить ситуацию, в которой изображения одного и того же объекта будут значительно отличаться на масштабе отдельных пикселей. Так, например, один и тот же кот может быть представлен на фотографии в различных позах, фотографии могут отличаться условиями освещения, яркостью или контрастностью. Кроме того, на одной из фотографий может быть изображен только фрагмент объекта — скажем, только хвост. Все эти факторы не являются преградой для распознавания человеком, и мы хотим потребовать того же и для реализованных на компьютере алгоритмов классификации.


Вот лишь малая часть параметров, которые будут влиять на точность распознавания классификатора:



<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/problem_classification_difficult_object.png"  width="700">

Все описанные выше сложности обобщенно можно назвать **внутриклассовой вариативностью**: мы можем приписывать к одному классу объекты, которые допускают широкий спектр определения. Так, например, мы обобщаем классом "кошка" кошек различных пород, размеров и возрастов. "Хороший" алгоритм классификации должен быть устойчив к внутриклассовой вариативности и верно распознавать все возможные варианты объектов.

Один из подходов к решению этой проблемы — модифицировать модель таким образом, чтобы на у нее внутри было не по одному шаблону на каждый класс, а по несколько (скажем, вместо 100 шаблонов вместо 10 при десяти классах). Тогда бы Ямодель имела возможность запоминать разные объекты одного класса и далее использовать эти промежуточные шаблоны для разбиения объектов на классы.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/modified_model.png"  width="700">

Реализуем эту модель на основе линейного классификатора из лекции №2:

Применяем к выходам классификатора еще один классификатор. Будет ли работать данная модель?

In [None]:
x = torch.rand(3072) # random image
W1 = torch.randn(3072, 100) * 0.0001 # without bias 
W2 = torch.randn(100, 10) * 0.0001 # without bias 
scores1 = x.matmul(W1) # matrix multiplication, equivalent x@W1
scores2 = scores1.matmul(W2) # matrix multiplication, of the next classifier

print(f'First classifier shape: {scores1.shape}')
print(f'Second classifier shape: {scores2.shape}')

Нетрудно заметить, что последовательное применение двух классификаторов к входным данным эквивалентно применению одного классификатора с матрицей весов, равной произведению двух матриц весов классификаторов примененных последовательно.

$$ scores_1 = W_1 \cdot x $$

$$ scores_2 = W_2 \cdot scores_1 = W_2 \cdot W_1 \cdot x $$ 

$$ W = W_2 \cdot W_1 $$

$$ scores_2 = W \cdot x $$ 

Для того, чтобы последовательно примененные классификаторы не вырождались в один, необходимо применить нелинейность к их выходам, например, сделаем так, чтобы каждый шаблон, предсказывающий класс объекта воспринимал только положительные сигналы с выхода первого классификатора:

In [None]:
scores1 = x.matmul(W1) 
print(f"\nFirst 8 elements of Scores1: {scores1[:8]}") # take the first 8 values for visualization
activations = torch.maximum(torch.tensor(0), scores1) # only values greater than zero
print(f"\nActivations {activations[:8]}" ) # take the first 8 values for visualization
scores2 = activations.matmul(W2)
print(f"\nScores2 {scores2}") 

Теперь вычисления выглядят так:

$$ scores_1 = W_1 \cdot x $$

$$ activations = max(0, scores_1) $$

$$ scores_2 = W_2 \cdot activations = W_2 \cdot max(0, scores_1)$$ 

Нелинейность:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/non_linearity.jpg" width="450">

Такая конструкция называется **функцией активации**. И мы уже пользовались подобной, когда разбирали Cross-Entropy loss (Softmax).

Приведем код в порядок:

In [None]:
class NeuralNet():
  def __init__(self):
    self.W1 = torch.randn(3072, 100)*0.0001 
    self.W2 = torch.randn(100, 10)*0.0001 

  def predict(self, x):
    scores1 = x.matmul(self.W1) # Linear
    activations1 = torch.maximum(torch.tensor(0), scores1) # activation ReLU 
    scores2 = activations1.matmul(self.W2) # Linear
    return scores2

x = torch.rand(3072) # image
model = NeuralNet()
scores = model.predict(x) 
print(f'scores: \n {scores}')

Ядром вычислений по-прежнему является скалярное произведение входов с весовыми коэффициентами. 



<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/dot_product.png" width="800">

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/input_weght_out.png"  width="700">


И оно соответствует одному слою искусственной нейронной сети (за исключением функции активации).



<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/scalar_product_add_bias.png" width="800">

#  Многослойные сети

По мере развития мощности компьютеров, теоретической базы, появления больших датасетов и метода обратного распространения ошибки, появилась возможность строить более сложные сети — многослойные нейронные сети или же в современном понимании просто **нейронные сети**.

Пример **полносвязной (fully-connected network)** нейронной сети с двумя скрытыми слоями:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/nn_fully_connected.png"  width="400">

#  Обучение нейронной сети

Нейронная сеть в процессе **обучения** последовательно обрабатывает все объекты из обучающей выборки.
Предъявление нейронной сети всех объектов обучающей выборки по одному разу называется **эпохой обучения**. 



Обучающую выборку разделяют на две части: непосредственно использующуюся для обучения (train data) и валидационную (validation data). На валидационных данных каждую эпоху происходит оценка качества обучения. Стратегия разделения на train и validation подвыборки может быть произвольной, но при разделении следует заботиться о том, чтобы эти подвыборки были "похожи". 

В ходе обучения ошибка работы модели измеряется на обучающих и валидационных данных для контроля **переобучения** (overfitting). В случае возникновения переобучения нейронная сеть начинает терять обобщающую способность, что можно заметить по возникновению роста ошибки на валидационной подвыборке в ходе процесса обучения — в случае переобучения нейронная сеть просто "зазубривает" примеры из обучающей подвыборки, а не аппроксимирует искомую функциональную зависимость между признаками и целевой переменной.

##  Прямое и обратное распространение

Рассмотрим процесс **обучения с учителем** (supervised learning) нейронной сети с прямым распространением сигнала (feedforward neural network). В ходе такого процесса мы хотим аппроксимировать при помощи нейронной сети функциональную зависимость между некоторым набором входных сигналов (признаков) и соответствующим им набором выходных сигналов (целевой переменной), используя множество эталонных пар вход-выход. 

На этапе **прямого распространения** (forward pass), нейронной сети на вход подаются объекты из тренировочной выборки, вычисляется выход сети, и при помощи **функции потерь** (loss function) производится количественное сравнение полученных на выходе нейронной сети сигналов с эталонными значениями выхода. Далее, на этапе **обратного распространения** (backward pass), значение функции потерь будет использовано для постройки параметров сети.

Подстройка параметров нейронной сети может происходить после вычисления функции потерь на одном примере (online) или же после накопления информации об отклике сети на пакете из нескольких примеров из обучающей выборки (**mini-batch**).

После завершения эпохи обучения и подстройки параметров модели происходит вычисление функции потерь на валидационных данных. Для валидационных данных производится только прямое распространение и вычисление функции потерь. **Подстройка параметров на валидационных данных не происходит.**

##  Веса сети

**Нейрон** является базовым элементом строения нейронной сети. У нейрона есть определенное количество "входов", которыми он "подключён" к выходным значениям других нейронов. Нейрон осуществляет суммирование приходящих в него входных значений, причём учитывает значения входов с определенными весовыми коэффициентами (или просто **весами**), которые в определенном смысле характеризуют их значимость. Веса сети являются вещественными числами и могут быть как положительными, так и отрицательными. Именно веса нейрона являются изменяемыми параметрами и они подвергаются подстройке во время обучения нейронной сети.

###  Как вычислить результат работы нейронной сети

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/nn__xor_example.png"  width="600">

Рассмотрим прямое распространение сигнала на одном примере задачи XOR. При подаче на вход $1$ и $0$, мы будем ожидать $1$ на выходе. Веса сети определим случайным образом:

$I_1=1\quad I_2=0$

$w_1=0.45\quad  w_2=0.78\quad 
w_3=-0.12\quad  w_4=0.13$


$w_5=1.5\quad  w_6=-0.3$

Вычислим выходные значения так называемых "скрытых" (hidden) нейронов $H_1$ и $H_2$. На вход они получают входные (input) значения $I_1$ и $I_2$ , которые умножаются на соответствующие веса $w_1$, $w_2$, $w_3$ и $w_4$.

$ H_1 = w_1 I_1 + w_3 I_2 = 0.45 * 1 + (-0.12) * 0 = 0.45 $

$ H_2 = w_2 I_1 + w_4 I_2 = 0.78 * 1 + 0.13 * 0 = 0.78 $

Для того, чтобы добавить сети выразительной способности, выходные значения скрытых нейронов $H_1$ и $H_2$ пропускаются через **нелинейную функцию активации**. В данном примере в качестве функции активации используется сигмоида $\sigma(x)$. 

Подробнее об этой и других функциях активации мы поговорим далее в этой лекции, а пока давайте рассмотрим график сигмоиды:

$$\sigma(x)=\frac{1}{1+e^{-x}}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/sigmoid_function.png"  width="500">

Одним из свойств сигмоидальной функции активации является то, что она переводит аргумент $x$, определенный на всей вещественной прямой от $-\infty$ до $+\infty$, в значение из интервала $(0, 1)$.

Итак, вернемся к расчетам:

$ H_1^{out} = \sigma(H_1) = \sigma(0.45) = 0.61 $

$ H_2^{out} = \sigma(H_2) = \sigma(0.78) = 0.69 $

Теперь мы можем вычислить значение выходного (output) нейрона $O_1$. Он также получает на вход сигналы от нейронов скрытого слоя $H_1^{out}$ и $H_2^{out}$, которые умножаются на соответствующие веса $w_5$ и $w_6$, и складываются

$O_1 = w_5 H_1^{out} + w_6 H_2^{out} = 1.5 * 0.61 + (-0.3) * 0.69 = 0.71$

Значение взвешенной суммы может меняться от $-\infty$ до $+\infty$, а мы ожидаем на выходе модели значение от $0$ до $1$ (вспомним, что мы решаем задачу XOR). Поэтому взвешенная сумма, полученная в $O_1$, также пропускается через сигмоидальную функцию активации, и это значение является выходом всей нейронной сети.

$O_1^{out} = \sigma(O_1) = σ(0.71) = 0.67 $ 

Таким образом, мы произвели прямое распространение сигнала от входа нейронной сети и получили значение на выходе. Ответ нейронной сети $O_1^{out} = 0.67$, а мы ожидали на выходе $1$. О том, как скорректировать веса нужным образом будет рассказано в разделе о методе обратного распространения ошибки.

###  Смещение (bias)

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/why_add_bias_example.png"  width="500">

Рассмотрим простой пример. На вход нейрона подаётся входное значение $x$, умноженное на вес $w$. После применения функции активации, в зависимости от веса, при всевозможных значениях входа мы можем получить следующие графики при $w$ равном $0.5$, $1$ и $2$:

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/non_bias_problem_plot.png"  width="600">

<center><p><em>Source: <a href="https://codeby.school/blog/informacionnaya-bezopasnost/pogrughenie-v-mashinnoe-obuchenie-chast-1">Immersion in Machine learning</a></p> </em></center>

[A Biased Graph Neural Network Sampler](https://arxiv.org/pdf/2103.01089.pdf)

Но что если мы захотим, чтобы при $x=5$ нейрон выдавал $0$? Тогда без смещения эту задачу не решить.

Просто изменить крутизну сигмоиды на самом деле не получится — мы хотим иметь возможность сдвинуть всю кривую вправо.

**Смещение** (англ. bias) — это дополнительный коэффициент, прибавляющийся к взвешенной сумме входов. Наличие смещения позволяет сдвинуть функцию активации влево или вправо, что может иметь решающее значение для успешного обучения.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/add_bias_example.png"  width="500">

Тогда при разных смещениях $5$, $0$ и $-5$ мы можем получить сдвинутые функции активации, что способствует лучшему обучению нейронной сети:

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/after_add_bias_plot.png"  width="600">

<center><p><em>Source: <a href="https://codeby.school/blog/informacionnaya-bezopasnost/pogrughenie-v-mashinnoe-obuchenie-chast-1">Immersion in Machine learning</a></p> </em></center>

##  Метод обратного распространения ошибки

Итак, мы поняли, какие действия необходимо выполнять внутри одной эпохи обучения двухслойной неронной сети:
- предобработать данные;
- умножить их на веса;
- применить функцию активации;
- снова умножить на веса;
- вычислить значение функции потерь;
- вычислить градиент функции потерь по весам;
- обновить веса;
- оценить точность.

А как будем искать градиент?
Во второй лекции мы вручную считали производную от функции потерь по весам. Так как модель поменялась, придется делать это заново.

Для того, чтобы упростить этот процесс, используется метод обратного распространения ошибки или backpropagation.


**Метод обратного распространения ошибки (backpropagation)** является эффективным методом вычисления градиента от функции потерь многослойной нейронной сети. Благодаря данному методу становится практически возможным использование метода градиентного спуска для проведения процедуры обучения. Несмотря на то, что первые работы по обучению многослойных перцептронов методом обратного распространения ошибки были опубликованы ещё в 1974 году, значительное развитие данная технология получила сравнительно недавно, после появления современных вычислительных ресурсов.

###  Основная идея метода

Метод обратного распространения ошибки явно использует структуру многослойной нейронной сети как сложной функции, применяя цепное правило дифференцирования для вычисления градиента от функции потерь по весам сети. Градиент от функции потерь нейронной сети вычисляется последовательно, при движении по вычислительному графу нейронной сети от её выходов в направлении входов. Именно такой порядок обхода **вычислительного графа** и обуславливает название метода.

### Граф вычислений

Любую нейронную сеть можно представить в виде графа "последовательных действий", где результат вычисляется последовательно, одно действие за другим.

Ранее мы вычисляли производную вручную, и для простой модели это было несложно.

Однако по мере добавления слоев модель может оказаться намного сложнее. Например, так выглядит архитектура AlexNet:


<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/alexnet.png"  width="800">

Алгоритм обратного распространения ошибки позволяет находить градиенты для любого графа вычислений, если описываемая им функция дифференцируема.

В его основе лежит правило взятия производной сложной функции (chain rule):

Одна переменная:
$$ y(x) = f(u(x)) $$

$$ \frac{dy}{dx} = \frac{df}{du} \cdot \frac{du}{dx}$$






Несколько переменных:

$$ y(x) = f(u_1(x),u_2(x),...u_n(x)) $$

$$ \frac{dy}{dx} = \sum_{i=1}^{n} \frac{\partial f(u_1, u_2, ... u_n)}{\partial u_i} \frac{du_i}{dx}$$

$$ \underbrace{\frac{d}{dt} f(\vec{\mathbf{v}}(t))}_{\text{Derivative of composition function}} = \overbrace{\nabla f \cdot \vec{\mathbf{v}}'(t)}^{\text{Dot product of vectors}} $$

####  Пошаговый разбор метода обратного распространения

Алгоритм, по которому вычисляются веса, можно представить в виде графа.

А общее правило взятия градиентов можно представить следующим образом:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/rule_for_taking_gradients.png"  width="500">

Рассмотрим следующую функцию:

$$f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$$

Её можно представить в виде простого графа вычислений:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/graph_of_calculation_gradient.png"  width="700">

На примере данной несложной функции рассмотрим алгоритм обратного распространения ошибки и найдём величину её градиента по параметрам $w$.
Нам потребуется вычислить частные производные $\frac{\partial f}{\partial w_0}$, $\frac{\partial f}{\partial w_1}$, $\frac{\partial f}{dw_2}$, $\frac{\partial f}{\partial x_0}$ и $\frac{\partial f}{\partial x_1}$. 

Пусть "веса" $w$ инициализированы значениями $w_0=2\;w_1=-3,\;w_2=-3,$а "входные признаки" $x$ принимают значения $x_0=-1.0,\;x_1=-2.0$.

Делая прямой проход через граф вычислений для данной функции, получаем её значение для заданных $w$ и $x$ равным $f=0.73$:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/forward_pass_example.png"  width="800">

Далее, в соответствии с алгоритмом обратного распространения ошибки, рассчитаем частные производные, пройдясь последовательно по графу вычислений, постепенно накапливая искомое значение для градиента функции:

Для начала посчитаем производную функции $\frac{\partial f}{\partial f}$, которая будет равна единице. Движемся дальше по графу вычислений — следующая вершина содержит функцию $f(x)=\frac{1}{x}$, производная которой равна $\frac{df}{dx}=-\frac{1}{x^2}$



<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_1_step.png"  width="800">



В следующем узле находится функция $f(x)=1+x$. Производная от константы $+1$ равняется нулю, то есть производная от всего выражения в данном узле равняется просто $\frac{df}{dx}=1$:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_2_step.png"  width="800">

Третья вершина содержит экспоненту $f(x)=e^x$. Её производная также является экспонентой $\frac{df}{dx}=e^x$:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_3_step.png"  width="800">

Следующая вершина, четвертая, содержит умножение на константу $f(x)=ax$. Производная равна $\frac{df}{dx}=a$ (в данном случае $a=-1$):

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_4_step.png"  width="800">

Двигаясь по графу вычислений, мы дошли до узла суммирования, который имеет два входа. Относительно каждого из входов локальный градиент в вершине суммирования будет равен $1$:
$$f(x,y)=x+y \quad \Rightarrow \quad \frac{\partial f}{\partial x}=1  \quad \quad \frac{\partial f}{\partial y}=1$$
Так как умножение на единицу не изменит значения входного градиента, всем входам узла суммирования мы можем приписать точно такое же значение входного градиента ($0.2$), что мы имели и для самого узла суммирования. Будем действовать аналогично и со всеми остальными узлами суммирования, что встретятся нам в вычислительном графе.


<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_5_step.png"  width="800">

Двигаясь далее к началу графа вычислений, мы подходим к вершинам умножения. Для такой вершины локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа. Остается умножить локальный градиент на входящий.
$$f(w,x)=wx \quad \Rightarrow \quad \frac{\partial f}{\partial w}=x  \quad \quad \frac{\partial f}{\partial x}=w$$

Точно так же мы можем поступить и с оставшейся второй вершиной умножения, которая привязана к $w_1$ и $x_1$:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_6_step.png"  width="800">

Так, двигаясь по графу вычислений в обратном направлении от выхода сети к входным признакам, мы последовательно для каждого узла умножаем локальный градиент на входящий градиент, используя цепное правило дифференцирования сложной функции. В описанном примере мы полностью разбили граф вычислений на отдельные элементарные узлы. Разбиение вычислительного графа на элементарные узлы вовсе не обязательно — мы можем сгруппировать несколько вершин вместе, если они образуют дифференцируемую функцию, и рассматривать их совместно.  

В нашем примере мы можем заметить, что вычислительный граф можно свести к двум операциям: получению выражения $w_0x_0+w_1x_1+w_2$ и последующему вычислению от него сигмоидальной функции. Важно отметить, что сигмоида обладает важным свойством: её производная может быть выражена через саму сигмоидалную функцию:

$$\frac{d\sigma{(x)}}{dx}=(1-\sigma{(x)}) \cdot \sigma{(x)}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/compute_gradient_join_vertices_sigmoid_example.png"  width="800">

В коде без использования библиотек подсчёт градиентов можно записать как:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/calculating_gradients_in_code.png"  width="800">

#### Более сложные случаи

#####  Обратное распространение для векторов:

В случае, когда выход сети $z$ не один (многоклассовая классификация, тексты, картинки и т.д.), необходимо учитывать значения каждого элемента выходного вектора для расчёта градиентов.

Матрица Якоби — матрица, составленная из частных производных отображения.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/backpopagation_with_vectors.png"  width="700">

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/backpropagation_with_vectors_example.png"  width="700">

##### Множественная вершина

Если вход соединен с несколькими вершинами графа или у вершины больше одного выхода:


<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/multiple_vertices_of_graph.png"  width="700">


то в месте ветвления можно создать дополнительную вершину, которая будет соответствовать операции копирования.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/add_copy_operation_for_vertex.png"  width="700">

Тогда при обратном распространении, градиент можно разделить в соответствии с осуществлённой операцией

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/upstream_gradient.png"  width="700">

Для базовых операций можно выделить следующие шаблоны "разделения" градиента:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/add_copy_mul_max_gates.png"  width="700">

####  Анимация работы метода обратного распространения ошибки



Таким образом, метод обратного распространения ошибки включает в себя следующие шаги:
* Forward pass (FP) - прямое распространение сигнала от входа к выходам (без которого не получить вычисленные значения в графе).
* Backward pass (BP) - расчёт величины градиента от выхода ко входам.
* Обновление весов, в зависимости от величины градиента. На анимации буквой $\eta$ обозначен learning rate.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/backprop_animation.gif"  width="600">

#### Введение в PyTorch

Практически вся наша работа с этого момента будет осуществляться с помощью [PyTorch](https://pytorch.org/), поэтому необходимо познакомиться с основными концептами, принципами и функциями PyTorch.

Лучший друг в этом, конечно же, [документация](https://pytorch.org/docs/stable/index.html), однако можно привести основные моменты этой библиотеки/фреймворка:

##### Основная сущность — torch.Tensor

Поскольку основная сущность, с которой мы работаем, это вектора и матрицы, то для них нужен очень мощный и функциональный класс — [`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor)

Создание "пустого" тензора:

In [None]:
import torch
a = torch.Tensor() 

Конструктор класса с заполнением существующими значениями:

In [None]:
a = torch.tensor([1.1, 2.2, 3.2]) 
a.dtype

Явное указание типа данных:

In [None]:
a = torch.tensor([1.1, 2.2, 3.2], dtype=torch.float64)
a.dtype

Создание 2-мерного тензора, заполненного единицами (для нулей zeros)

In [None]:
a = torch.ones(size=(3, 2)) 
a.size()

Создание 2-мерного тензора, заполненного указанным значением


In [None]:
a = torch.full((3, 2), 5.1) 
a

Транспонирование (изменение порядка осей)

In [None]:
a = a.T 
a

В библиотеке доступно огромное количество встроенных математических примитивов

In [None]:
c = torch.atan2(a[0], a[1]) 
c

Почти всё, что есть в NumPy, есть в PyTorch, например, `sum()`:

In [None]:
c.sum() 

Перестановка, удаление и добавление пространственных измерений:

In [None]:
a = torch.zeros((2, 5, 1, 8))
print("Original tensor size:\n", a.size())

a = a.permute(dims=(2, 0, 3, 1)) # permute dimensions
print("After permute tensor size:\n", a.size())

a = a.squeeze() # delete dimension
print("After squzee tensor size:\n", a.size())

a = a.unsqueeze(dim=0) # add dimension
print("After unsquzee tensor size:\n", a.size())

Преобразование torch.Tensor в NumPy-массив:

In [None]:
a.numpy() 

PyTorch позволяет тензору быть представлением (view) существующего тензора. Тензор представления использует те же базовые данные, что и его базовый тензор. Поддержка `view` позволяет избежать явного копирования данных, что позволяет нам выполнять быстрое и эффективное изменение формы, нарезку и операции с элементами.

In [None]:
a = torch.rand(2, 8)
print("Original tensor:\n", a)
b = a.view(4, 4) # carefully with structured data, reshape/view can transform image to unreadable view 
print("Tensor after view tensor:\n", b)
b += 1
print("Add 1 to tensor:\n", b)

Размещение тензора на GPU:

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("Cuda available: ", torch.cuda.is_available(), '\n')
a = a.to(device) # tensor to gpu
b = torch.full_like(a, 2).to(device)
c = a * b # compute on gpu (more fast with parallel computing)
c

##### Автоматическое вычисление градиентов

PyTorch умеет запоминать последовательность операций с нашими тензорами и вычислять градиент.

In [None]:
x_train = torch.tensor([1., 2., 3., 4.])
y_train = torch.tensor([2., 4., 6., 8.])

W = torch.tensor(1.0, requires_grad=True) 

print (f"W.grad = {W.grad} (before forward pass must be 'None')")

y_pred = W * x_train
criterion = torch.nn.MSELoss()
MSE = criterion(y_pred, y_train)
print(f"MSE = {MSE}")

# backward pass to compute gradient dMSE/dw
MSE.backward()
print (f"W.grad = {W.grad}")

Отсоединение тензора от графа вычислений (используйте при копировании тензора):

In [None]:
W.detach() 

##### Другие интересные подмодули фреймворка


Torch

* ```torch.nn``` — модуль для работы с нейронными сетями в стиле ООП
* ```torch.nn.functional``` — то же, что выше, но в функциональном стиле
* ```torch.utils.data``` — создание датасета, даталоадера
* ```torch.linalg``` — линейная алгебра
* ```torch.fft``` — преобразования Фурье
* ```torch.random``` — реализация функций, связанных со случайностью


[Torchvision](https://pytorch.org/vision/stable/index.html) - работа с изображениями
* ```torchvision.transforms``` — трансформации и предобработки для изображений
* ```torchvision.datasets``` — учебные датасеты
* ```torchvision.models``` — готовые модели для обработки изображений

[Torchaudio](https://pytorch.org/audio/stable/index.html) - работа с аудио.
* ```torchaudio.transforms``` — общие методы обработки звука и извлечения признаков
* ```torchaudio.datasets``` — учебные датасеты
* ```torchaudio.models``` — готовые модели для обработки аудио

[Torchtext](https://pytorch.org/text/stable/index.html) - работа с текстом.
* ```torchtext.transforms``` — общие методы предобработки и трансформации текста

etc.

####  Backprop in PyTorch


Рассмотрим алгоритм обратного распространения на примере вычисления квадрата ошибки для линейной регрессии (для простоты не будем рассматривать смещение):

$$y=w\cdot x, \quad при \;x=[1,2,3,4],\;y=[2,4,6,8],\;w=1$$

В данном примере видно, что предсказанный моделью $\hat{y}=[1,2,3,4]$ не совпадает с истинными значениями $y$, и, соответственно, квадратичная ошибка для такого примера будет: $$MSE=\frac{1}{4}\sum_{i=1}^4E_i^2=\frac{1}{4}\sum_{i=1}^4(\hat{y}_i-y_i)^2=\frac{1+4+9+16}{4}=7.5$$

Градиент весов $w$ вычисляется следующим образом, в соответствии с цепным правилом:

$$\frac{d MSE}{d w} = \frac{\partial MSE}{\partial E}\cdot \frac{\partial E}{\partial \hat{y}}\cdot \frac{\partial \hat{y}}{\partial w}$$

Рассчитаем его с использованием PyTorch:



In [None]:
x_train = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
y_train = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

# This is the parameter we want to optimize -> requires_grad=True
W = torch.tensor(1.0, dtype=torch.float32, requires_grad=True)
print (f"W.grad = {W.grad} (before forward pass must be 'None')\n")
# forward pass to compute MSE
y_pred = W * x_train
E = y_pred - y_train
SE = E ** 2
MSE = SE.mean()
print(f"MSE = {MSE}")

# backward pass to compute gradient dMSE/dw
MSE.backward()
print (f"W.grad = {W.grad}")
print (f"E.grad = {E.retain_grad()}")

В данном примере мы произвели следующие расчеты:

$\frac{\partial MSE}{\partial E}=\frac{\sum\partial E^2}{\partial E}=\frac{1}{4}\cdot2\cdot E=\frac{1}{2}*[-1, -2, -3, -4]=[-0.5, -1, -1.5, -2]\quad *-поэлементное\;умножение$

$\frac{\partial E}{\partial \hat{y}}=\frac{\partial (\hat{y}-y)}{\partial \hat{y}}=1$

$\frac{\partial \hat{y}}{\partial w}=\frac{\partial wx}{\partial w}=x=[1, 2, 3, 4]$

$\frac{d MSE}{d w} = \frac{\partial MSE}{\partial E}\cdot \frac{\partial E}{\partial \hat{y}}\cdot \frac{\partial \hat{y}}{\partial w}=\sum[-0.5, -1, -1.5, -2]*[1, 2, 3, 4]=-0.5-2-4.5-8=-15$

`MSE.backward()` автоматически вычисляет градиент $\frac{dMSE}{dw}$ при указании `requires_grad=True`. 
Результаты вычислений будут храниться в `W.grad`. Для всех промежуточных переменных градиенты не сохраняются, поэтому попытка обратиться, например, к `E.grad` выдает `None`. 

Также после однократного обратного прохода в целях экономии памяти граф, используемый для вычисления градиента, будет удаляться, и следующий запуск `MSE.backward()` будет выдавать ошибку:



```
MSE.backward() # Error on second backward call
```



Чтобы сохранить вычислительный граф, для аргумента `retain_graph` функции `backward()` нужно указать значение `True`. Также может быть полезным сохранять значения градиентов для промежуточных переменных, это делается с помощью функции `tensor.retain_grad()`. В таком случае, значения градиентов, полученные на следующих итерациях обратного распространения ошибки, будут складываться с текущими значениями градиентов.

Градиенты переменных, для которых был указан `retain_graph=True`, сохраняются автоматически. Чтобы избежать их накопления при многократном итерировании алгоритма обратного распространения, нужно обнулять градиент на каждом шаге с помощью функции `tensor.grad.zero_()`.

In [None]:
x_train = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
y_train = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

# This is the parameter we want to optimize -> requires_grad=True
W = torch.tensor(1.0, dtype=torch.float32, requires_grad=True)

# forward pass to compute MSE
y_pred = W * x_train
E = y_pred - y_train
E.retain_grad() # Save grads for intermediate tensor E in memory
SE = E**2
MSE = SE.sum().div(4)

print("========== Backprop 1 ==============")
MSE.backward(retain_graph=True)
print (f"dMSE/dE = {E.grad}")
print (f"dMSE/dW = {W.grad}")

print("========== Backprop 2 ==============")
MSE.backward(retain_graph=True)
# Gradients are accumulated
print (f"dMSE/dE = {E.grad}")
print (f"dMSE/dW = {W.grad}")

print("========== Backprop 3 ==============")
W.grad.zero_() # Nullify gradients for W for the next iteration
MSE.backward(retain_graph=True)
# Gradients for W are not accumulated, but not for E
print (f"dMSE/dE = {E.grad}")
print (f"dMSE/dW = {W.grad}")

Итак, мы умеем вычислять градиент $\frac{\partial MSE}{\partial w}$ для нашего примера. Теперь давайте с его помощью оптимизируем веса, используя алгоритм обратного распространения ошибки:

In [None]:
x_train = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
y_train = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

W = torch.tensor(1.0, dtype=torch.float32, requires_grad=True)

# Define model output
def forward(x_train):
    return W * x_train

# Compute MSE loss 
def criterion(y_pred, y_train):
    return ((y_pred - y_train)**2).mean()

print(f'Prediction before training: f(x) = {forward(x_train)}')
print(f'True values: y = {y_train}\n')

# Training
learning_rate = 0.005
num_epochs = 102

for epoch in range(num_epochs):
    # Propagate forward
    y_pred = forward(x_train)

    # Compute MSE loss
    MSE = criterion(y_pred, y_train)

    # Propagate backward, compute gradients
    MSE.backward()

    # Update weights
    with torch.no_grad(): #  We don't want this step to be the part of the computational graph
        W -= learning_rate * W.grad 
    
    # Nullify gradients after updating to avoid their accumulation
    W.grad.zero_()

    if epoch % 10 == 1:
        print(f'epoch {epoch}: w = {W.item():.3f}, loss = {MSE.item():.8f}')

print(f'\nPrediction after training: f(x) = {forward(x_train)}')
print(f'True values: y = {y_train}')

Видно, что наш подход позволяет оптимизировать вес $w$ регрессии из примера и таким образом добиться почти идеального предсказания нашей модели, однако в данном подходе дополнительно можно автоматизировать вычисление функции потерь и обновление параметров с учетом градиента, используя готовые функции потерь из `torch.nn` и оптимизаторы из `torch.optim`.

In [None]:
import torch.nn as nn

x_train = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
y_train = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

W = torch.tensor(1.0, dtype=torch.float32, requires_grad=True)

# Define model output
def forward(x_train):
    return W*x_train


print(f'Prediction before training: f(x) = {forward(x_train)}')
print(f'True values: y = {y_train}\n')

# Training
learning_rate = 0.005
num_epochs = 102

criterion = nn.MSELoss()
optimizer = torch.optim.SGD([W], lr=learning_rate)

for epoch in range(num_epochs):
    # Propagate forward
    y_pred = forward(x_train)

    # Compute MSE loss
    MSE = criterion(y_pred, y_train)

    # Propagate backward, compute gradients
    MSE.backward()

    # Update weights
    optimizer.step()

    # Nullify gradients after updating to avoid their accumulation
    optimizer.zero_grad()

    if epoch % 10 == 1:
        print(f'epoch {epoch}: w = {W.item():.3f}, loss = {MSE.item():.8f}')

print(f'\nPrediction after training: f(x) = {forward(x_train)}')
print(f'True values: y = {y_train}')

###  Преимущества и недостатки метода

В настоящее время метод обратного распространения ошибки фактически стал стандартом при обучении широкого спектра современных архитектур нейронных сетей. Этот метод даёт итерационное решение задачи поиска минимума функционала ошибки, последовательно подстраивая веса нейронной сети в ходе обучения. К сожалению, такой подход не гарантирует, что в ходе обучения нейронной сети мы действительно достигнем абсолютного (глобального) минимума функции потерь. Кроме того, в силу итерационной природы алгоритма, для обучения может потребоваться огромное количество циклов, что иногда приводит к необходимости проводить вычисления непрерывно в течение дней, недель или даже месяцев. Остановимся ещё на некоторых трудностях, которые могут сопровождать метод обратного распространения ошибки:  

* Остановка обучения в локальном минимуме функции потерь

    На функцию потерь нейронной сети можно смотреть как на определенную поверхность в пространстве высокой размерности (размерность пространства соответствует числу весов нейронной сети). Скажем, если бы у нейронной сети было всего два веса, то такая поверхность была бы похожа на земной рельеф.

    Поверхность функции потерь во всех возникающих на практике случаях достаточно сложна и содержит высокоразмерные аналоги холмов, впадин, долин и всевозможных их комбинаций. Применяя градиентный спуск, мы фактически движемся по такой поверхности в направлении самого "крутого" склона вниз, начиная своё движение из какой-то фиксированной точки поверхности. Может так оказаться, что мы начали своё движение по поверхности неподалёку от небольшой впадины (локального минимума функции потерь) и, "закатившись" в него, не сможем больше из него выбраться, даже если совсем неподалёку в пространстве весов сети будет присутствовать значительно более "глубокий" минимум — все пути из неглубокого локального минимума находятся в направлении противоположном тому, согласно которому мы движемся при методе градиентного спуска. Чтобы "выпрыгнуть" из такого нежелательного локального минимума, может потребоваться кратковременно увеличить скорость обучения (фактически размер шага). Проблема выбора алгоритма задания оптимального шага обучения во время градиентного спуска в общем случае не решена.

    Наглядные визуализации поверхностей функций потерь настоящих нейронных сетей можно найти на странице [проекта LossLandscape](https://losslandscape.com/). Интерактивный инструмент по визуализации градиентного спуска доступен по ссылке: [LossLandscape Explorer](https://losslandscape.com/explorer).

* Паралич сети

    Пусть мы обучаем многослойную нейронную сеть, в которой в качестве функции активации нейронов используются сигмоидальные функции (логистическая функция или гиперболический тангенс). Если мы допустим слишком сильное обновление весов у большого числа нейронов, чего можно легко добиться выбором слишком большой величины скорости (шага) обучения, то дальнейшее обучение сети фактически может остановиться. Дело в том, что в области больших по модулю значений аргумента сигмоидальной функции, она практически не изменяется, а значит, её производная слабо отличается от нуля. Так как обновление весов на следующем шаге градиентного спуска будет пропорционально значению производной функции активации, то оно также будет близко к нулю. Такой переход нейронов в "насыщение" может быть уже необратимым, и методу градиентного спуска потребуется неограниченно много времени для возвращения сети в исходное "рабочее" состояние.

##  Функции потерь (loss functions)

Предположим, у нас есть нейронная сеть с некоторыми весами. Прежде всего мы должны понять, насколько она точна, то есть насколько наши ожидания соответствуют результату работы нейронной сети. Мы подали на вход нейронной сети изображение, сигналы прошли через наши слои и функции активации вперёд **(forward propagation)**, и на выходе мы имеем некоторый ответ. Как его оценить? Насколько он точен?

Для оценки соответствия полученного результата ожидаемому, используют функцию потерь (loss function). Значение функции потерь даёт количественную оценку величины такого соответствия.

Функция потерь в нейронной сети принимает два аргумента:
* вектор значений, который мы считаем априорно верным;
* вектор значений конечных выходов модели, который должен соответствовать априорно верному.

Важно заметить, что для успешного обучения модели методом градиентного спуска мы должны потребовать от функции потерь дифференцируемости и ограниченности снизу.

[Документация по функциям потерь в PyTorch](https://pytorch.org/docs/stable/nn.html#loss-functions)

###  Mean squared error

Mean Squared Error (MSE) — это средняя квадратическая ошибка. Данная функция потерь очень популярная, поскольку она проста для понимания и реализации, и в целом работает довольно хорошо. Чтобы рассчитать MSE, нужно взять разницу между предсказаниями вашей модели и эталонными значениями, возвести в квадрат и затем усреднить по всему набору данных (в случае обучения по мини-батчам - по размеру батча).
Результат всегда положительный, независимо от знака предсказанных и истинных значений, и идеальное значение равно 0.0

$$MSE=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$$

[MSE Loss в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html#torch.nn.MSELoss):
```python
torch.nn.MSELoss()
```

In [None]:
criterion = nn.MSELoss()

input_values = torch.Tensor([0.5, -0.25, 0.75])
print(f'input_values: {input_values}')

target = torch.Tensor([1, 0.25, 0.25])
print(f'target: {target}')

loss_mse = criterion(input_values, target)
print(f'loss_mse: {loss_mse}')

* **Преимущество:** Использование MSE в качестве функции потерь даёт основания ожидать, что обученная с ней модель не имеет сильных "выбросов" в величине ошибки. Любой большой выброс в невязке $|\hat {Y_i} - Y_i| \ggg 0 $ при вычислении MSE был бы возведён в квадрат и дал бы вовсе огромный вклад в итоговое значение функции потерь.


* **Недостаток:** Как логично следует из описанного выше преимущества  MSE, данная функция потерь в первую очередь сильно штрафует модель за наличие выбросов в предсказаниях.  Для ряда практически важных задач, тем не менее, важнее оказывается наиболее высокая точность работы на абсолютном большинстве входных примеров, нежели отсутствие одиночных выбросов.

###  Mean Absolute Error 

Средняя абсолютная ошибка (MAE) — это величина, которая измеряет среднюю по всем образцам величину невязки $|\hat{Y_i} - Y_i|$. Несмотря на то, что определение этой функции потерь похоже на MSE (MSE Loss можно назвать $L_2$ ошибкой, а MAE в этом смысле можно назвать $L_1$ ошибкой), средняя абсолютная ошибка имеет существенно другие свойства. 

$$MAE=\frac{1}{n}\sum_{i=1}^n|\hat{Y_i} - Y_i|$$

[MAE Loss в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.L1Loss.html#torch.nn.L1Loss):
```python
torch.nn.L1Loss()
```

In [None]:
criterion = nn.L1Loss()

input_values = torch.Tensor([0.5, -0.25, 0.75])
print(f'input_values: {input_values}')

target = torch.Tensor([1, 0.25, 0.25])
print(f'target: {target}')

loss_mae = criterion(input_values, target)
print(f'loss_mae: {loss_mae}')

* **Преимущество:** Поскольку при вычислении MAE вычисляется абсолютное значение ошибки, данная метрика не придаёт такого большого значения "выбросам", как MSE — все ошибки учитываются равнозначно в единой линейной шкале.


* **Недостаток:**  Недостаток применения MAE в качестве функции потерь при обучении модели напрямую вытекает из преимуществ. Обученная с MAE модель может показывать хорошие (или даже отличные) результаты в большинстве случаев, но на отдельных примерах может допускать большую ошибку. Если специфика решаемой задачи не позволяет нам пренебречь такими одиночными большими выбросами, то следует воздержаться от применения данной функции потерь.

###  Cross-Entropy

Кросс-энтропия (перекрёстная энтропия) является одной из наиболее часто применимых в практике обучения нейронных сетей функцией потерь. С точки зрения теории информации, кросс-энтропия между двумя вероятностными распределениями $p$ и $q$ над одним и тем же вероятностным пространством определяет среднее количество информации (измеренное в количестве бит), необходимое для идентификации одиночного события из вероятностного пространства, если информация о таком событии записывается в виде оптимизированного под "оценочное" распределение $q$, по сравнению с использованием "истинного" распределения $p$.

Интуитивно кросс-энтропию можно понимать в качестве меры близости "оценочного" распределения $q$ к истинному распределению $p$. На практике элементами распределения $p$ является набор ground true значений из обучающей выборки, а элементы оценочного распределения $q$ являются выводами используемой нами модели.

Формально кросс-энтропию можно записать в виде:

$$ H(p,q) = -E_p[\log q]$$

Где:
* $E_p$ — оператор математического ожидания относительно распределения $p$

Однако чаще кросс-энтропию определяют с помощью энтропии и расстояния Кульбака-Лейблера:

$$H(p,q) = H(p) +D_{KL}(p||q)$$

В случае нейронных сетей, где вероятности представлены дискретными выходами, формула превращается в:


$$H(p,q)=-\sum_xp(x)\log q(x)$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/probabiliry_cross_entropy.png"  width="800">

Поскольку чаще всего кросс-энтропию используют после Softmax, то в готовых реализациях Softmax объединяют с кросс-энтропией:

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/softmax_with_cross_entropy.png"  width="700">

[Cross-Entropy Loss в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss):
```python
torch.nn.CrossEntropyLoss()
```

Обратите внимание, что Cross-Entropy Loss в PyTorch уже включает в себя Softmax, и принимает в качестве выхода модели логиты. Поэтому используя данную фукцию потерь, использовать использовать на последнем слое нейронной сети Softmax **не нужно**.

In [None]:
criterion = nn.CrossEntropyLoss()

input_values = torch.rand(3, 3)
print(f'input_values: {input_values}')

target = torch.empty(3, dtype=torch.long).random_(3)
print(f'target: {target}')

loss_ce = criterion(input_values, target)
print(f'loss_ce: {loss_ce}')

* **Преимущества:** Важное свойство кросс-энтропии — возможность работать с весами для классов. А значит и возможность применения этой функции потерь при работе с несбалансированным датасетом.
* **Недостатки:** Вычислительная сложность выше, чем у MSE или MAE.

###  Binary Cross-Entropy

В частном случае, когда количество классов равно двум и их можно закодировать одним числом: 0 — для первого класса, и 1 для второго, то формулу Cross-Entropy Loss можно адаптировать для этого случая:

$$H_p(q)=-\frac{1}{N}\sum_{i=1}^N y_i\cdot log(p(y_i))+(1-y_i)\cdot log(1-p(y_i))$$

[Binary Cross-Entropy Loss в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html#torch.nn.BCELoss):

```python
torch.nn.BCELoss()
```



Важной особенностью BCELoss является то, что она ждёт одно число выхода сети и одно число как верный результат. Тут используется не one-hot кодировка для двух классов, а **одно число 0 — первый класс, 1 — второй класс.**

In [None]:
criterion = nn.BCELoss()

input_values = torch.rand(1)
print(f'input_values: {input_values}')

target = torch.empty(1).random_(2)
print(f'target: {target}')

loss_bce = criterion(input_values, target)
print(f'loss_bce: {loss_bce}')

Если классы "абсолютно полностью" не совпали, то возникает ситуация взятия логарифма от 0, а он не определён и стремится к бесконечности, поэтому берётся "обрезанная бесконечность" равная 100.

Далее, если сэмплов несколько, то по умолчанию берётся среднее по семплам. См. аргумент `reduction`.

In [None]:
criterion = nn.BCELoss()

input_values = torch.ones((5))
print(f'input_values: {input_values}')

target = torch.zeros(5)
print(f'target: {target}')

loss_bce = criterion(input_values, target)
print(f'loss_bce: {loss_bce}')

###  Итоги

Кросс-энтропия предпочтительнее для задач *классификации*, так от модели требуется предсказание *вероятности класса* при известной априорной вероятности. Средняя квадратическая и средняя абсолютная ошибки предпочтительны для задач *регрессии*, когда от модели требуется предсказание произвольных вещественных чисел. 

И то, и другое можно рассматривать как оценки максимального правдоподобия, просто с различными предположениями о зависимой переменной.

Здесь были рассмотрены лишь наиболее общие и часто применимые функции потрерь для основополагающих задач машинного обучения: классификации и регрессии. Однако на практике могут возникать случаи, когда от исследователя или разработчика нейронной сети требуется сконструировать свою собственную функцию потерь под свою собственную задачу. В PyTorch, помимо рассмотренных, есть реализация и других функций потерь для других задач. Также свою "кастомную" функцию потерь можно написать самостоятельно.

[Обзор функций потерь в PyTorch с примером написания своей собственной функции (custom loss function)](https://neptune.ai/blog/pytorch-loss-functions).

##  Функции активации

Минимальным функциональным элементом нейронной сети является одиночный нейрон. В нейроне осуществляется две операции:
1. Вычисляется взвешенная и смещенная сумма его входов
$$ s=\sum_{i=1}^n w_i \cdot x_i+b=WX+b,$$
где $W$ обозначает вектор весов, $X$ обозначает вектор входных значений, а $b$ задаёт величину смещения.
1. К получившейся величине применяется некоторая нелинейная функция, называемая функцией активации
$$ y = f(s)$$


Взвешенная и смещенная сумма входов $s$ может принимать произвольное значение на вещественной прямой: $s \in \mathbb{R}$. Данное значение  передается в функцию активации, которая, как правило, обладает другим множеством возможных значений.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/neurons_output.png"  width="900">

Идея применения функций активации в структуре искусственных нейронных сетей обусловлена биологической аналогией. Известно, что в биологических нейронных сетях имеется аналог нелинейной функции активации: существует пороговый потенциал, только после достижения которого происходит возбуждение (активация) нейрона и, как следствие, распространение сигнала далее по нейронной сети. 


Именно таким простейшим образом ведёт себя пороговая функция активации, которая использовалась при построении первых искусственных нейронных сетей — перцептронов:


$f(x) =
\begin{cases}
0, &\text{$x<b$} \\ 
1, &\text{$x\geq b$}
\end{cases}
$


<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/threshold_function_plot.png"  width="300">


Построенная с пороговой функцией активации нейронная сеть обладает ключевым недостатком, не позволяющим фактически использовать данную функцию активации на практике. В силу того, что производная функции активации тривиальна почти всюду на числовой прямой: 

$f'(x) =
\begin{cases}
0, &\text{$x\neq b$} \\ 
?, &\text{$x= b$}
\end{cases}
$

не представляется возможным использовать метод градиентного спуска для оптимизации параметров нейронной сети.

###  Свойства функций активации

Функции активации должны обладать следующими свойствами:

* **Нелинейность:** функция активации необходима для введения нелинейности в нейронные сети. Если функция активации не применяется, выходной сигнал становится простой линейной функцией. Нейронная сеть без нелинейностей будет действовать как линейная модель с ограниченной способностью к обучению:
$$\hat{y}=NN(X,W_1,...,W_n)=X\cdot W_1\cdot ...\cdot W_n=X\cdot W$$ 
Только нелинейные функции активации позволяют нейронным сетям решать задачи аппроксимации нелинейных функций:
$$\hat{y}=NN(X,W_1,...,W_n)=\sigma(...\sigma(X\cdot W_1)...\cdot W_n)\neq X\cdot W$$

* **Дифференцируемость:** функции активации должны быть способными пропускать градиент, чтобы было возможно оптимизировать параметры сети градиентными методами, в частности использовать алгоритм обратного распространения ошибки.

###  Различные функции активации

Рассмотрим наиболее популярные функции активации и обсудим их преимущества и недостатки.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/popular_activation_functions.png"  width="700">

<center><p><em>Source: <a href="https://arxiv.org/pdf/1911.05187.pdf">AI in Pursuit of Happiness, Finding
Only Sadness: Multi-Modal Facial
Emotion Recognition Challenge</a></p> </em></center>

####  **Логистическая функция**

Логистическая (сигмоидальная) функция — используется в задачах бинарной классификации, в основном после выхода последнего нейрона. Позволяет определить вероятность принадлежности к одному из двух классов (0 или 1).

$$\sigma(x)=\frac{1}{1+e^{-x}}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/activation_function_sigmoid.png"  width="1000">

Примечательным свойством логистической функции является то, что ее производная выражается через саму функцию. Это значит, что зная значение функции в точке, вычислить значение производной в этой точке очень легко:

$$ \frac{d}{dx}\sigma(x) = \frac{d}{dx}(1+e^{-x})^{-1} = \frac{e^{-x}}{(1+e^{-x})^{2}} = \frac{1}{1+e^{-x}} \cdot \frac{1+e^{-x}-1}{1+e^{-x}} = \sigma(x)\cdot(1-\sigma(x))$$

В отличие от пороговой функции активации, где у нейрона было всего два состояния: "активирован" или "не активирован", с логистической функцией для нейрона возможны значения "активирован на 50%", "активирован на 20%" и так далее. Если активированы несколько нейронов, можно найти нейрон с наибольшим значением активации.

Так как существуют промежуточные значения на выходе нейрона, **процесс обучения проходит более гладко и быстро**, а вероятность появления нескольких полностью активированных нейронов во время тренировки снижается по сравнению с пороговой функцией активации (хотя это зависит от того, что вы обучаете и на каких данных).

[Сигмоидальная функция активации в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.Sigmoid.html):
```python
torch.nn.Sigmoid()
```

In [None]:
activation = nn.Sigmoid()
input_values = torch.randn(5) * 5
activation_sig = activation(input_values)
print(f'input_values: {input_values}\nactivation_sig: {activation_sig}')

Сигмоида выглядит гладкой и подобна пороговой функции.

**Достоинства:**

Во-первых, сигмоида нелинейна по своей природе, а комбинация таких функций производит тоже нелинейную функцию. Поэтому мы можем конструировать многослойные сети.

Еще одно достоинство такой функции — она гладкая, следовательно, улучшается гладкость градиента, в отличие от ступенчатой функции.


**Недостатки:**

Насыщение сигмоиды приводит к затуханию градиентов. Крайне нежелательное свойство сигмоиды заключается в том, что при насыщении функции с той или иной стороны (0 или 1), градиент на этих участках становится близок к нулю. Напомним, что в процессе обратного распространения ошибки данный (локальный) градиент умножается на общий градиент. Следовательно, если локальный градиент очень мал, он фактически обнуляет общий градиент. В результате, сигнал почти не будет проходить через нейрон к его весам. Кроме того, следует быть очень осторожным при инициализации весов сигмоидных нейронов, чтобы предотвратить насыщение. Например, если исходные веса имеют слишком большие значения, большинство нейронов перейдет в состояние насыщения, в результате чего сеть будет плохо обучаться.

Выход сигмоиды не центрирован относительно нуля. Это свойство является нежелательным, поскольку нейроны в последующих слоях будут получать значения, которые не центрированы относительно нуля, что оказывает влияние на динамику градиентного спуска. Если значения, поступающие в нейрон, всегда положительны (например, $x > 0$ поэлементно в $f = wx + b$), тогда в процессе обратного распространения ошибки все градиенты весов $w$ будут либо положительны, либо отрицательны (в зависимости от градиента всего выражения $f$). Это может привести к нежелательной зигзагообразной динамике обновлений весов. Однако следует отметить, что, когда эти градиенты суммируются по батчу, итоговое обновление весов может иметь различные знаки, что отчасти нивелирует описанный недостаток. Таким образом, отсутствие центрирования является неудобством, но имеет менее серьезные последствия по сравнению с проблемой насыщения.

####  **Гиперболический тангенс**

Гиперболический тангенс схож с логистической функцией. Он определяется следующей формулой:

$$tanh(x)=\frac{e^x - e^{-x}}{e^x+e^{-x}}$$

Также гиперболический тангенс может быть выражен через логистическую функцию:

$$tanh(x) = 2\cdot\sigma(2x)-1$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/activation_function_tanh.png"  width="1000">

Производная гиперболического тангенса также [выражается через саму функцию](https://socratic.org/questions/what-is-the-derivative-of-tanh-x):

$$ \frac{d}{dx}tanh(x)=1-tanh^2(x)$$


Гиперболический тангенс симметричен относительно нуля и может принимать как положительные, так и отрицательные значения. Данное свойство гиперболического тангенса оказывается важным, в частности, при построении рекуррентных нейронных сетей. При использовании в рекуррентных сетях, получаемые на выходе $\tanh (x)$ положительные или отрицательные значения могут не только увеличивать величину скрытого состояния в ячейках памяти, но и уменьшать их. Подробнее с устройством рекуррентных нейронных сетей мы познакомимся в последующих лекциях нашего курса.

**Достоинства**: В силу схожего определения, гиперболический тангенс обладает основными достоинствами описанной выше логистической функции. Кроме того, множество значений данной функции активации симметрично относительно нуля $[-1,1]$. Использование гиперболического тангенса в качестве функции активации хорошо подходит для последовательного соединения полносвязных слоёв нейронной сети.

**Недостатки**: Производная гиперболического тангенса по виду аналогична производной логистической функции, следовательно, при использовании гиперболического тангенса в качестве функции активации мы также можем столкнуться с проблемой затухания градиентов в области насыщения функции.



[Гиперболический тангенс в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.Tanh.html):
```python
torch.nn.Tanh()
```

In [None]:
activation = nn.Tanh()
input_values = torch.tensor([11.1529,  4.3029,  0.5081, -3.8456, -1.9058])
activation_tanh = activation(input_values)
print(f'input_values: {input_values}\nactivation_tanh: {activation_tanh}')

####  **ReLU**

Часто на практике применяется функция активации ReLU. Значение данной функции равно нулю для всех отрицательных входных значений и равно с входному значению, если оно неотрицательно. Название ReLU (Rectified Linear Unit), "выпрямитель", связана с электротехнической аналогией — график вольт-амерной характеристики идеального выпрямительного диода похож на график функции ReLU.


$$ReLU(x)=max(0,x)$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/activation_function_relu.png"  width="1000">

Производная ReLU:

$$\frac{d}{dx}ReLU(x) =
\begin{cases}
\frac{d}{dx}0, &\text{$x<0$} \\ 
\frac{d}{dx}x, &\text{$x\geq0$}
\end{cases}=
\begin{cases}
0, &\text{$x<0$} \\ 
1, &\text{$x\geq0$}
\end{cases}
$$

[ReLU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html):
```python
torch.nn.ReLU()
```

In [None]:
activation = nn.ReLU()
input_values = torch.randn(5)
activation_relu = activation(input_values)
print(f'input_values: {input_values}\nactivation_relu: {activation_relu}')

Рассмотрим положительные и отрицательные стороны ReLU.

**Достоинства:** 

Функция ReLU не требует проведения вычислений в вещественной арифметике, как того требуют логистическая функция или гиперболический тангенс. Кроме того, производная функции ReLU является кусочно-постоянной функцией и также может быть вычислена крайне эффективно. Это приводит к тому, что количество необходимых вычислительных ресурсов для обучения нейронной сети с использованием ReLU оказывается значительно ниже, нежели чем при использовании рассмотренных выше логистической функции или гиперболического тангенса. Необходимо также отметить, что использование ReLU не приводит к эффекту насыщения нейронов.


**Недостатки:**

Иногда при использовании ReLU в качестве функции активации мы можем столкнуться с нежелательным эффектом отключения ("умирания") отдельных нейронов. Механизм данного явления связан с возможностью получения на выходе функции активации нулевого значения при широком диапазоне входных сигналов — любая отрицательная линейная комбинация входных значений с весами нейрона будет преобразована ReLU в ноль. Если при текущем обновлении весов нейрона изменение может оказаться слишком большим (например, при выборе слишком высокой скорости обучения), новая конфигурация весов нейрона будет при любых входных значениях приводить к отрицательной линейной комбинации и, как следствие, тождественно равной нулю активации рассматриваемого нейрона. Такой нейрон также тождественно обратит в ноль и проходящий через него локальный градиент при обучении сети методом обратного распространения ошибки, что сделает практически невозможным возвращение нейрона в "рабочее" состояние. 

#### **Leaky ReLU**

Leaky ReLU (ReLU с «утечкой», название также обусловлено электротехнической аналогией) является простейшей модификацией описанной выше ReLU, призванной исправить проблему "умирания" отдельных нейронов. В отличие от ReLU, данная функция не равна константе $0$ при всех отрицательных входных значениях, а реализует в этой области линейную зависимость с небольшим угловым коэффициентом (например, с угловым коэффициентом $10^{-2}$). 

$$LeakyReLU(x)=max(0.01x,x)$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/activation_function_leaky_relu.png"  width="1000">

Производная Leaky ReLU:

$$\frac{d}{dx}LeakyReLU(x)=\frac{d}{dx}max(0.01x,x)=\begin{cases}
\frac{d}{dx}0.01x, &\text{$x<0$} \\ 
\frac{d}{dx}x, &\text{$x\geq0$}
\end{cases}=
\begin{cases}
0.01, &\text{$x<0$} \\ 
1, &\text{$x\geq0$}
\end{cases}$$

[Leaky ReLU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.LeakyReLU.html):
```python
torch.nn.LeakyReLU()
```

In [None]:
activation = nn.LeakyReLU(0.01)
input_values = torch.randn(5)
activation_lrelu = activation(input_values)
print(f'input_values: {input_values}\nactivation_lrelu: {activation_lrelu}')

**Достоинства**: Сохраняет достоинства ReLU, при этом не страдает от проблемы "умирания" 

**Недостатки**: Некоторые исследователи сообщают об успешном применении данной функции активации, но результаты не всегда стабильны.

####  **GELU (Gaussian Error Linear Unit)**

Функция активации, используемая в трансформерах: Google BERT и OpenAI GPT-2.

$$GELU(x)=xP(X\leq x)=x\Phi(x)=x\cdot \frac{1}{2}[1+erf(\frac{x}{\sqrt{2}})]$$

$$erf(x)=\frac{2}{\sqrt{\pi}}\int_0^xe^{-t^2}dt$$


На практике GELU может быть приблизительно вычислена так:
$$GELU(x)\approx 0.5x(1+tanh[\sqrt{2/\pi}(x+0.044715x^3)])$$ 

или 

$$GELU(x) \approx x\cdot \sigma(1.702x)$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/activation_function_gelu.png"  width="1000">

**Достоинства**: State-of-the-art функция активации в задачах NLP

In [None]:
activation = nn.GELU()
input_values = torch.randn(5) * 5
activation_gelu = activation(input_values)
print(f'input_values: {input_values}\nactivation_gelu: {activation_gelu}')

[GELU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.GELU.html):
```python
torch.nn.GELU()
```

### Визуализация функций активации:




<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/animated_activation_functions.gif"  width="600">

[How Activation Functions Work in Deep Learning](https://www.kdnuggets.com/2022/06/activation-functions-work-deep-learning.html)

# Углубление в PyTorch

## Dataset и DataLoader
Код для предварительной обработки данных может быть запутанным и его может быть сложно поддерживать. В идеале, мы бы хотели, чтобы код, относящийся к набору данных, был отделен от кода для обучения модели для его лучшей читаемости и понимаемости. 

PyTorch предоставляет два базовых класса для работы с данными: `torch.utils.data.DataLoader` и `torch.utils.data.Dataset`, которые позволяют работать как со встроенными наборами данных, так и с вашими собственными данными. 

`Dataset` хранит в себе объекты (samles, сэмплы) — например, изображения, и соответсвующие им метки (labels). 

`DataLoader` представляет из себя итерируемый объект — обертку над `Dataset`-ом, и позволяет получить простой доступ к объектам из набора данных.


Библиотеки из семейства PyTorch предоставляют ряд предзагруженных наборов данных (например, таких как MNIST), которые релизованы как дочерние классы от `torch.utils.data.Dataset` и несут в себе функции, специфичные для конкретных данных. Они могут быть использованы как бенчмарк для отладки и оценки вашей модели. Вы можете найти их здесь: [Image Datasets](https://pytorch.org/vision/stable/datasets.html), [Text Datasets](https://pytorch.org/text/stable/datasets.html), and [Audio Datasets](https://pytorch.org/audio/stable/datasets.html).

### Загрузка набора данных
Рассмотрим пример того, как загрузить набор данных MNIST, которые содержится в `torchvision`. MNIST содержит 60&nbsp;000 изображений для обучения и 10&nbsp;000 изображений для теста, размеченных на 10 классов — по числу цифр. Каждый пример представляет собой изображение размером 28×28 пикселей в оттенках серого. Каждое изображение имеет метку класса — то, какая цифра на нем изображена.

Загрузим MNIST со следующими параметрами:
* `root` — это путь, куда будут скачаны данные,
* `train` определяет, скачивать обучающую или тестовую часть набора данных,
* `download=True` позволяет скачать данные из интернета, если их нет в пути `root`,
*  `transform` определяет преобразования, которые нужно сделать с данными.

In [None]:
import torch
from torch.utils.data import Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt

train_data = datasets.MNIST(root="./MNIST", train=True, download=True, transform=ToTensor())

test_data = datasets.MNIST(root="./MNIST", train=False, download=True, transform=ToTensor())

### Итерирование по `Dataset` и визуализация данных

Можно индексировать `Dataset` вручную, как список или массив: `train_data[index]`. При таком обращении мы получим кортеж `(sample, label)`. Воспользуемся matplotlib, чтобы отобразить первые 10 изображений из обучающего множества.

In [None]:
num_imgs_to_visualize = 10

figure = plt.figure(figsize=(20, 20))

for i in range(num_imgs_to_visualize):
    # here we indexing the Dataset-object "as is" and get a tuple (img, label)
    img, label = train_data[i] 
    
    figure.add_subplot(1, num_imgs_to_visualize, i+1)
    plt.imshow(img.squeeze(), cmap="gray")
    plt.title(label)
    plt.axis("off")
plt.show()

### Подготовка данных к обучению с помощью DataLoader

`Dataset` возвращает по одной паре "пример — метка" за раз. При обучении моделей мы обычно хотим передавать обекты в виде мини-батчей, перемешивая данные на каждой эпохе для уменьшения переобучения.

`DataLoader` — это итерируемый объект, который позволяет нам получать такие мини-батчи.


In [None]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(train_data, batch_size=8, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=8, shuffle=False)

### Итерирование по `DataLoader`

Мы загрузили датасет в `DataLader` и теперь можем проходиться по нему по мере необходимости. Каждая итерация ниже будет возвращать мини-батч в виде кортежа тензоров `(samples, labels)`, содержащих `batch_size=8` объектов и меток соответственно.
Так как мы установили для `train_dataloader` параметр `shuffle=True`, когда мы пройдемся по всем батчам, данные перемешаются.

In [None]:
# get next batch
imgs, labels = next(iter(train_dataloader))

print(f"Images batch shape: {imgs.size()}")
print(f"Labels batch shape: {labels.size()}")

print("The first sample in the batch:")
img = imgs[0].squeeze()
label = labels[0].item()

plt.imshow(img, cmap="gray")
plt.title(label)
plt.axis("off")
plt.show()

#  Пример простой сети на датасете MNIST

Загрузим датасет:

In [None]:
import torch
import torchvision
from torch.utils.data import DataLoader
from torchvision.datasets import MNIST
from IPython.display import clear_output

transform = torchvision.transforms.Compose(
    [torchvision.transforms.ToTensor(),
     torchvision.transforms.Normalize((0.5), (0.5))])

train_set = MNIST(root='./MNIST', train=True, download=True, transform=transform)
test_set = MNIST(root='./MNIST', train=False, download=True, transform=transform)

batch_size = 64
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True, num_workers=2)
test_loader = DataLoader(test_set, batch_size=batch_size, shuffle=False, num_workers=2)

clear_output()

Набор данных MNIST (англ. Modified National Institute of Standards and Technology) представляет собой модельный набор данных с изображениями рукописных цифр, который часто используется для обучения и оценки качества работы ML моделей классификации изображений.

Датасет состоит из $60\ 000$ тренировочных и $10\ 000$ тестовых изображений. Все изображения имеют одинаковый квадратный размер $28 \times 28$ пикселей и единственный цветовой канал. Рукописные изображения цифр имеют равный размер и располагаются в центре кадра. Кроме того, все изображения имеют одинаковую яркость. Всего датасет содержит 10 классов изображений: цифры от $0$ до $9$.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x_train = train_set.data.numpy() # images
y_train = train_set.targets.numpy() # labels
labels_names = list(map(str, range(10)))
plt.figure(figsize = (20.0, 20.0))  
for i in range(10):  # for all classes (0 to 9)
  label_indexes = np.where(y_train == i)[0] # get indexes for each class 
  index = np.random.choice(label_indexes)
  img = x_train[index]

  plt.subplot(1, 10, i + 1)  
  plt.title(labels_names[i])  
  plt.axis("off")  
  plt.imshow(img,cmap='gray')  

В PyTorch для создания нейронных сетей требуется отнаследоваться от класса `nn.Module` и переопределить метод `forward`, в который подаются входные данные, и который возвращает выход сети.

[PyTorch документация по nn.Module](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module)

В класс мы добавляем две переменные, два слоя Linear. Linear — это слой, позволяющий, умножить веса на входной вектор и добавить смещение. Первый параметр — размер входного вектора, второй — размер выходного.

В методе `forward` мы указываем последовательность применения операций для получения результата. Сначала изменим представление входного вектора, чтобы от изменения `batch_size` у нас ничего не сломалось.

Далее идёт первый слой, после него функция активации ReLU и второй слой, возвращающий вектор длиной 10, содержащий логиты, означающие принадлежность к одному из классов.

In [None]:
import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(28*28, 128) 
        self.fc2 = nn.Linear(128, 10)
        self.activation = nn.ReLU()

    def forward(self, x): # Called inside __call__ method
        x = x.view(-1, 28*28) # "reshape" image to vector
        x = self.fc1(x)
        x = self.activation(x)
        x = self.fc2(x)
        return x

Наследование от `nn.Module` позволяет обращаться к параметрам сети через `model.parameters()`, а так же упростить много других вещей. **Это критически удобно для обучения сетей**

Второй вариант последовательного выполнения слоёв сети — [`nn.Sequential`](https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html) — объединение слоёв, выход одного слоя передается на вход в следующий.

In [None]:
class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.layers = nn.Sequential(
                                     nn.Linear(28*28, 128),
                                     nn.ReLU(),
                                     nn.Linear(128, 10)
                                    )
    def forward(self, x):
        x = x.view(-1, 28*28)
        x = self.layers(x)
        return x

In [None]:
model = Net()

В качестве функции потерь воспользуемся кросс-энтропией:

In [None]:
criterion = nn.CrossEntropyLoss()

Определим оптимизатор для нашей сети. Оптимизатор, в библиотеках для нейронных сетей — это сущность, осуществляющая градиентный спуск. Подробнее об оптимизаторах будет рассказано в дальнейших лекциях, а сейчас воспользуемся базовым стохастическим градиентным спуском (Stochastic gradient descent, SGD).

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=0.001)

Обучим сеть десять эпох:

In [None]:
from tqdm.notebook import trange

num_epochs = 10
loss_hist = [] # for plotting
epochs = trange(num_epochs)
for epoch in epochs:
    hist_loss = 0
    for _, batch in enumerate(train_loader, 0): # get batch
        # parse batch 
        imgs, labels = batch
        # sets the gradients of all optimized tensors to zero.
        optimizer.zero_grad()
        # get outputs
        pred = model(imgs)
        # calculate loss
        loss = criterion(pred, labels)
        # calculate gradients
        loss.backward()
        # performs a single optimization step (parameter update)
        optimizer.step()
        hist_loss += loss.item()
    loss_hist.append(hist_loss / len(train_loader))
    epochs.set_description(f"Epoch={epoch}  loss={loss_hist[epoch]:.4}")

In [None]:
plt.figure(figsize = (10, 5))
plt.plot(range(num_epochs), loss_hist)
plt.xlabel("Epochs", fontsize=15)
plt.ylabel("Loss", fontsize=15)
plt.show()

Давайте посчитаем accuracy.

Помните, что accuracy является частным случаем метрики качества, поэтому она не реализована в PyTorch и с ней нужно быть аккуратней. Функция ниже подходит только для задачи классификации при one-hot энкодинге, когда классов минимум 2.

In [None]:
def calculate_accuracy(model, data_loader):
    correct, total = 0, 0 
    with torch.no_grad(): 
        for batch in data_loader: # get batch
            imgs, labels = batch # parse batch
            pred = model(imgs) # get output
            _, predicted = torch.max(pred.data, 1) # get predicted class
            total += labels.size(0) # all examples
            correct += (predicted == labels).sum().item() # correct predictions 
    return correct / total 

In [None]:
acc_train = round(calculate_accuracy(model, train_loader), 3)
print(f"Accuracy train = {acc_train}")

acc_test = calculate_accuracy(model, test_loader)
print(f"Accuracy test = {acc_test}")

Поэтапно пропустим тестовые изображения через модель и визуализируем результат

In [None]:
# get batch
imgs, labels = next(iter(test_loader))
print('imgs shape: ', imgs.shape)

In [None]:
# get output
pred = model(imgs)
print('pred shape: ', pred.shape)

In [None]:
# First sample in prediction batch
pred[0]

In [None]:
# Calculate probabilities
nn.Softmax(dim=0)(pred[0].detach())

In [None]:
# remove axis
imgs = torch.reshape(imgs, (64, 28, 28))
print('imgs shape(after reshape): ', imgs.shape)

In [None]:
# take 10 first images
imgs = imgs[:10]
print('imgs shape: ', imgs.shape)

In [None]:
pred = pred[:10].detach()
print('Prediction(1 sample):\n', pred[0])
digits = np.argmax(pred.numpy(), axis=1)
print('Predicted class: ', digits[0])

Визуализируем изображения, подпишем предсказанное и истинное значение:

In [None]:
plt.figure(figsize = (25.0, 25.0))
for i in range(10):
  img = imgs[i]

  plt.subplot(1, 10, i + 1)
  plt.title('pred: ' + str(digits[i]) + ' real: '+str(labels[i].numpy())) # predicted and real values
  plt.axis("off")
  plt.imshow(img.numpy(),cmap='gray') 


 <font size="6">Ссылки:</font>

[StatSoft. Радиальная базисная функция](http://statsoft.ru/home/textbook/modules/stneunet.html#radial)

[Важность функции потери в машинном обучении](https://towardsdatascience.com/importance-of-loss-function-in-machine-learning-eddaaec69519#:~:text=At%20its%20core%2C%20a%20loss,to%20minimize%20the%20loss%20function.)

[Understanding Categorical Cross-Entropy Loss, Binary Cross-Entropy Loss, Softmax Loss, Logistic Loss, Focal Loss and all those confusing names](https://gombru.github.io/2018/05/23/cross_entropy_loss/)

[Функции активации нейросети: сигмоида, линейная, ступенчатая, ReLU, tahn](https://neurohive.io/ru/osnovy-data-science/activation-functions/)

[Объясненные современные функции активации: GELU, SELU, ELU, ReLU и другие](https://www.kdnuggets.com/2022/06/activation-functions-work-deep-learning.html)