diff --git a/lab4/4_kohonen.ipynb b/lab4/4_kohonen.ipynb new file mode 100644 index 0000000..1b7b331 --- /dev/null +++ b/lab4/4_kohonen.ipynb @@ -0,0 +1,621 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### ЛАБОРАТОРНАЯ РАБОТА №4\n", + "## Сеть Кохонена" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "> Цель работы: знакомство с применением многослойного персептрона для решения задач сжатия данных, прогнозирования временных рядов и распознавания образов.\n", + ">\n", + "> Задание\n", + "> 1. Изучить разделы справки связанные с обучением сети Кохонена. Загрузить набор данных, содержащий измерения длины и ширины чашелистика и лепестка 150 экземпляров ириса (ирисы Фишера). Создать сеть Кохонена и выполнить с помощью неё кластеризацию сортов ириса. Проанализировать полученные результаты. Выполнить визуализацию исходных данных.\n", + "> 2. Построить и обучить сеть Кохонена для кластеризации данных скрытого слоя автоассоциативной сети из п.1. лабораторной работы №3. Проанализировать результаты и сравнить их с результатами классификации многослойным персептроном, полученными в лабораторной работе №2.." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Импорт библиотек:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "5pnjRdYLSLXZ" + }, + "outputs": [], + "source": [ + "import numpy as np\n", + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "from IPython.display import clear_output\n", + "from mpl_toolkits.mplot3d import Axes3D\n", + "from sklearn.datasets import load_iris\n", + "\n", + "%matplotlib inline" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Содержание: \n", + "[1. Ирисы Фишера](#p_1) \n", + "[2. Данные скрытого слоя](#p_2)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 1. Ирисы Фишера" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Сеть Кохонена (или самоорганизующаяся карта) — это тип нейронных сетей без учителя (unsupervised learning), разработанный финским учёным Теуво Кохоненом. \n", + "\n", + "Основная цель таких сетей — визуализация и кластеризация многомерных данных путём их проецирования на пространство меньшей размерности (чаще всего двумерное).\n", + "\n", + "Ключевые особенности:\n", + " - Без учителя: не требует размеченных данных для обучения.\n", + " - Топологическое упорядочивание: сохраняет пространственные отношения между точками данных — близкие входные векторы активируют соседние нейроны на карте.\n", + " - Конкурентное обучение: в каждый момент времени «побеждает» только один нейрон (ближайший к входному вектору).\n", + "\n", + "Обучение сети Кохонена происходит итеративно, по одному примеру за раз.\n", + " - Шаг 1. Инициализация. \n", + "Веса всех нейронов инициализируются случайными значениями (обычно из того же распределения, что и входные данные).\n", + " - Шаг 2. Выбор входного вектора. \n", + "Из набора данных случайным образом выбирается один образец $x$ (пусть количество признаков равно $m$).\n", + " - Шаг 3. Определение «нейрона‑победителя». \n", + "Находится нейрон, вектор весов которого наиболее близок к входному вектору. Мера близости — обычно евклидово расстояние:\n", + "\n", + "$$\n", + "d(x, w_i) = \\sqrt{\\sum_{j=1}^{m} (x_j - w_{ij})^2}\n", + "$$\n", + "\n", + " - Шаг 4. Обновление весов. \n", + "Вектор весов нейрона‑победителя (и, опционально, его соседей) подтягивается ближе к входному вектору:\n", + "\n", + "$$\n", + "w_i(t+1) = w_i(t) + \\eta(t) \\cdot (x(t) - w_i(t))\n", + "$$\n", + "\n", + "где $w_i$ — вектор весов $i$-го нейрона (кластера); $\\eta(t)$ — скорость обучения (learning rate) в момент времени $t$, которая определяет, насколько сильно будут скорректированы веса; $x(t)$ — текущий входной вектор.\n", + "\n", + " - Шаг 5. Уменьшение скорости обучения. \n", + "На этом этапе скорость обучения $\\eta$ постепенно уменьшается с каждой эпохой. Это необходимо для стабилизации карты в конце обучения: на ранних этапах допускаются большие корректировки весов (чтобы быстро приблизиться к оптимальной конфигурации), а на поздних — только мелкие уточнения. Обновление скорости обучения происходит по следующему правилу:\n", + "\n", + "$$\n", + "\\eta(t+1) = \\eta(t) \\times \\text{decay}\n", + "$$\n", + "\n", + "где $\\text{decay}$ — коэффициент затухания (гиперпараметр, обычно близкий к $1$, например $0{,}99$ или $0{,}95$).\n", + "\n", + " - Шаг 6. Повторение. \n", + "Шаги 2–5 повторяются заданное число эпох или до сходимости (т.е. пока значения весов нейронов в карте практически не перестанут меняться от эпохи к эпохе — структура карты, таким образом, уже сформирована и отражает топологию входных данных).\n", + "\n", + "Преимущества сетей Кохонена:\n", + " - простота реализации и интерпретации;\n", + " - наглядная визуализация сложных данных;\n", + " - устойчивость к шуму в данных;\n", + " - сохранение топологических свойств исходного пространства.\n", + "\n", + "Недостатки:\n", + " - чувствительность к инициализации весов;\n", + " - необходимость ручного подбора числа кластеров;\n", + " - относительно медленное обучение на больших наборах данных.\n", + " - результат может зависеть от порядка предъявления данных (поэтому их необходимо перемешивать).\n", + "\n", + "Описанная выше сеть Кохонена реализована в классе `KohonenClustering`:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "JJtHNld8SOWL" + }, + "outputs": [], + "source": [ + "class KohonenClustering:\n", + " def __init__(self, n_clusters, lr=0.1, decay=0.99):\n", + " self.n_clusters = n_clusters\n", + " self.lr = lr\n", + " self.decay = decay\n", + " self.cluster_weights = None\n", + "\n", + " def winner(self, x):\n", + " \n", + " # Вычисляем евклидово расстояние от входного вектора до каждого кластера\n", + " distances = np.zeros((x.shape[0], self.n_clusters))\n", + " for i, cluster_weight in enumerate(self.cluster_weights):\n", + " distances[:, i] = np.sqrt(np.sum((x - cluster_weight) ** 2, axis=1))\n", + " \n", + " # Находим индексы нейронов с минимальным расстоянием (победителей)\n", + " winner_idx = np.argmin(distances, axis=1)\n", + " return winner_idx\n", + "\n", + " def fit(self, data, epochs=100):\n", + "\n", + " self.cluster_weights = np.random.randn(self.n_clusters, data.shape[1]).astype(np.float32)\n", + " \n", + " lr_history = []\n", + " for epoch in range(epochs):\n", + "\n", + " # Перемешиваем индексы данных для случайного выбора векторов\n", + " indices = np.random.permutation(data.shape[0])\n", + " \n", + " # Проходим по всем векторам в случайном порядке\n", + " for i in indices:\n", + " # Извлекаем один вектор\n", + " x = data[i:i+1]\n", + " \n", + " # Определяем нейрон‑победитель для текущего входного вектора\n", + " winner_idx = self.winner(x)\n", + " \n", + " # Обновляем веса победившего нейрона: подтягиваем их ближе к входному вектору\n", + " for i, idx in enumerate(winner_idx):\n", + " self.cluster_weights[idx] += self.lr * (x[i] - self.cluster_weights[idx])\n", + "\n", + " lr_history.append(self.lr)\n", + "\n", + " # Постепенно уменьшаем скорость обучения для стабилизации карты\n", + " self.lr *= self.decay\n", + "\n", + " if (epoch + 1) % 5 == 0:\n", + "\n", + " clear_output(True)\n", + " plt.plot(range(1, epoch+2), lr_history, label='Learning Rate')\n", + " plt.title(f'Epoch: {epoch + 1}, Learning Rate: {lr_history[-1]:.6f}')\n", + " plt.grid(True, alpha=0.3)\n", + " plt.legend(loc='best')\n", + " plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Загрузим данные ирисов для их анализа с помощью сети Кохонена:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "N7kdsjBEWy3P" + }, + "outputs": [], + "source": [ + "iris_data = load_iris()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Значения четырёх входных признаков:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "1qmf6ZAxWy8A", + "outputId": "b7eaeee4-39ea-4204-e6e7-f9b47a10f73f", + "scrolled": false + }, + "outputs": [], + "source": [ + "X_iris_data = iris_data['data']\n", + "print(X_iris_data[:5])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Названия признаков — длина и ширина чашелистика, длина и ширина лепестка:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "UDNslebrcXfK", + "outputId": "9ece4206-94c9-436d-c6a2-d6bbf2495fa0" + }, + "outputs": [], + "source": [ + "iris_data['feature_names']" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Значения выходного признака — метки классов (три сорта ирисов):" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "IF6_sIBtXjNI", + "outputId": "c59b99c6-3c1d-4576-d88c-6b7c870a9428" + }, + "outputs": [], + "source": [ + "y_iris_data = iris_data['target']\n", + "print(y_iris_data)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Названия сортов ирисов:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "IWZwrWKaX2R8", + "outputId": "59e3f58e-71a1-40e2-9410-8871c5b0b695" + }, + "outputs": [], + "source": [ + "iris_names = iris_data['target_names']\n", + "print(iris_names)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Поскольку при обучении сети Кохонена вычисляются евклидовы расстояния между входными данными и весами нейронов, входные данные рекомендуются отнормировать или отстандартизировать:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "X_means = X_iris_data.mean(axis=0)\n", + "X_stds = X_iris_data.std(axis=0, ddof=1)\n", + "\n", + "X_iris_data_scaled = # Ваш код здесь" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Обучите модель `kohonen_iris` на нормированных (или стандартизированных) данных.\n", + "\n", + "Для этого подберите количество кластеров `n_clusters`, скорость обучения `lr`, шаг снижения скорости обучения `decay`. При неоходимости измените количество эпох `epochs`." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "kohonen_iris = KohonenClustering(\n", + " n_clusters= # Ваш код здесь\n", + " lr= # Ваш код здесь\n", + " decay= # Ваш код здесь\n", + ")\n", + "\n", + "kohonen_iris.fit(X_iris_data_scaled, epochs=100)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Получим метки кластеров — сопоставьте их с исходными метками классов:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "4gVxatZFYVCm", + "outputId": "bfa24efd-eb30-4036-c01d-5e09aa8b931e" + }, + "outputs": [], + "source": [ + "clusters_iris = kohonen_iris.winner(X_iris_data_scaled)\n", + "print(clusters_iris)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Построим диаграмму рассеяния, например, для пары признаков — длины и ширины лепестка. Точки разметим по трём сортам ирисов:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 450 + }, + "id": "B8vgAwpQd4Zh", + "outputId": "ebf196cd-ea4e-4367-a88b-cbc22bb9a7c5" + }, + "outputs": [], + "source": [ + "scatter = plt.scatter(X_iris_data[:, 2], X_iris_data[:, 3], c=y_iris_data)\n", + "plt.xlabel('petal length (cm)')\n", + "plt.ylabel('petal width (cm)')\n", + "plt.grid(True, alpha=0.3)\n", + "\n", + "# Код для легенды\n", + "handles, _ = scatter.legend_elements(prop='colors')\n", + "plt.legend(handles, iris_names, loc='best', title='Classes')\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Построим такую же диаграмму, олнако точки в ней будут размечены по меткам кластеров: " + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 450 + }, + "id": "hWedmXtmeKXH", + "outputId": "0c8b239e-b140-4cdc-d80f-238bc3038304" + }, + "outputs": [], + "source": [ + "scatter = plt.scatter(X_iris_data[:, 2], X_iris_data[:, 3], c=clusters_iris)\n", + "plt.xlabel('petal length (cm)')\n", + "plt.ylabel('petal width (cm)')\n", + "plt.grid(True, alpha=0.3)\n", + "\n", + "# Код для легенды\n", + "handles, labels = scatter.legend_elements(prop='colors')\n", + "plt.legend(handles, labels, loc='best', title='Clusters')\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "6Wlm1xrBYzuf" + }, + "source": [ + "Поэкспериментируйте с количеством кластеров `n_clusters`. Проанализируйте варианты, когда:\n", + " - количество кластеров совпадает с количеством сортов ирисов;\n", + " - кластеров меньше сортов ирисов;\n", + " - кластеров больше сортов ирисов." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 2. Данные скрытого слоя" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Загрузим из файла `encoded_2d.npy` двумерные данные с выхода энкодера автоассоциативной сети из третьей лабораторной работы:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "B0OS99x8Dz9v", + "outputId": "9b21ab60-5422-421f-e83b-64e378763bd7" + }, + "outputs": [], + "source": [ + "encoded_2d = np.load('encoded_2d.npy')\n", + "print(encoded_2d[:5])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Обучите модель `kohonen_2d` на этих данных. Количество кластеров пусть совпадает с количеством сортов минеральной воды (т.е. 5)." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "3TXtr9d6SZ9a" + }, + "outputs": [], + "source": [ + "kohonen_2d = KohonenClustering(\n", + " # Ваш код здесь\n", + ")\n", + "\n", + "kohonen_2d.fit(encoded_2d, epochs=100)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "LOv1vQ1kWKKf" + }, + "source": [ + "Получим метки кластеров:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "zm3DoRAEStuR" + }, + "outputs": [], + "source": [ + "clusters_2d = kohonen_2d.winner(encoded_2d)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "arnxu4zcSzyk" + }, + "source": [ + "Построим двухмерную диаграмму рассеяния:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 430 + }, + "id": "KkToPCInQQ1J", + "outputId": "418558e8-8c2a-4521-9ef1-6b25b971cff0" + }, + "outputs": [], + "source": [ + "scatter = plt.scatter(x=encoded_2d[:, 0], y=encoded_2d[:, 1], c=clusters_2d, cmap='viridis')\n", + "plt.grid(True, alpha=0.3)\n", + "\n", + "# Код для легенды\n", + "handles, labels = scatter.legend_elements(prop='colors')\n", + "plt.legend(handles, labels, loc='best', title='Clusters')\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Сравните диаграмму с соответствующим результатом из третьей лабораторной работы. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Загрузите данные из остальных файлов (`encoded_3d.npy`, `encoded_2d_include.npy`, `encoded_3d_include.npy`) и также обучите на них по отдельному экземпляру сети Кохонена. Получите метки кластеров и постройте для каждого набора диаграммы рассеяния. Сравните их с соответствующими диаграммами из третьей лабораторной работы." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "QwJagpWTWMIb" + }, + "outputs": [], + "source": [ + "# Ваш код здесь" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# Ваш код здесь" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Литература:\n", + "1. Бородкин А.А., Елисеев В.Л. Основы и применение искусственных нейронных сетей. Сборник лабораторных работ: методическое пособие. – М.: Издательский дом МЭИ, 2017.\n", + "2. MachineLearning.ru — профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных: http://www.machinelearning.ru\n", + "3. Modern State of Artificial Intelligence — Online Masters program at MIPT: https://girafe.ai/" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "w2UD2JKOWyrb" + }, + "source": [ + " " + ] + } + ], + "metadata": { + "colab": { + "provenance": [] + }, + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.7.3" + } + }, + "nbformat": 4, + "nbformat_minor": 1 +}