diff --git a/README.md b/README.md index 52f7b3c..1057df7 100644 --- a/README.md +++ b/README.md @@ -57,3 +57,12 @@ +### Лабораторная работа №4 + +| Группа | Дата | +|:--------|:----------:| +| А-01-20 | 09.04.2024 | +| А-03-20 | 16.04.2024 | + +* [Задание](labs/OATD_LR4.ipynb) + diff --git a/labs/OATD_LR4.ipynb b/labs/OATD_LR4.ipynb new file mode 100644 index 0000000..8c2c85e --- /dev/null +++ b/labs/OATD_LR4.ipynb @@ -0,0 +1,2423 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "id": "vOpSJBZfFKuo" + }, + "source": [ + "![](https://camo.githubusercontent.com/518a06d7ca808cd4ad8d5b6deb4ef15983d4649737618153432479f977935bba/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f79616e646578646174617363686f6f6c2f6e6c705f636f757273652f6d61737465722f7265736f75726365732f657870616e64696e675f6d696e645f6c6d5f6b6e5f332e706e67)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "ha8cW_h-FIND" + }, + "source": [ + "reference:\n", + "\n", + " - [nlp for you](https://lena-voita.github.io/nlp_course/language_modeling.html)\n", + "\n", + " - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course/tree/2023/week03_lm)" + ] + }, + { + "cell_type": "markdown", + "source": [ + "# Лабораторная работа №4. Использование нейронных сетей для генерации текста\n", + "В ходе работы мы будем обучать нейронные сети генерировать тексты, похожие на стихи поэтов.\n", + "\n", + "## Цель работы\n", + "Получить практические навыки решения задачи генерации текста.\n", + "\n", + "## Указания\n", + "1. Для работы рекомендуется использовать Google Colab и среду с GPU для ускорения расчетов. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\".\n", + "\n", + "2. Выполнять работу следует последовательно запуская ячейки, анализируя код и приведенные комментарии и разъяснения.\n", + "\n", + "3. В ходе работы будут встречаться вопросы, на которые нужно ответить, создав после него новую ячейку. Вопросы отмечены заголовками 3-го уровня.\n", + "Для ответа досточно 1-2 предложений. Но будьте готовы более подробно его пояснить при устной беседе.\n", + "\n", + "4. Обращайте внимание на комментарии `` - здесь вам нужно будет вставить значения параметров либо исходя из анализа кода\\выборки (где указано), либо попробовать разные варианты. Парамеры, приведенные тут по умолчанию, не обязательно правильные.\n", + "\n", + "## Варианты заданий\n", + "\n", + "Четные номера по журналу - Пушкин, нечетные - Маяковский.\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n" + ], + "metadata": { + "id": "H2QPNriQIvTw" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "96PukQZbFNwL" + }, + "source": [ + "# Загрузка библиотек" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "id": "nyb7MBAsFNhh" + }, + "outputs": [], + "source": [ + "import copy\n", + "import torch\n", + "import numpy as np\n", + "import torch.nn as nn\n", + "import torch.nn.functional as F\n", + "import matplotlib.pyplot as plt\n", + "\n", + "\n", + "from random import sample\n", + "from IPython.display import clear_output\n", + "from torch.utils.data import DataLoader, TensorDataset" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "eyO1tDFiGwFu" + }, + "source": [ + "При использовании Google Colab следует выбрать среду выполнения с аппаратным ускорителем GPU, что существенно ускорит расчеты. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\". При этом, следующая ячейка, проверяющая доступность CUDA (платформы, использующей графические ускорители), должна возвращать `True`" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "XtIrqKT4GSXf", + "outputId": "376ab52b-e0d9-4c48-a01a-0c1191d9fa5f" + }, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "True" + ] + }, + "metadata": {}, + "execution_count": 2 + } + ], + "source": [ + "torch.cuda.is_available()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "vXAr_sdxFSKm" + }, + "source": [ + "# Загрузим данные\n", + "\n", + "В соответствии с вариантом" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Krp456VbE7yP", + "outputId": "bd470eb1-d3e8-4059-a5cb-f24831c3d9dd" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "--2024-04-05 17:50:23-- http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", + "Resolving uit.mpei.ru (uit.mpei.ru)... 193.233.68.149\n", + "Connecting to uit.mpei.ru (uit.mpei.ru)|193.233.68.149|:80... connected.\n", + "HTTP request sent, awaiting response... 200 OK\n", + "Length: 1048627 (1.0M) [text/plain]\n", + "Saving to: ‘poems.txt’\n", + "\n", + "poems.txt 100%[===================>] 1.00M 625KB/s in 1.6s \n", + "\n", + "2024-04-05 17:50:25 (625 KB/s) - ‘poems.txt’ saved [1048627/1048627]\n", + "\n" + ] + } + ], + "source": [ + "!wget -O poems.txt http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", + "\n", + "# Маяковский: http://uit.mpei.ru/git/main/TDA/src/branch/master/assets/poems/mayakovskiy.txt\n" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "BFnX81iNFFEf", + "outputId": "f2efb98f-d09e-49d6-f8b4-2952ae48c075" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Количество стихов: 720\n", + "\n", + "Пример стиха:\n", + "\n", + "Возможно ль? вместо роз, Амуром насажденных,\n", + "Тюльпанов гордо наклоненных,\n", + "Душистых ландышей, ясминов и лилей,\n", + "Которых ты всегда любила\n", + "И прежде всякой день носила\n", + "На мраморной груди твоей —\n", + "Возможно ль, милая Климена,\n", + "Какая странная во вкусе перемена!..\n", + "Ты любишь обонять не утренний цветок,\n", + "А вредную траву зелену,\n", + "Искусством превращенну\n", + "В пушистый порошок! —\n", + "Пускай уже седой профессор Геттингена,\n", + "На старой кафедре согнувшися дугой,\n", + "Вперив в латинщину глубокой разум свой,\n", + "Раскашлявшись, табак толченый\n", + "Пихает в длинный нос иссохшею рукой;\n", + "Пускай младой драгун усатый\n", + "Поутру, сидя у окна,\n", + "С остатком утреннего сна,\n", + "Из трубки пенковой дым гонит сероватый;\n", + "Пускай красавица шестидесяти лет,\n", + "У Граций в отпуску, и у любви в отставке,\n", + "Которой держится вся прелесть на подставке,\n", + "Которой без морщин на теле места нет,\n", + "Злословит, молится, зевает\n", + "И с верным табаком печали забывает, —\n", + "А ты, прелестная!.. но если уж табак\n", + "Так нравится тебе – о пыл воображенья! —\n", + "Ах! если, превращенный в прах,\n", + "И в табакерке, в заточеньи,\n", + "Я в персты нежные твои попасться мог,\n", + "Тогда б в сердечном восхищеньи\n", + "Рассыпался на грудь под шелковый платок\n", + "И даже… может быть… Но что! мечта пустая.\n", + "Не будет этого никак.\n", + "Судьба завистливая, злая!\n", + "Ах, отчего я не табак!..\n", + "\n", + "\n" + ] + } + ], + "source": [ + "# Загружаем текст из файла.\n", + "# Стихотворения в файле разделены токеном ''\n", + "\n", + "with open(\"poems.txt\") as file:\n", + " data = file.read().split(\"\\n\\n\")\n", + "print(f\"Количество стихов: {len(data)}\\n\", f\"Пример стиха:\\n\\n{data[10]}\", sep=\"\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "urxR6VN2FbVl" + }, + "source": [ + "# Подготовка данных и сводные статистики" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "OhWos8xuFZZj", + "outputId": "635e93d6-6614-4c2c-c6c0-b0c7e70ea6ae" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Количество уникальных символов: 143\n", + "{0: 'PAD', 1: 'EOS', 2: 'a', 3: 'g', 4: ';', 5: 'R', 6: 'у', 7: 'И', 8: 'д', 9: 'ю', 10: 'V', 11: '?', 12: 'd', 13: 'з', 14: 'ы', 15: '–', 16: '(', 17: 'H', 18: 'Г', 19: ':', 20: 'm', 21: 'é', 22: 'ж', 23: 'c', 24: 'ц', 25: 'l', 26: 'Ф', 27: 'ф', 28: 'â', 29: 'п', 30: 'b', 31: 'г', 32: 'k', 33: 'B', 34: 'S', 35: \"'\", 36: 'z', 37: 'р', 38: 'ъ', 39: 'ь', 40: '!', 41: '\\n', 42: 'й', 43: 'Б', 44: '\"', 45: 'н', 46: '_', 47: 'P', 48: 'к', 49: 'F', 50: '»', 51: '*', 52: '—', 53: 'Ц', 54: 'L', 55: 'ê', 56: 'щ', 57: ')', 58: 's', 59: 'y', 60: 'С', 61: 'Ш', 62: 'Р', 63: 'э', 64: 'i', 65: 'x', 66: 'У', 67: 'è', 68: 'à', 69: 'p', 70: 'л', 71: 'T', 72: 'I', 73: 'û', 74: 'в', 75: '„', 76: 'Z', 77: 'П', 78: 'ё', 79: 'Л', 80: 'ш', 81: 'М', 82: '…', 83: '-', 84: 'З', 85: 'n', 86: '.', 87: 'В', 88: 'х', 89: 'с', 90: 'Ю', 91: 'C', 92: ' ', 93: 'е', 94: 'j', 95: 'Х', 96: 'а', 97: 'Н', 98: 'Д', 99: 'M', 100: 'и', 101: ',', 102: 'б', 103: '<', 104: '>', 105: 'А', 106: 'Т', 107: 'N', 108: 'о', 109: '«', 110: '\\xa0', 111: 'o', 112: 'Й', 113: 'Q', 114: 'U', 115: 'W', 116: 'ç', 117: 'т', 118: 'Е', 119: 'O', 120: 'О', 121: 'ч', 122: 'e', 123: 'u', 124: 'f', 125: 'D', 126: 'E', 127: 'К', 128: 'v', 129: 'Ж', 130: 'Щ', 131: 'м', 132: 'A', 133: 'Ч', 134: 'h', 135: 'Я', 136: 'ô', 137: 'J', 138: 't', 139: 'я', 140: 'r', 141: 'q', 142: 'Э'}\n" + ] + } + ], + "source": [ + "# Составляем словарь уникальных токенов\n", + "vocab = [\"PAD\", \"EOS\",] + list(set(\"\".join(data))) #список уникальных символов.\n", + "\n", + "# Формируем два словаря, реализующие перевод символов в их индексы и обратно\n", + "id2char = dict(enumerate(vocab)) #словарь индексов в символы\n", + "char2id = {char: ind for ind, char in id2char.items()} #словарь символов в индексы\n", + "print(f\"Количество уникальных символов: {len(vocab)}\", id2char, sep=\"\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "xeTO4fBQFfBS" + }, + "source": [ + "Рассмотрим длины текстов" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "J-u-IxOeFZXY", + "outputId": "3ac61929-c08f-447f-df37-0f65030d3a57" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Максимальная длина текста: 8948\n" + ] + } + ], + "source": [ + "lengths = list(map(len, data))\n", + "print(\"Максимальная длина текста: \", max(lengths))" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 564 + }, + "id": "Ym7S8tmNFZUg", + "outputId": "67470c7b-ad81-4445-85d0-d3b1a4621e33" + }, + "outputs": [ + { + "output_type": "display_data", + "data": { + "text/plain": [ + "
" + ], + "image/png": "\n" + }, + "metadata": {} + } + ], + "source": [ + "plt.rcParams[\"figure.figsize\"] = (14, 6)\n", + "plt.hist(lengths, bins=30, range=[0, 6000])\n", + "plt.xlabel(\"Длина текста в символах\")\n", + "plt.title(\"Гистограмма длин текстов\")\n", + "plt.grid()" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "JuD6onVvFZR8", + "outputId": "49d24414-289e-4775-ac16-2f33f8873ac1" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Средняя длина 808.9125\n", + "Медиана длины 453.5\n", + "Мода длины 221\n" + ] + } + ], + "source": [ + "lengths = np.array(lengths)\n", + "print(\"Средняя длина\", np.mean(lengths))\n", + "print(\"Медиана длины\", np.median(lengths))\n", + "print(\"Мода длины\", np.bincount(lengths).argmax())" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 1\n", + "Где можно будет использовать знание о параметрах распределения длин в выборке?" + ], + "metadata": { + "id": "wjXxroS0IDXu" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "zfkSHd-8FlE1" + }, + "source": [ + "Выберите длину для генерации" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": { + "id": "y-Q7-EPuFZO5" + }, + "outputs": [], + "source": [ + "# Устанавливаем, сколько символов будет генерировать модель (максимальная длина генерируемого текста)\n", + "MAXLEN = 512 #" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "TSfv4n08Fpiv" + }, + "source": [ + "# Преобразование данных" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "vtelHtjyFq1N" + }, + "source": [ + "Создадим функцию для преобразования текста в вектора одинакового размера для подачи в нейросеть. В этой функции добавляется токен EOS - конец последовательности. Если текст короче заданной длины, то добавляется специальный токен PAD. Если текст больше заданной длины, то он обрезается." + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": { + "id": "Hf9iaFRKJUGq" + }, + "outputs": [], + "source": [ + "line_ix = [char2id[c] for c in data[5][:512]]" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": { + "id": "2emYDlcVJnwi" + }, + "outputs": [], + "source": [ + "data_ix = np.zeros([len(data[5]), 512], 'int64')\n", + "data_ix[5, :len(line_ix)] = line_ix" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "QA5lQz2eJ8Oq", + "outputId": "e5df533b-ff5e-494a-d6ae-b2e8e4ffd442" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "[0 0 0 ... 0 0 0]\n" + ] + } + ], + "source": [ + "data_ix= np.transpose(data_ix)\n", + "print(data_ix[5])" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": { + "id": "YYGc7vo2FoTw" + }, + "outputs": [], + "source": [ + "def to_matrix(data, char2id, max_len=None, dtype='int64', batch_first = True):\n", + "\n", + " max_len = max_len if max_len else max(map(len, data))\n", + " data = [text[:max_len] + \" EOS\" for text in data]\n", + " data_ix = np.zeros([len(data), max_len], dtype)\n", + "\n", + " for i in range(len(data)):\n", + " line_ix = [char2id[c] for c in data[i][:max_len]]\n", + " data_ix[i, :len(line_ix)] = line_ix\n", + "\n", + " if not batch_first: # convert [batch, time] into [time, batch]\n", + " data_ix = np.transpose(data_ix)\n", + "\n", + " return data_ix" + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "DbkCcqotFoRP", + "outputId": "97e86d8c-26f4-407a-c587-58d0df5867cd" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Исходный текст:\n", + " Так и мне узнать случилось,\n", + "Что за птица Купидон;\n", + "Сердце страстное пленилось;\n", + "Признаюсь – и я влюблен!\n", + "Пролетело счастья время,\n", + "Как, любви не зная бремя,\n", + "Я живал да попевал,\n", + "Как в театре и на балах,\n", + "На гуляньях иль в воксалах\n", + "Легким зефиром летал;\n", + "Как, смеясь во зло Амуру,\n", + "Я писал карикатуру\n", + "На любезный женской пол;\n", + "Но напрасно я смеялся,\n", + "Наконец и сам попался,\n", + "Сам, увы! с ума сошел.\n", + "Смехи, вольность – всё под лавку\n", + "Из Катонов я в отставку,\n", + "И теперь я – Селадон!\n", + "Миловидной жрицы Тальи\n", + "Видел прелести Натальи,\n", + "И уж в сердце – Купидон!\n", + "\n", + "Так, Наталья! признаюся,\n", + "Я тобою полонен,\n", + "В первый раз еще, стыжуся,\n", + "В женски прелести влюблен.\n", + "Целый день, как ни верчуся\n", + "Лишь тобою занят я;\n", + "Ночь придет – и лишь тебя\n", + "Вижу я в пустом мечтаньи,\n", + "Вижу, в легком одеяньи\n", + "Будто милая со мной;\n", + "Робко, сладостно дыханье,\n", + "Белой груди колебанье,\n", + "Снег затмивший белизной,\n", + "И полуотверсты очи,\n", + "Скромный мрак безмолвной ночи —\n", + "Дух в восторг приводят мой!..\n", + "Я один в беседке с нею,\n", + "Вижу… девственну лилею,\n", + "Трепещу, томлюсь, немею…\n", + "И проснулся… вижу мрак\n", + "Вкруг постели одинокой!\n", + "Испускаю вздох глубокой,\n", + "Сон ленивый, томноокой\n", + "Отлетает на крылах.\n", + "Страсть сильнее становится\n", + "И, любовью утомясь,\n", + "Я слабею всякой час.\n", + "Всё к чему-то ум стремится,\n", + "А к чему? – никто из нас\n", + "Дамам в слух того не скажет,\n", + "А уж так и сяк размажет.\n", + "Я – по-свойски объяснюсь.\n", + "\n", + "Все любовники желают\n", + "И того, чего не знают;\n", + "Это свойство их – дивлюсь!\n", + "Завернувшись балахоном,\n", + "С хватской шапкой на бекрень\n", + "Я желал бы Филимоном\n", + "Под вечер, как всюду тень,\n", + "Взяв Анюты нежну руку,\n", + "Изъяснять любовну муку,\n", + "Говорить: она моя!\n", + "Я желал бы, чтоб Назорой\n", + "Ты старалася меня\n", + "Удержать умильным взором.\n", + "Иль седым Опекуном\n", + "Легкой, миленькой Розины,\n", + "Старым пасынком судьбины,\n", + "В епанче и с париком,\n", + "Дерзкой пламенной рукою\n", + "Белоснежну, полну грудь…\n", + "Я желал бы… да ногою\n", + "Моря не перешагнуть.\n", + "И, хоть по уши влюбленный,\n", + "Но с тобою разлученный,\n", + "Всей надежды я лишен.\n", + "\n", + "Но, Наталья! ты не знаешь\n", + "Кто твой нежный Селадон,\n", + "Ты еще не понимаешь,\n", + "Отчего не смеет он\n", + "И надеяться? – Наталья!\n", + "Выслушай еще меня:\n", + "\n", + "Не владетель я Сераля,\n", + "Не арап, не турок я.\n", + "За учтивого китайца,\n", + "Грубого американца\n", + "Почитать меня нельзя,\n", + "Не представь и немчурою,\n", + "С колпаком на волосах,\n", + "С кружкой, пивом налитою,\n", + "И с цыгаркою в зубах.\n", + "Не представь кавалергарда\n", + "В каске, с длинным палашом.\n", + "Не люблю я бранный гром:\n", + "Шпага, сабля, алебарда\n", + "Не тягчат моей руки\n", + "За Адамовы грехи.\n", + "\n", + "– Кто же ты, болтун влюбленный?\n", + "Взглянь на стены возвышенны,\n", + "Где безмолвья вечный мрак;\n", + "Взглянь на окны загражденны,\n", + "На лампады там зажженны…\n", + "Знай, Наталья! – я… монах!\n", + "\n", + "\n", + "Преобразованный текст:\n", + " [106 96 48 92 100 92 131 45 93 92 6 13 45 96 117 39 92 89\n", + " 70 6 121 100 70 108 89 39 101 41 133 117 108 92 13 96 92 29\n", + " 117 100 24 96 92 127 6 29 100 8 108 45 4 41 60 93 37 8\n", + " 24 93 92 89 117 37 96 89 117 45 108 93 92 29 70 93 45 100\n", + " 70 108 89 39 4 41 77 37 100 13 45 96 9 89 39 92 15 92\n", + " 100 92 139 92 74 70 9 102 70 93 45 40 41 77 37 108 70 93\n", + " 117 93 70 108 92 89 121 96 89 117 39 139 92 74 37 93 131 139\n", + " 101 41 127 96 48 101 92 70 9 102 74 100 92 45 93 92 13 45\n", + " 96 139 92 102 37 93 131 139 101 41 135 92 22 100 74 96 70 92\n", + " 8 96 92 29 108 29 93 74 96 70 101 41 127 96 48 92 74 92\n", + " 117 93 96 117 37 93 92 100 92 45 96 92 102 96 70 96 88 101\n", + " 41 97 96 92 31 6 70 139 45 39 139 88 92 100 70 39 92 74\n", + " 92 74 108 48 89 96 70 96 88 41 79 93 31 48 100 131 92 13\n", + " 93 27 100 37 108 131 92 70 93 117 96 70 4 41 127 96 48 101\n", + " 92 89 131 93 139 89 39 92 74 108 92 13 70 108 92 105 131 6\n", + " 37 6 101 41 135 92 29 100 89 96 70 92 48 96 37 100 48 96\n", + " 117 6 37 6 41 97 96 92 70 9 102 93 13 45 14 42 92 22\n", + " 93 45 89 48 108 42 92 29 108 70 4 41 97 108 92 45 96 29\n", + " 37 96 89 45 108 92 139 92 89 131 93 139 70 89 139 101 41 97\n", + " 96 48 108 45 93 24 92 100 92 89 96 131 92 29 108 29 96 70\n", + " 89 139 101 41 60 96 131 101 92 6 74 14 40 92 89 92 6 131\n", + " 96 92 89 108 80 93 70 86 41 60 131 93 88 100 101 92 74 108\n", + " 70 39 45 108 89 117 39 92 15 92 74 89 78 92 29 108 8 92\n", + " 70 96 74 48 6 41 7 13 92 127 96 117 108 45 108 74 92 139\n", + " 92 74 92 108 117 89 117 96 74 48 6 101 41 7 92 117 93 29\n", + " 93 37 39 92 139 92 15 92 60 93 70 96 8 108 45 40 41 81\n", + " 100 70 108 74 100 8 45 108 42 92 22 37 100 24 14 92 106 96\n", + " 70 39 100 41 87 100 8 93 70 92 29 37 93 70 93 89 117 100\n", + " 92 97 96 117 96 70 39 100]\n" + ] + } + ], + "source": [ + "# Проверяем работу функции - кодируем один из текстов и смотрим как он выглядит в кодированном виде\n", + "encode = to_matrix(data[:1], char2id, MAXLEN)\n", + "print(\"Исходный текст:\\n\", data[0])\n", + "print(\"Преобразованный текст:\\n\", encode[0])" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 2\n", + "Пояснить, что хранится в переменной `encode`.\n", + "\n", + "Как будет выглядеть ваша фамилия в кодированном виде?" + ], + "metadata": { + "id": "nSrGA_gLLh3A" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "eQ-s7rzHFu9T" + }, + "source": [ + "# Подготовка нейросети" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "c3qNOFx8Fwec" + }, + "source": [ + "![](https://raw.githubusercontent.com/tensorflow/text/master/docs/tutorials/images/text_generation_training.png)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "atZoEO6VFyQf" + }, + "source": [ + "Исходя из архитектуры нейросети на картинке, нужно задать 3 слоя:\n", + " - Embedding\n", + " - GRU\n", + " - Dense\n", + "\n", + "\n", + "Для этого воспользуемся pytorch, ссылки на подробную документацию каждого слоя:\n", + " - [nn.Embedding](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)\n", + " - [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html)\n", + " - [nn.Linear](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) " + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": { + "id": "3rAXL2-QFvM9" + }, + "outputs": [], + "source": [ + "num_embeddings = len(vocab) #количество эмбеддингов должно соответствовать длине словаря\n", + "embedding_dim = 32 #определяется размерность эмбеддинга\n", + "emb = nn.Embedding(num_embeddings, embedding_dim) # Определяем объект emb как слой эмбеддингов заданного размера" + ] + }, + { + "cell_type": "code", + "source": [ + "\n", + "num_embeddings" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "mGb6aUqfOmav", + "outputId": "ec17500b-0522-4c56-a6f9-0a5da11f7346" + }, + "execution_count": 34, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "143" + ] + }, + "metadata": {}, + "execution_count": 34 + } + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 3\n", + "Почему количество эмбеддингов должно соответствовать длине словаря?" + ], + "metadata": { + "id": "esvotgUlMADX" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "hHK3n4noF2OP" + }, + "source": [ + "В качестве примера пропустим через этот слой первые 5 букв первого текста." + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "GvwHFBOWFz-U", + "outputId": "0a58cf39-3151-48d5-846c-6f55d1dfc863" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Размер тензора: torch.Size([5, 32])\n", + "\n", + "tensor([[ 1.5029e+00, -1.7916e+00, 2.2026e+00, -2.2513e+00, -6.9742e-01,\n", + " 3.0790e-01, 6.8104e-01, 7.7460e-01, -6.1624e-01, 1.5153e+00,\n", + " -4.1424e-01, -3.7886e-01, 3.0690e-01, 2.3166e-04, -1.3926e-01,\n", + " -4.1106e-01, -3.6484e-01, 3.3451e-01, -3.3457e+00, -6.2611e-01,\n", + " 8.0940e-01, 8.7477e-01, -9.3242e-02, 1.0553e+00, 1.0860e+00,\n", + " -4.8333e-01, 1.1123e+00, 6.2818e-01, 2.5269e-01, 1.3213e+00,\n", + " 5.3855e-01, 4.6009e-01],\n", + " [ 5.7508e-01, 1.6589e+00, -1.1679e+00, -2.4309e+00, -3.9557e-01,\n", + " 3.8376e-01, -9.8238e-01, -1.1509e+00, 2.2251e+00, -4.6321e-01,\n", + " 6.5630e-01, -1.9887e+00, -6.1972e-01, -1.6304e-01, -9.7050e-01,\n", + " -2.5951e-01, 4.9236e-01, -1.9583e+00, 1.9546e+00, -1.0485e+00,\n", + " 1.2174e-01, 8.9455e-01, -2.3779e+00, 2.3129e+00, -2.7838e-01,\n", + " 9.1432e-01, -2.7290e+00, -1.1626e+00, -8.9565e-01, -8.5091e-03,\n", + " 8.8071e-01, -9.9323e-03],\n", + " [-8.4068e-01, -6.1268e-01, 6.7328e-01, -9.6503e-01, 6.8494e-01,\n", + " -8.4349e-01, 3.5604e-01, 1.7478e+00, -1.7844e-01, -7.7445e-01,\n", + " 1.3449e+00, 1.1115e+00, 1.1597e+00, 7.3386e-01, 9.6546e-01,\n", + " -1.7147e+00, -3.4931e-01, 1.7341e-01, 3.5583e-01, -2.5318e-01,\n", + " -4.7672e-01, -1.4090e-02, -5.9210e-01, 5.4945e-01, 1.6417e-01,\n", + " -4.4186e-01, 7.3914e-01, 1.8834e+00, 3.0256e-01, 6.1556e-01,\n", + " -9.7063e-01, 4.4972e-01],\n", + " [ 5.6335e-01, 1.9862e-01, 3.7290e-01, 9.5874e-01, 6.3197e-01,\n", + " 2.9606e-01, 1.6983e+00, -6.7355e-01, -3.7383e-01, -1.0147e+00,\n", + " -1.2620e-02, 6.6465e-01, 9.1266e-01, 1.2363e+00, 1.9966e+00,\n", + " -1.1470e+00, -5.4097e-01, 1.3002e+00, -1.4012e+00, -8.1303e-01,\n", + " -7.5828e-01, 2.8108e-01, 1.0428e+00, 4.5049e-01, -1.2042e-01,\n", + " -1.2361e+00, 2.9283e-01, -1.6573e+00, 3.8987e-01, -2.1059e-01,\n", + " 1.4592e-01, -2.3350e-01],\n", + " [ 7.5370e-01, -1.6429e+00, -8.4913e-01, 3.6310e-02, 1.4648e+00,\n", + " -9.0935e-01, -2.1241e-01, -3.0972e-01, 6.5774e-01, 6.8460e-01,\n", + " 4.4648e-01, 6.2579e-01, 7.1138e-01, 1.8680e+00, -1.3650e+00,\n", + " 1.2340e-02, -1.2517e-01, 3.1195e-01, 3.0871e-01, 5.0507e-01,\n", + " -1.2373e+00, -1.0363e+00, -4.4852e-01, -8.9384e-01, -4.5717e-01,\n", + " 1.0538e-01, 4.1036e-01, 2.9193e+00, -1.1410e+00, 8.8568e-01,\n", + " -3.3892e-01, -7.0943e-01]], grad_fn=)\n" + ] + } + ], + "source": [ + "# emb_out - 5 первых символов в виде эмбедингов\n", + "emb_out = emb(torch.tensor(encode[0][:5]))\n", + "print(f\"Размер тензора: {emb_out.shape}\\n\")\n", + "print(emb_out)\n" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 4\n", + "Пояснить, почему получен такой размер `emb_out`?" + ], + "metadata": { + "id": "-YOv6t-qMOQi" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "nkS5ZQ8fF4XP" + }, + "source": [ + "# Создадим ячейку GRU" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 5\n", + "Обратиться к документации к [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html) и ответить на вопрос, за что отчечают параметры `input_size`, `hidden_size`, `num_layers`.\n", + "\n", + "В следующей ячейке задать значения для этих параметров" + ], + "metadata": { + "id": "ZBfkiOYmM9yr" + } + }, + { + "cell_type": "code", + "execution_count": 25, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5bJ7fRAYFz71", + "outputId": "08fe5314-c7fb-4901-9947-4eabbd4c2326" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Размер output: torch.Size([5, 64])\n", + "Размер h_n: torch.Size([1, 64])\n" + ] + } + ], + "source": [ + "# Определяем ячейку GRU в переменной gru, предварительно задав рамерность скрытого состояния и количество рекуррентных слоев\n", + "input_size = emb.embedding_dim # вход в GRU должен соответствовать размеру эмбеддинга\n", + "hidden_size = 64 #\n", + "num_layers = 1 #\n", + "gru = nn.GRU(input_size, hidden_size, num_layers)\n", + "output, h_n = gru(emb_out)\n", + "print(\"Размер output:\", output.shape)\n", + "print(\"Размер h_n:\", h_n.shape)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "4W5Q3O45F6wh" + }, + "source": [ + "Выходом GRU является 2 тензора:\n", + " - output (используется для классификации)\n", + " - тензор скрытого состояния h_n (используается для последующей передачи во времени)\n", + "\n", + "Теперь используем output для предсказания следующей буквы, пропустив через линейный слой" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "p16NvYn2Fz4-", + "outputId": "a31d5f60-dfe0-4a7e-c078-ee7700750aa6" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Размер выходного слоя из нейросети: torch.Size([5, 143])\n" + ] + } + ], + "source": [ + "in_features = gru.hidden_size\n", + "out_features = len(vocab) #предсказываем букву из всего словаря\n", + "linear = nn.Linear(in_features, out_features) # Определяем линейный слой. Почему заданы такие входные и выходные параметры для него?\n", + "linear_out = linear(output) # output - выход GRU\n", + "print(\"Размер выходного слоя из нейросети: \", linear_out.shape)" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 6\n", + "Что содержится в векторе linear_out?\n", + "\n", + "Определить индекс символа, который наиболее вероятно выдаст ячейка GRU на первом шаге?" + ], + "metadata": { + "id": "6no89JxCNwvX" + } + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Z2lThHhjOBI2", + "outputId": "50a18b7f-094d-41e1-a728-c47ef9561474" + }, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "tensor([ 0.0909, -0.0186, -0.2154, -0.2624, -0.0282, -0.1714, -0.0423, 0.1505,\n", + " 0.0645, 0.0452, -0.0173, -0.0822, 0.1414, 0.1803, -0.2480, -0.1756,\n", + " -0.0447, -0.0136, 0.1097, -0.2245, 0.0189, -0.0559, 0.0215, -0.0040,\n", + " 0.0454, 0.2437, -0.2015, 0.0818, 0.2883, 0.2263, -0.0109, 0.1681,\n", + " -0.0642, -0.0497, 0.1583, -0.0795, -0.0376, 0.0674, -0.1307, 0.0640,\n", + " 0.0966, 0.0140, -0.1366, -0.1685, 0.0397, -0.1600, -0.0497, -0.2244,\n", + " -0.1075, -0.1048, 0.0275, -0.0144, -0.1456, 0.0394, -0.1426, -0.0605,\n", + " -0.0743, 0.1303, 0.0337, 0.1010, -0.0651, -0.1233, 0.0282, 0.2729,\n", + " 0.0485, -0.0911, 0.1994, 0.0610, 0.0911, 0.0940, -0.0973, 0.0747,\n", + " 0.0031, 0.1500, -0.0295, 0.0127, -0.2865, -0.0251, -0.1395, 0.1547,\n", + " 0.0830, 0.0782, -0.0181, 0.1317, -0.0537, 0.1293, -0.2458, 0.1477,\n", + " -0.0610, -0.0592, -0.2878, -0.1622, 0.1336, 0.0987, -0.0834, -0.0815,\n", + " -0.1764, 0.0202, -0.0097, 0.0176, -0.1874, 0.0716, -0.1070, -0.1364,\n", + " 0.1748, 0.1479, -0.0478, 0.0862, 0.0648, 0.1126, -0.0995, -0.1324,\n", + " 0.1023, -0.0247, 0.0439, 0.0212, -0.0608, 0.0402, 0.1468, 0.2311,\n", + " -0.1142, 0.2198, -0.1181, -0.2196, -0.0653, 0.0870, -0.3388, 0.1208,\n", + " 0.0851, 0.0590, 0.1963, 0.0710, 0.1099, 0.1648, 0.0260, -0.1451,\n", + " 0.0012, -0.0973, -0.1058, -0.0628, 0.0585, 0.1859, -0.0573],\n", + " grad_fn=)" + ] + }, + "metadata": {}, + "execution_count": 29 + } + ], + "source": [ + "linear_out[0]" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "NZnJy28VF894" + }, + "source": [ + "Теперь определим класс со всеми частями:" + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": { + "id": "1GinxRWgF9KG" + }, + "outputs": [], + "source": [ + "class CharGRULoop(nn.Module): # Описываем инициализатор класса.\n", + " def __init__(self, num_embeddings=52, embedding_dim=16, hidden_size=64, num_layers=1): # В методе __init__ определим архитектуру модели, создав необходимые слои\n", + " super(self.__class__, self).__init__()\n", + " self.emb = nn.Embedding(num_embeddings, embedding_dim)\n", + " self.gru = nn.GRU(embedding_dim, hidden_size, num_layers, batch_first=True)\n", + " self.hid_to_logits = nn.Linear(hidden_size, num_embeddings)\n", + "\n", + " def forward(self, x, hid_state): # Здесь описываем стурктуру сети - как сигнал должен по ней проходить\n", + " x = self.emb(x) # Проходим через эмбеддинг-слой\n", + " if hid_state is not None: # Проходим через GRU, сохраняя hidden state\n", + " h_seq, hid_state = self.gru(x, hid_state)\n", + " else:\n", + " h_seq, hid_state = self.gru(x)\n", + " next_logits = self.hid_to_logits(h_seq) # проходим через полносвязный слой\n", + " next_logp = F.log_softmax(next_logits, dim=-1) # Используем функцию softmax\n", + " return next_logp, hid_state" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "1aW5mneXF_cy" + }, + "source": [ + "Определим модель:" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": { + "id": "_U6Q0oosF_o7" + }, + "outputs": [], + "source": [ + "model = CharGRULoop(num_embeddings=len(vocab), embedding_dim=64, hidden_size=192, num_layers=2)\n", + "# Можно попробовать создать сеть с другими значениями параметров" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "nnS2cn8YGBPw" + }, + "source": [ + "Количество параметров:" + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "metadata": { + "id": "zp7I2GVIGCOw" + }, + "outputs": [], + "source": [ + "!pip -q install torchinfo" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "24-GKj6nGDc4", + "outputId": "8bc88d9d-0105-4ad6-ab6a-5a90c5d2a4bf" + }, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "=================================================================\n", + "Layer (type:depth-idx) Param #\n", + "=================================================================\n", + "CharGRULoop --\n", + "├─Embedding: 1-1 9,152\n", + "├─GRU: 1-2 370,944\n", + "├─Linear: 1-3 27,599\n", + "=================================================================\n", + "Total params: 407,695\n", + "Trainable params: 407,695\n", + "Non-trainable params: 0\n", + "=================================================================" + ] + }, + "metadata": {}, + "execution_count": 36 + } + ], + "source": [ + "from torchinfo import summary\n", + "\n", + "summary(model)" + ] + }, + { + "cell_type": "markdown", + "source": [ + "Каждый раз, когда вы вызываете модель (forward), вы передаете некоторый текст и внутреннее состояние. Модель возвращает прогноз для следующего символа и его нового состояния.\n", + "\n", + "![image.png]()" + ], + "metadata": { + "id": "gIEsZBJbUNY5" + } + }, + { + "cell_type": "markdown", + "metadata": { + "id": "afVs3q7tGFPO" + }, + "source": [ + "Функция для генерации последовательности символов (текста)" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": { + "id": "meZeWXwUGFss" + }, + "outputs": [], + "source": [ + "def generate_sample(model, char2id, id2char, seed_phrase=' ', strategy=\"greedy\", max_length=100, temperature=1.0):\n", + " \"\"\"\n", + " model - нейросеть\n", + " char2id - словарь преобразования букв в их индексы\n", + " id2char - словарь преобразования индексов в буквы\n", + " seed_phrase - начальная фраза для генерации\n", + " strategy - стратегия генерации (жадная \"greedy\" или сэмплирование \"sample\")\n", + " max_length - максимальная длина сгенирированного текста\n", + " temperature - ???\n", + " \"\"\"\n", + "\n", + " x_sequence = [char2id[token] for token in seed_phrase] # кодируем начальную фразу\n", + " x_sequence = torch.tensor([x_sequence], dtype=torch.int64) # создаем тензор\n", + " hid_state = None # задаем тензор скрытого состояния h_n, при такой подачи вектор заполнится нулями\n", + "\n", + " with torch.no_grad(): # отключаем подсчет градиентов, поскольку сеть уже обучена и не нужно проводить обратное распространение ошибки\n", + " for i in range(len(seed_phrase) - 1): # подаем номер буквы и hid_state в цикле\n", + " _, hid_state = model(x_sequence[:, i].unsqueeze(0), hid_state)\n", + "\n", + " # начинаем генерацию\n", + " for _ in range(max_length - len(seed_phrase)):\n", + "\n", + " logp_next, hid_state = model(x_sequence[:, -1].unsqueeze(0), hid_state) # подаем последнюю букву из фразы\n", + " p_next = F.softmax(logp_next / temperature, dim=-1).data.numpy()[0] # нормируем выходы модели на температуру и применяем софтмакс\n", + "\n", + " if strategy == \"greedy\": next_ix = p_next.argmax() #берем токен с максимальной вероятностью\n", + " elif strategy == \"sample\": next_ix = np.random.choice(len(id2char), p=p_next[0]) #получаем следующий токен сэмплированием с вероятностями\n", + " else: raise ValueError('Хулиган, не делай так! Выбери \"greedy\" или \"sample\"')\n", + "\n", + " if id2char[next_ix] == \"EOS\": break # если получили токен EOS, то прекращаем генерацию\n", + " else:\n", + " next_ix = torch.tensor([[next_ix]], dtype=torch.int64) # создаем тензор следующий буквы\n", + " x_sequence = torch.cat([x_sequence, next_ix], dim=1) # добавляем предсказанный токен в конец последовательности\n", + "\n", + " return ''.join([id2char[ix] for ix in x_sequence.data.numpy()[0]]) # возвращаем декодированную строку" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "IJohkcbJGG5O" + }, + "source": [ + "Попробуем что-нибудь сгенерировать:" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 7\n", + "Выполните следующую ячейку несколько раз с одной и той же SEED_PHRASE, запомните выводы модели и объясните результат - чем отличается стратегия greedy от sample?" + ], + "metadata": { + "id": "b2hqsv33P2gW" + } + }, + { + "cell_type": "code", + "execution_count": 43, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5bqp2xRjGIdW", + "outputId": "431d70ec-9bca-4765-aae6-3ae6e143fb11" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Я люблю машинное обучение!\n", + "ддZгàuгuuZsàCCCCОааа___IIшCCОаа!___IICйCCОаа!___IICйCCОаа!___IICйCCОаа!__\n", + "\n", + "Я люблю машинное обучение!\n", + "" + ], + "image/png": "\n" + }, + "metadata": {} + } + ], + "source": [ + "EPOCH = 200 # количество эпох обучения\n", + "history_train = [] # список значений лосса трейна на каждой эпохи\n", + "history_test = [] # список значений лосса теста на каждой эпохи\n", + "model.to(device) # И модель, и данные должны находиться на одном устройстве.\n", + " # Поэтому при работе с GPU нужно следить и явно указывать, на каком устройстве проводится работа.\n", + "\n", + "\n", + "best_test_loss = float(\"inf\")\n", + "for i in range(EPOCH): #цикл по эпохам\n", + "\n", + " loss_test = 0\n", + " loss_train = 0\n", + "\n", + " for batch in dataloader_train: #цикл по тренировачным батчам\n", + "\n", + " optimizer.zero_grad() #обнуляем градиенты\n", + " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device) #делаем из батча тензор\n", + "\n", + " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None) #подаем батч в модель\n", + "\n", + " actual_next_tokens = batch_ix[:, 1:] # таргеры\n", + "\n", + " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long()) # считаем лосс на батче\n", + " loss_train += loss.item() # добавляем лосс с батча в суммарный лосс\n", + "\n", + " loss.backward() # делаем обратный проход\n", + " optimizer.step() # делаем шаг оптимизатором\n", + "\n", + " history_train.append(loss_train/len(dataloader_train)) # добавляем средний лосс за эпоху в список\n", + "\n", + " for batch in dataloader_test: #цикл по тестовым батчам\n", + " with torch.no_grad(): # отключаем подсчет градиентов\n", + "\n", + " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device)\n", + " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None)\n", + "\n", + " actual_next_tokens = batch_ix[:, 1:]\n", + "\n", + " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long())\n", + " loss_test += loss.item()\n", + "\n", + " loss_test = loss_test/len(dataloader_test)\n", + " history_test.append(loss_test)\n", + "\n", + " if loss_test < best_test_loss: #сохраняем лучшую модель по лоссу на тесте\n", + " best_test_loss = loss_test\n", + " best_model = copy.deepcopy(model)\n", + " best_model.to(\"cpu\")\n", + "\n", + " if (i + 1) % 5 == 0: # выводим график лосса каждые 5 эпох\n", + " clear_output(True)\n", + " plt.plot(history_train, label='loss_train')\n", + " plt.plot(history_test, label='loss_test')\n", + " plt.grid()\n", + " plt.legend()\n", + " plt.show()\n" + ] + }, + { + "cell_type": "markdown", + "source": [ + "### Вопрос 8\n", + "Достаточно ли обучилась модель? Имеет ли смысл изменить количество эпох обучения?" + ], + "metadata": { + "id": "iWGz3oH3Rowq" + } + }, + { + "cell_type": "code", + "execution_count": 51, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "k924KVVaGU4t", + "outputId": "01db571f-54df-421e-cdf5-6c6c4ce7bf72" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "perplexity (best model test): 7.181648032772434\n", + "perplexity (last epoch test): 7.421088521940808\n" + ] + } + ], + "source": [ + "print(\"perplexity (best model test): \", np.exp(best_test_loss))\n", + "print(\"perplexity (last epoch test): \", np.exp(loss_test))" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5fwRbhzDGVxl", + "outputId": "230be0e7-f04c-4c63-8576-2e2971a82b00" + }, + "outputs": [ + { + "output_type": "execute_result", + "data": { + "text/plain": [ + "CharGRULoop(\n", + " (emb): Embedding(143, 64)\n", + " (gru): GRU(64, 256, num_layers=3, batch_first=True)\n", + " (hid_to_logits): Linear(in_features=256, out_features=143, bias=True)\n", + ")" + ] + }, + "metadata": {}, + "execution_count": 52 + } + ], + "source": [ + "device = 'cpu' # Обучение обычно проводится на GPU, но чтобы не тратить его ресурсы, работу по генерации текста уже обученной моделью стоит перенести обратно на CPU\n", + "model.to(device)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "0PWo3arcGWvv" + }, + "source": [ + "Погенерируем текст. Сначала зададим стартовую фразу.\n", + "\n", + "Выполнив следующие ячейки по несколько раз, убедитесь, что правильно ответили на вопрос 7 \"Чем отличается стратегия greedy от sample?\"" + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "metadata": { + "id": "dtUW5hVBGX9p" + }, + "outputs": [], + "source": [ + "#Если вы не согласны, вы можете поменять стартовую фразу, но что думает об этом высказывание машина?\n", + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "Nr24uuQRGZqQ" + }, + "source": [ + "Sample strategy" + ] + }, + { + "cell_type": "code", + "execution_count": 56, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "bY_iYC82GY28", + "outputId": "1a41d952-882b-451a-b321-f2066f03f255" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "В вечерчят, может и ребких ряд,\n", + "Когда в тихает Наздним не рафстились взор,\n", + "Где боющей слус во знали цвю,\n", + "Еврожачи в пустыню твоей, прочей,\n", + "В Ажертрянный лес пропариду улещенье,\n", + "Истревняешь литее молви от меня за Eилей\n", + "В и ждох эти пыраматься спомнорой,\n", + "И вишел ее пеельчим на пытом.\n", + "\n", + "Зевители, моей пужко образ роды погоглавляек;\n", + "Скворный, сокружлен ускоре вином:\n", + "\n", + " EOS любится каз ним меня дороды!\n", + "Всях казы-тро ты сладо мною рошу.\n", + "Нет, и красота тебе прироща\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"sample\", max_length=MAXLEN))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "i6n4dUScGbk9" + }, + "outputs": [], + "source": [ + "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", + "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "gyB9g3KOGe8k" + }, + "source": [ + "Greedy strategy:\n" + ] + }, + { + "cell_type": "code", + "execution_count": 58, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "HuTB1fdlGd0b", + "outputId": "83440df4-700d-4c3b-935b-8e3aa5f65bcb" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "И в тебе под него не след не внемлет он мой под сон,\n", + "И в тебя с полей под сенью покой приветный страсть устались,\n", + "И в тебя в тебя с поле под сенью покой,\n", + "И с тобой страсть и страсть у него в поле молчаливой,\n", + "И с тобой в тебе с полей под страсть и страсть на волненье,\n", + "И в тебя в тебя с поле под страсть и страсть на восторга,\n", + "И с тебя с невольно прости страсть и страсть на восторга,\n", + "И с тебя с невольно прости страсть и страсть на восторга,\n", + "И с тебя с невольн\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"greedy\", max_length=MAXLEN))" + ] + }, + { + "cell_type": "code", + "execution_count": 59, + "metadata": { + "id": "_tKKZheZGfu8" + }, + "outputs": [], + "source": [ + "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", + "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" + ] + }, + { + "cell_type": "code", + "source": [ + "\n" + ], + "metadata": { + "id": "RpVEloyFScaa" + }, + "execution_count": 59, + "outputs": [] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "jxpdQXl1GhyL" + }, + "source": [ + "# Эксперименты с температурой" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "LdKkJc5vGjIt" + }, + "source": [ + "В функции `generate_sample` есть параметр `temperature`.\n", + "\n", + "Основываясь на прошлом пункте, выберите стратегию, которая больше понравилась и запустите ячейки с разной температурой" + ] + }, + { + "cell_type": "code", + "execution_count": 60, + "metadata": { + "id": "h88cuY0HGfsa" + }, + "outputs": [], + "source": [ + "nice_strategy = \"sample\" #" + ] + }, + { + "cell_type": "code", + "execution_count": 61, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "9uZZRmP-GlS2", + "outputId": "46f77170-a06e-4e72-98ca-f30d76e0c5f2" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "Нет.У дух преБЦя! убиием?> Скутxщ:: —\n", + "мбебле) был за цев чещу\n", + "Па. ТДа чевтовых: а домите,\n", + "Хтон живлчивые Посов, я , куке, лесь,\n", + "<пучалу> лябесимlим КлOE<жуе оRлки-пом,\n", + "Бедпятные пъе! сrакиса: ебя.\n", + ". нелаться, лены яхтну…\n", + "М зигранном дня, <судую,\n", + "Афием, П*\";c——\n", + "ДТрома, нуй, чтоко и; Дьбл\n", + "Еу! укнавнпиdусем.и.. ь,я\n", + "\n", + "Гдю Увер!ы\n", + "Дррикаявь, твое гофJ —!\n", + "Уе.ш. И, Бстоъ тиханью,\n", + "Лю??\n", + "Хласуя âлучит хожделz штон!…Л.\n", + "…»>\n", + "ожестгу<чиг\n", + "Ясь.…а хванни дупгухНвеннемляцы. —\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=nice_strategy, max_length=MAXLEN, temperature=2.0))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "DwIORQ3OoiKN" + }, + "source": [ + "### Вопрос 9\n", + "Сделайте выводы как влияет изменение температуры на генерацию текста.\n", + "\n", + "Выберите оптимальное значение температуры" + ] + }, + { + "cell_type": "code", + "execution_count": 62, + "metadata": { + "id": "4DoOXClVohes" + }, + "outputs": [], + "source": [ + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "metadata": { + "id": "htAW_ABDGnc6" + }, + "outputs": [], + "source": [ + "# По завершению работы с рекуррентной сетью, очистим кэш\n", + "torch.cuda.empty_cache()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "rlcgdw_gGpiO" + }, + "source": [ + "# Bonus track GPT" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "FND3cMDMGra3" + }, + "source": [ + "Дальше происходит магия, чтобы все вышло:\n", + " - здесь лучше перезапустить сеанс (Среда выполнения -> Перезапустить сеанс" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "id": "HEZqH-4rGo84", + "colab": { + "base_uri": "https://localhost:8080/" + }, + "outputId": "881559c1-9659-4157-97fc-ccf9425169b3" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m297.3/297.3 kB\u001b[0m \u001b[31m4.3 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m23.7/23.7 MB\u001b[0m \u001b[31m43.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m823.6/823.6 kB\u001b[0m \u001b[31m46.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m14.1/14.1 MB\u001b[0m \u001b[31m62.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m731.7/731.7 MB\u001b[0m \u001b[31m1.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m410.6/410.6 MB\u001b[0m \u001b[31m1.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m121.6/121.6 MB\u001b[0m \u001b[31m7.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m56.5/56.5 MB\u001b[0m \u001b[31m11.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m124.2/124.2 MB\u001b[0m \u001b[31m8.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m196.0/196.0 MB\u001b[0m \u001b[31m6.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m166.0/166.0 MB\u001b[0m \u001b[31m7.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m99.1/99.1 kB\u001b[0m \u001b[31m13.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m21.1/21.1 MB\u001b[0m \u001b[31m58.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[?25h" + ] + } + ], + "source": [ + "!pip install -q transformers[torch]" + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "id": "5ccG2XtoGtDT" + }, + "outputs": [], + "source": [ + "import locale\n", + "import torch\n", + "import transformers\n", + "import numpy as np\n", + "\n", + "from warnings import simplefilter\n", + "from IPython.display import clear_output\n", + "from transformers import Trainer, TrainingArguments\n", + "from transformers import GPT2LMHeadModel, GPT2Tokenizer\n", + "from transformers import TextDataset, DataCollatorForLanguageModeling\n" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "id": "xerwrDTGGtAc" + }, + "outputs": [], + "source": [ + "# Задаем некоторые настроечные параметры касательно кодировки и отображения предупреждений\n", + "locale.getpreferredencoding = lambda: \"UTF-8\"\n", + "simplefilter(\"ignore\", category=FutureWarning)\n", + "transformers.logging.set_verbosity_error()" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "id": "ygm4wl7EGvLX" + }, + "outputs": [], + "source": [ + "\n", + "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n", + "\n", + "model_name = \"sberbank-ai/rugpt3small_based_on_gpt2\" # Опередлим, какой моделью будем пользоваться\n", + "tokenizer = GPT2Tokenizer.from_pretrained(model_name) # Определим токенайзер для нашего текста\n", + "model = GPT2LMHeadModel.from_pretrained(model_name).to(device) # Загрузим предобученную модель трансформера rugpt3small от Сбера\n", + "\n", + "clear_output()" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "jfAXAgtfGvIs", + "outputId": "a9f47a68-7a4a-4edc-be98-cbf539e277cb" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Теория автоматического управления - лучший предмет, который я знаю.\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n" + ] + } + ], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "out = model.generate(input_ids, do_sample=False, max_length=20)\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))[0]\n", + "\n", + "print(generated_text) #Так работает предобученный трансформер" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "By_ukdhOp_F8" + }, + "source": [ + "Давайте дообучим трансформер на нашем датасете - мы хотим генерировать стихи" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": { + "id": "YLIYVZ1AGxzV" + }, + "outputs": [], + "source": [ + "train_path = \"train_dataset.txt\"\n", + "\n", + "with open(\"poems.txt\", encoding=\"utf-8\") as file:\n", + " data = file.read().split(\"\\n\\n\")\n", + "\n", + "with open(train_path, mode=\"w\", encoding=\"utf-8\") as f:\n", + " f.write(\"\".join(data))" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": { + "id": "ulVcdoROGyy2" + }, + "outputs": [], + "source": [ + "train_dataset = TextDataset(tokenizer=tokenizer, file_path=train_path, block_size=128) # Создание датасета\n", + "data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False) # Создание даталодера (нарезает текст на оптимальные по длине куски)" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": { + "id": "nTkPLolOGzqH" + }, + "outputs": [], + "source": [ + "\n", + "training_args = TrainingArguments(\n", + " output_dir=\"./finetuned\",\n", + " overwrite_output_dir=True,\n", + " num_train_epochs=15,\n", + " per_device_train_batch_size=32,\n", + " per_device_eval_batch_size=32,\n", + " warmup_steps=10, # рекомендованные значения (warmup_steps нужен для \"разогрева\" сети, c его помощью learning rate постепенно увеличивается до заданного значения)\n", + " gradient_accumulation_steps=16, # рекомендованные значения\n", + ")\n", + "#(обычно мы хотим положить батч по-больше, чтобы сеть побыстрей сошлась, но мы ограничены памятью gpu, gradient_accumulation_steps накапливает (суммирует или усредняет) градиенты за прогон на 16 батчах )\n", + "\n", + "trainer = Trainer(\n", + " model=model,\n", + " args=training_args,\n", + " data_collator=data_collator,\n", + " train_dataset=train_dataset,\n", + " optimizers=(\n", + " torch.optim.AdamW(model.parameters(), lr=1e-5), # рекомендованные значения\n", + " None,\n", + " ),\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "MN4IUz0cG06R" + }, + "source": [ + "# Эта ячейка займет около 15-20 минут" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "Wkb6QEgiHzUv" + }, + "source": [ + "Добавил тут переменную, откуда потом берется лосс с трейна и считается перплексия." + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "MIDjczLBG1x4", + "outputId": "4cd93a79-50a4-4f67-dc0d-1736a9055395" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "{'train_runtime': 512.7748, 'train_samples_per_second': 43.499, 'train_steps_per_second': 0.059, 'train_loss': 4.064910634358724, 'epoch': 10.21}\n" + ] + } + ], + "source": [ + "output = trainer.train() # Дообучаем трансформер на наши тексты" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "jGSF1YRpHzUw", + "outputId": "76ecac12-dd33-4005-d1bd-4a6e27a0f74e" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "perplexity: 58.25970187428917\n" + ] + } + ], + "source": [ + "print('perplexity: ', np.exp(output.training_loss)) #расчет перплексии" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "CssQW8rLHzUx" + }, + "source": [ + "### Вопрос 10\n", + "Какое значение перплексии получилось у трансформера?\n", + "\n", + "Какое значение перплексии получалось у рекуррентной сети?\n", + "\n", + "Почему у рекуррентной сети значение было существенно ниже, но качество текстов хуже? Почему нельзя сравнивать значения для рекуррентной сети и трансформера?\n" + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ZEG2FYNsG4oy", + "outputId": "0bad01e8-fb2a-4a34-c1ba-39dd01017a66" + }, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\n", + "Теория автоматического управления - лучший предмет,\n", + "Когда в нем все подчинено закону. \n", + "\n", + "И только законы в нем\n", + "Ошибки и воры\n", + "Так искусно ведут против\n", + "Нимфы его дела;\n", + "Они как раз в ней с самого начала\n", + "Узрели: человек есть душа,\n", + "Коли вдруг он не становится ни грешным,\n", + "Ни преступником,\n", + "Ни преступником.\n", + "\n", + "Он как будто в ней живет,\n", + "И в ней дух живет,\n", + "В ней свет есть для всех он,\n", + "Она его питает,\n", + "Она о нем поет.\n", + "\n", + "Но для него ничего не значит\n", + "Свой день, свои жертвы,\n", + "Он не может быть свободен,\n", + "И он ни над кем не властен:\n", + "В нем весь ход земного рая\n", + "В нем его предел.\n", + "\n", + "Он хочет жить, он хочет умереть,\n", + "Готов он ко всему и не может\n", + "Предать себя сомненьем;\n", + "В нем человек в конце концов\n", + "Перестает жить и для себя.\n", + "Ведь он же человек,\n", + "Он ведь даже в своем законе\n", + "Омертвляет грех силою мысли.\n", + "\n", + "Но все напрасно: с нею человек живет:\n", + "И в нем живет она со своей душой.\n", + "Но\n" + ] + } + ], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "model.eval()\n", + "with torch.no_grad():\n", + " out = model.generate(\n", + " input_ids,\n", + " do_sample=True, # sample strategy\n", + " temperature=1.0,\n", + " max_length=256,\n", + " pad_token_id=512 # указываем id токена\n", + " )\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))[0]\n", + "print()\n", + "print(generated_text)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "kK91Afxmqsnr" + }, + "source": [ + "### Вопрос 11\n", + "Проверьте работу ячейки выше для разных стартовых фраз и разных параметров `temperature`, `max_length`, `do_sample` и объясните, за что отвечает каждый из параметров. Подберите (субъективно) лучшие" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "URWWyeN_G92m" + }, + "source": [ + "# Beam Search\n", + "До этого мы использовали обычный \"жадный\" поиск\n", + "\n", + "![](https://huggingface.co/blog/assets/02_how-to-generate/greedy_search.png)\n", + "\n", + "Для каждого слова следующим считали _наиболее вероятное_.\n", + "Но, возможно, пройдя по не самому вероятному слову, в итоге мы получим более вероятную __последовательность__ слов, чем при жадном алгоритме.\n", + "Такой подход называется Beam search.\n", + "\n", + "![](https://huggingface.co/blog/assets/02_how-to-generate/beam_search.png)\n", + "\n", + "[подробнее тут](https://huggingface.co/blog/how-to-generate)\n", + "\n", + "Для использования Beam search передадим в функцию генерации параметр `num_beams` который характеризует количество рассматриваемых \"альтернативных\" путей" + ] + }, + { + "cell_type": "code", + "execution_count": 105, + "metadata": { + "id": "f5qj2KVoG56d" + }, + "outputs": [], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "model.eval()\n", + "with torch.no_grad():\n", + " out = model.generate(\n", + " input_ids,\n", + " do_sample=False,\n", + " max_new_tokens=75,\n", + " no_repeat_ngram_size=3, # устанавливает вероятность 0 для повторяющихся n-gram (таким образом решается проблема зацикливания)\n", + " pad_token_id=512,\n", + " num_beams=5,\n", + " num_return_sequences=5, # количество возвращенных сгенерированных текстов отранжированных по вероятности после beam_search\n", + " top_p=0.9, #\n", + " top_k=20, #\n", + " temperature=2.0 #\n", + " )\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))\n" + ] + }, + { + "cell_type": "code", + "source": [ + "# Выведем _num_return_sequences_ сгенерированных текстов\n", + "for i, seq in enumerate(generated_text):\n", + " print(f\"Applicant {i}\", seq, \"\\n\", sep=\"\\n\")" + ], + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "af8foFo1f6Hj", + "outputId": "0f5328b9-201b-486a-b569-30ce7715278a" + }, + "execution_count": 106, + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "Applicant 0\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, и другого.\n", + "\n", + "\n", + "\n", + "Applicant 1\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, что знаю я.\n", + "\n", + "\n", + "Applicant 2\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И то, и другое.\n", + "\n", + "\n", + "\n", + "Applicant 3\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, чего не знаю я\n", + "\n", + "\n", + "Applicant 4\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И то, чего не знаю я\n", + "\n", + "\n" + ] + } + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "AWJBlaMSHzU0" + }, + "source": [ + " Дополнительно можно изучить смысл параметров top_p и top_k [по ссылке](https://huggingface.co/blog/how-to-generate)\n", + "\n", + "Опробуйте разные значения параметров, какая схема выборки получилась лучше?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "NgxotZZrHBLI" + }, + "source": [ + "Сохранить модель при необходимости:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "H8CjiUvzHBn2" + }, + "outputs": [], + "source": [ + "#torch.save(model, \"gpt2_finetune.torch\")\n", + "#mod = torch.load(\"gpt2_finetune.torch\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "8Cn991FqHzU3" + }, + "source": [ + "### Вопрос 12\n", + "Вместо вывода добавьте лучший сгенерированый текст за лабораторную работу и напишите при какой архитектуре и при каких параметрах он получен:\n", + "\n", + "Например: tuned gpt3 with params:\n", + "\n", + "* do_sample=True,\n", + "* max_new_tokens=80,\n", + "* no_repeat_ngram_size=3,\n", + "* ...\n", + "\n", + "\n", + "В мире, где порядок стремится к хаосу,\n", + "\n", + "Теория управления - свет во тьме.\n", + "\n", + "Автоматы, системы, в них неспроста\n", + "\n", + "Скрыт закон, управляющий временем.\n", + "\n", + "\n", + "Регуляторы, обратные связи,\n", + "\n", + "В этом мире - как волшебный ключ.\n", + "\n", + "С их помощью мы можем, без отказа,\n", + "\n", + "Двигать системы, чьё движенье - дым.\n", + "\n", + "\n", + "\n", + "В каждом узле, в каждом переходе\n", + "\n", + "Скрыта струна, что звучит на удивление чисто.\n", + "\n", + "ТАУ нас учит, как в море перемен,\n", + "\n", + "Найти путь, где устойчивость - не миф, а быль." + ] + }, + { + "cell_type": "markdown", + "source": [ + "# Контрольные вопросы\n", + "1. В чем особенность рекуррентных нейронных сетей?\n", + "1. Типы рекуррентных сетей - обычная RNN\n", + "1. Типы рекуррентных сетей - LSTM\n", + "1. Типы рекуррентных сетей - GRU\n", + "1. Что такое и как вычисляется перплексия\n", + "1. Что такое \"предобученная\" модель и для чего ее нужно \"дообучать\"?\n" + ], + "metadata": { + "id": "Lmhlmlk5lTD3" + } + }, + { + "cell_type": "code", + "source": [], + "metadata": { + "id": "Ia7mf_pIlpKe" + }, + "execution_count": null, + "outputs": [] + } + ], + "metadata": { + "accelerator": "GPU", + "colab": { + "gpuType": "T4", + "provenance": [], + "toc_visible": true + }, + "kernelspec": { + "display_name": "Python 3", + "name": "python3" + }, + "language_info": { + "name": "python" + } + }, + "nbformat": 4, + "nbformat_minor": 0 +} \ No newline at end of file diff --git a/labs/OATD_LR4.md b/labs/OATD_LR4.md deleted file mode 100644 index d23d063..0000000 --- a/labs/OATD_LR4.md +++ /dev/null @@ -1,46 +0,0 @@ -# Лабораторная работа №4. Использование нейронных сетей для генерации текста - -## Цель работы - -Получить практические навыки решения задачи генерации текста. - -## Задание - -1. Загрузить выборку стихотворений одного из поэтов в соответствии с вариантом. -2. Познакомиться с данными. Проанализировать статистические характеристики исходных данных (среднюю длину стихотворения, среднюю длину строки). -3. Подготовить выборку для обучения. -4. Построить нейронную сеть. Тип ячейки RNN выбрать в соответствии с вариантом. -5. Обучить нейронную сеть на разных количествах эпох (5, 15, 30, 50, 70) при зафиксированных параметрах embedding_dim = 256, rnn_units = 300, T = 0.3 и сравнить результаты генерации (тексты), перплексию и статистические характеристики сгенерированных текстов. Выбрать оптимальное количество эпох -7. Изменяя параметр температуры T проанализировать изменения сгенерированного текста. Выбрать оптимальное значение параметра. -8. Проанализировать зависимость перплексии, скорости обучения, результатов генерации от параметров нейронной сети embedding_dim, rnn_units: -embedding_dim = {vocab/4, vocab/2, vocab, vocab * 2, vocab * 4}, где vocab = размер словаря выборки. -rnn_units = {10, 100, 300, 500} - -## Указания - -Для работы рекомендуется вместо Jupyter Notebook использовать [Google Colab](https://colab.research.google.com/) и среду с GPU для ускорения расчетов. Для установки среды, использующей GPU в Google Colab нужно -выбрать пункт меню "Среда выполнения" -> "Сменить среду выполнения" -> выбрать аппаратный ускоритель "GPU". - -## Варианты заданий - -### Поэт - -Четные номера по журналу - Пушкин, нечетные - Маяковский. - -### Тип ячейки RNN - -Остаток от деления номера по журналу на 3: -* 0 - https://keras.io/api/layers/recurrent_layers/simple_rnn/ -* 1 - https://keras.io/api/layers/recurrent_layers/lstm/ -* 2 - https://keras.io/api/layers/recurrent_layers/gru/ - -## Контрольные вопросы - -1. В чем особенность рекуррентных нейронных сетей? -2. Типы рекуррентных сетей - обычная RNN -3. Типы рекуррентных сетей - LSTM -4. Типы рекуррентных сетей - GRU -5. Что такое и как вычисляется перплексия - - - diff --git a/labs/OATD_LR4_metod.ipynb b/labs/OATD_LR4_metod.ipynb deleted file mode 100644 index d7d453e..0000000 --- a/labs/OATD_LR4_metod.ipynb +++ /dev/null @@ -1,1854 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": { - "id": "srXC6pLGLwS6" - }, - "source": [ - "# Загрузка библиотек" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": { - "id": "yG_n40gFzf9s" - }, - "outputs": [], - "source": [ - "import tensorflow as tf\n", - "from sklearn.model_selection import train_test_split\n", - "import numpy as np\n", - "import pandas as pd\n", - "import os\n", - "import time\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "При использовании Google Colab следуюет выбрать среду выполнения с аппаратным ускорителем GPU, что существенно ускорит расчеты. При этом, следующая ячейка должна возвращать текст, похожий на \"Found GPU at: /device:GPU:0\" " - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "LshgkZ0cIOor", - "outputId": "903898c0-4205-47d7-a6e3-ca22e79ffba9" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Found GPU at: \n" - ] - } - ], - "source": [ - "device_name = tf.test.gpu_device_name()\n", - "print('Found GPU at: {}'.format(device_name))" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": { - "id": "vWkRnHV0DK0L" - }, - "outputs": [], - "source": [ - "RANDOM_STATE = 42" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "EW8HRqz8Oz_b" - }, - "source": [ - "# Данные" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "UHjdCjDuSvX_" - }, - "source": [ - "## Загрузка данных\n" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": { - "id": "pP1Ou4nq_W1o" - }, - "outputs": [], - "source": [ - "# Выбираем поэта\n", - "poet = 'pushkin' #@param ['mayakovskiy', 'pushkin']\n", - "\n", - "path_to_file = f'{poet}.txt'\n", - "path_to_file = tf.keras.utils.get_file(path_to_file, f'http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/{path_to_file}')" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "aavnuByVymwK", - "outputId": "1c4c379c-ab1e-4b84-939c-66a7471c0210" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Length of text: 586731 characters\n" - ] - } - ], - "source": [ - "# Загружаем текст из файла.\n", - "# Стихотворения в файле разделены токеном '' - сохраняем в переменную\n", - "with open(path_to_file,encoding = \"utf-8\") as f:\n", - " text = f.read()\n", - "\n", - "print(f'Length of text: {len(text)} characters')\n", - "\n", - "EOS_TOKEN = ''" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "Duhg9NrUymwO", - "outputId": "8f485753-1712-47a4-c328-a4a714ec0ea4" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Так и мне узнать случилось,\n", - "Что за птица Купидон;\n", - "Сердце страстное пленилось;\n", - "Признаюсь – и я влюблен!\n", - "Пролетело счастья время,\n", - "Как, любви не зная бремя,\n", - "Я живал да попевал,\n", - "Как в театре и на балах,\n", - "На гуляньях иль в воксалах\n", - "Легким зефиром летал;\n", - "Как, смеясь во зло Амуру,\n", - "Я писал карикатуру\n", - "На любезный женской пол;\n", - "Но напрасно я смеялся,\n", - "Наконец и сам попался,\n", - "Сам, увы! с ума сошел.\n", - "Смехи, вольность – всё под лавку\n", - "Из Катонов я в отставку,\n", - "И теперь я – Селадон!\n", - "Миловидной жрицы Тальи\n", - "Видел прел\n" - ] - } - ], - "source": [ - "# Посмотрим на текст\n", - "print(text[:500])" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "dLZNbAnzj2lR" - }, - "source": [ - "## Подсчет статистик\n", - "\n", - "describe_poems - функция, разбивающая файл на отдельные стихотворения (poem), и расчитывающая их характиеристики:\n", - "* длину (len), \n", - "* количество строк (lines)\n", - "* среднюю длину строки (mean_line_len)" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "metadata": { - "id": "C7G_weaWnMSg" - }, - "outputs": [], - "source": [ - "def mean_line_len(poem):\n", - " lines = [len(line.strip()) for line in poem.split('\\n') if len(line.strip())>0]\n", - " return sum(lines)/len(lines)\n", - "\n", - "\n", - "def describe_poems(text,return_df = False):\n", - " poems_list = [poem.strip() for poem in text.split(EOS_TOKEN) if len(poem.strip())>0]\n", - " df = pd.DataFrame(data=poems_list,columns=['poem'])\n", - " df['len'] = df.poem.map(len)\n", - " df['lines'] = df.poem.str.count('\\n')\n", - " df['mean_line_len'] = df.poem.map(mean_line_len)\n", - " if return_df:\n", - " return df\n", - " return df.describe()" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/", - "height": 424 - }, - "id": "8t4QIKLgj8_y", - "outputId": "4ffe0325-70be-4a3f-9fd6-910be40e5dd3" - }, - "outputs": [ - { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
poemlenlinesmean_line_len
0Так и мне узнать случилось,\\nЧто за птица Купи...253610923.114286
1Хочу воспеть, как дух нечистый Ада\\nОседлан бы...554317033.372671
2Покаместь ночь еще не удалилась,\\nПокаместь св...427913133.451613
3Ах, отчего мне дивная природа\\nКорреджио искус...443513133.364341
4Арист! и ты в толпе служителей Парнасса!\\nТы х...389310638.642857
...............
714Чудный сон мне бог послал —\\n\\nС длинной белой...8603822.833333
715О нет, мне жизнь не надоела,\\nЯ жить люблю, я ...196723.625000
716\"Твой и мой, – говорит Лафонтен —\\nРасторгло у...187530.333333
717Когда луны сияет лик двурогой\\nИ луч ее во мра...269732.750000
718Там, устарелый вождь! как ратник молодой,\\nИск...256541.833333
\n", - "

719 rows × 4 columns

\n", - "
" - ], - "text/plain": [ - " poem len lines \\\n", - "0 Так и мне узнать случилось,\\nЧто за птица Купи... 2536 109 \n", - "1 Хочу воспеть, как дух нечистый Ада\\nОседлан бы... 5543 170 \n", - "2 Покаместь ночь еще не удалилась,\\nПокаместь св... 4279 131 \n", - "3 Ах, отчего мне дивная природа\\nКорреджио искус... 4435 131 \n", - "4 Арист! и ты в толпе служителей Парнасса!\\nТы х... 3893 106 \n", - ".. ... ... ... \n", - "714 Чудный сон мне бог послал —\\n\\nС длинной белой... 860 38 \n", - "715 О нет, мне жизнь не надоела,\\nЯ жить люблю, я ... 196 7 \n", - "716 \"Твой и мой, – говорит Лафонтен —\\nРасторгло у... 187 5 \n", - "717 Когда луны сияет лик двурогой\\nИ луч ее во мра... 269 7 \n", - "718 Там, устарелый вождь! как ратник молодой,\\nИск... 256 5 \n", - "\n", - " mean_line_len \n", - "0 23.114286 \n", - "1 33.372671 \n", - "2 33.451613 \n", - "3 33.364341 \n", - "4 38.642857 \n", - ".. ... \n", - "714 22.833333 \n", - "715 23.625000 \n", - "716 30.333333 \n", - "717 32.750000 \n", - "718 41.833333 \n", - "\n", - "[719 rows x 4 columns]" - ] - }, - "execution_count": 8, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "poem_df = describe_poems(text,return_df = True)\n", - "poem_df" - ] - }, - { - "cell_type": "code", - "execution_count": 9, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/", - "height": 300 - }, - "id": "TmCI6rv1f49T", - "outputId": "444fe362-1a5f-45b0-dc21-146c08e094cb" - }, - "outputs": [ - { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
lenlinesmean_line_len
count719.000000719.000000719.000000
mean808.03755229.46453427.445404
std1046.78686239.2440205.854564
min74.0000005.0000008.250000
25%280.5000009.00000024.125000
50%453.00000016.00000025.758065
75%852.00000033.00000031.522727
max8946.000000437.00000048.923077
\n", - "
" - ], - "text/plain": [ - " len lines mean_line_len\n", - "count 719.000000 719.000000 719.000000\n", - "mean 808.037552 29.464534 27.445404\n", - "std 1046.786862 39.244020 5.854564\n", - "min 74.000000 5.000000 8.250000\n", - "25% 280.500000 9.000000 24.125000\n", - "50% 453.000000 16.000000 25.758065\n", - "75% 852.000000 33.000000 31.522727\n", - "max 8946.000000 437.000000 48.923077" - ] - }, - "execution_count": 9, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "poem_df.describe()" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "rNnrKn_lL-IJ" - }, - "source": [ - "## Подготовка датасетов" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "3mOXOtj1FB1v" - }, - "source": [ - "Разбиваем данные на тренировочные, валидационные и тестовые" - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "metadata": { - "id": "MM5Rk7B8D1n-" - }, - "outputs": [], - "source": [ - "train_poems, test_poems = train_test_split(poem_df.poem.to_list(),test_size = 0.1,random_state = RANDOM_STATE)\n", - "train_poems, val_poems = train_test_split(train_poems,test_size = 0.1,random_state = RANDOM_STATE)\n", - "\n", - "train_poems = f'\\n\\n{EOS_TOKEN}\\n\\n'.join(train_poems)\n", - "val_poems = f'\\n\\n{EOS_TOKEN}\\n\\n'.join(val_poems)\n", - "test_poems = f'\\n\\n{EOS_TOKEN}\\n\\n'.join(test_poems)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "6QfP2RCpqdCS" - }, - "source": [ - "Создаем словарь уникальных символов из текста. Не забываем добавить токен конца стиха." - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "IlCgQBRVymwR", - "outputId": "a9769da4-3417-44e4-e491-cd1a09a51869" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "143 unique characters\n", - "['\\n', ' ', '!', '\"', \"'\", '(', ')', '*', ',', '-', '.', '/', ':', ';', '<', '>', '?', 'A', 'B', 'C', 'D', 'E', 'F', 'H', 'I', 'J', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'Z', '_', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'x', 'y', 'z', '\\xa0', '«', '»', 'à', 'â', 'ç', 'è', 'é', 'ê', 'ô', 'û', 'А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З', 'И', 'Й', 'К', 'Л', 'М', 'Н', 'О', 'П', 'Р', 'С', 'Т', 'У', 'Ф', 'Х', 'Ц', 'Ч', 'Ш', 'Щ', 'Э', 'Ю', 'Я', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я', 'ё', '–', '—', '„', '…', '']\n" - ] - } - ], - "source": [ - "vocab = sorted(set(text))+[EOS_TOKEN]\n", - "print(f'{len(vocab)} unique characters')\n", - "print (vocab)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "1s4f1q3iqY8f" - }, - "source": [ - "Для подачи на вход нейронной сети необходимо закодировать текст в виде числовой последовательности.\n", - "\n", - "Воспользуемся для этого слоем StringLookup \n", - "https://www.tensorflow.org/api_docs/python/tf/keras/layers/StringLookup" - ] - }, - { - "cell_type": "code", - "execution_count": 12, - "metadata": { - "id": "6GMlCe3qzaL9" - }, - "outputs": [], - "source": [ - "ids_from_chars = tf.keras.layers.StringLookup(\n", - " vocabulary=list(vocab), mask_token=None)\n", - "chars_from_ids = tf.keras.layers.StringLookup(\n", - " vocabulary=ids_from_chars.get_vocabulary(), invert=True, mask_token=None)\n", - "\n", - "def text_from_ids(ids):\n", - " return tf.strings.reduce_join(chars_from_ids(ids), axis=-1).numpy().decode('utf-8')\n", - " \n", - "def ids_from_text(text):\n", - " return ids_from_chars(tf.strings.unicode_split(text, input_encoding='UTF-8'))\n" - ] - }, - { - "cell_type": "code", - "execution_count": 13, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "Wd2m3mqkDjRj", - "outputId": "88ebef4b-6488-465e-d2f7-612e27efc0d2" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Корабль испанский тр\n", - "tf.Tensor(\n", - "[ 87 120 122 106 107 117 134 2 114 123 121 106 119 123 116 114 115 2\n", - " 124 122], shape=(20,), dtype=int64)\n", - "Корабль испанский тр\n" - ] - } - ], - "source": [ - "# пример кодирования\n", - "ids = ids_from_text(train_poems[:20])\n", - "res_text = text_from_ids(ids)\n", - "print(train_poems[:20],ids,res_text,sep = '\\n')" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "uzC2u022WHsa" - }, - "source": [ - "Кодируем данные и преобразуем их в Датасеты" - ] - }, - { - "cell_type": "code", - "execution_count": 14, - "metadata": { - "id": "UopbsKi88tm5" - }, - "outputs": [], - "source": [ - "train_ids = ids_from_text(train_poems)\n", - "val_ids = ids_from_text(val_poems)\n", - "test_ids = ids_from_text(test_poems)\n", - "\n", - "train_ids_dataset = tf.data.Dataset.from_tensor_slices(train_ids)\n", - "val_ids_dataset = tf.data.Dataset.from_tensor_slices(val_ids)\n", - "test_ids_dataset = tf.data.Dataset.from_tensor_slices(test_ids)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "-ZSYAcQV8OGP" - }, - "source": [ - "Весь текст разбивается на последовательности длины `seq_length`. По этим последовательностям будет предсказываться следующий символ.\n", - "\n", - "**Попробовать разные длины - среднюю длину строки, среднюю длину стиха**" - ] - }, - { - "cell_type": "code", - "execution_count": 15, - "metadata": { - "id": "C-G2oaTxy6km" - }, - "outputs": [], - "source": [ - "seq_length = 100\n", - "examples_per_epoch = len(train_ids_dataset)//(seq_length+1)" - ] - }, - { - "cell_type": "code", - "execution_count": 16, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "BpdjRO2CzOfZ", - "outputId": "515651a7-765d-4bbf-9e90-8eb9a9380759" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Корабль испанский трехмачтовый,\n", - "Пристать в Голландию готовый:\n", - "На нем мерзавцев сотни три,\n", - "Две обезьян\n" - ] - } - ], - "source": [ - "train_sequences = train_ids_dataset.batch(seq_length+1, drop_remainder=True)\n", - "val_sequences = val_ids_dataset.batch(seq_length+1, drop_remainder=True)\n", - "test_sequences = test_ids_dataset.batch(seq_length+1, drop_remainder=True)\n", - "\n", - "for seq in train_sequences.take(1):\n", - " print(text_from_ids(seq))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "UbLcIPBj_mWZ" - }, - "source": [ - "Создаем датасет с input и target строками\n", - "\n", - "target сдвинута относительно input на один символ.\n" - ] - }, - { - "cell_type": "code", - "execution_count": 17, - "metadata": { - "id": "9NGu-FkO_kYU" - }, - "outputs": [], - "source": [ - "def split_input_target(sequence):\n", - " input_text = sequence[:-1]\n", - " target_text = sequence[1:]\n", - " return input_text, target_text" - ] - }, - { - "cell_type": "code", - "execution_count": 18, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "WxbDTJTw5u_P", - "outputId": "f44e70c6-b600-4fb3-8073-ba8d774d8832" - }, - "outputs": [ - { - "data": { - "text/plain": [ - "(['П', 'у', 'ш', 'к', 'и'], ['у', 'ш', 'к', 'и', 'н'])" - ] - }, - "execution_count": 18, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "# пример\n", - "split_input_target(list(\"Пушкин\"))" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "metadata": { - "id": "B9iKPXkw5xwa" - }, - "outputs": [], - "source": [ - "train_dataset = train_sequences.map(split_input_target)\n", - "val_dataset = val_sequences.map(split_input_target)\n", - "test_dataset = test_sequences.map(split_input_target)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 20, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "GNbw-iR0ymwj", - "outputId": "888b397b-5370-4ae4-d2ba-98d54595ee72" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Input : Прими сей череп, Дельвиг, он\n", - "Принадлежит тебе по праву.\n", - "Тебе поведаю, барон,\n", - "Его готическую славу.\n", - "\n", - "\n", - "Target: рими сей череп, Дельвиг, он\n", - "Принадлежит тебе по праву.\n", - "Тебе поведаю, барон,\n", - "Его готическую славу.\n", - "\n", - "П\n" - ] - } - ], - "source": [ - "for input_example, target_example in val_dataset.take(1):\n", - " print(\"Input :\", text_from_ids(input_example))\n", - " print(\"Target:\", text_from_ids(target_example))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "MJdfPmdqzf-R" - }, - "source": [ - "Перемешиваем датасеты и разбиваем их на батчи для оптимизации обучения" - ] - }, - { - "cell_type": "code", - "execution_count": 21, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "p2pGotuNzf-S", - "outputId": "d9ae90cb-d904-4528-d0ed-eb11caeb43d3" - }, - "outputs": [ - { - "data": { - "text/plain": [ - "" - ] - }, - "execution_count": 21, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "# Batch size\n", - "BATCH_SIZE = 64\n", - "\n", - "BUFFER_SIZE = 10000\n", - "\n", - "def prepare_dataset(dataset):\n", - " dataset = (\n", - " dataset\n", - " .shuffle(BUFFER_SIZE)\n", - " .batch(BATCH_SIZE, drop_remainder=True)\n", - " .prefetch(tf.data.experimental.AUTOTUNE))\n", - " return dataset \n", - "\n", - "train_dataset = prepare_dataset(train_dataset)\n", - "val_dataset = prepare_dataset(val_dataset)\n", - "test_dataset = prepare_dataset(test_dataset)\n", - "\n", - "train_dataset" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "r6oUuElIMgVx" - }, - "source": [ - "# Нейросеть" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "22uVCbSyPBjD" - }, - "source": [ - "## Построение модели" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "m8gPwEjRzf-Z" - }, - "source": [ - "Модель состоит из трех слоев\n", - "\n", - "* `tf.keras.layers.Embedding`: Входной слой. Кодирует каждый идентификатор символа в вектор размерностью `embedding_dim`; \n", - "* `tf.keras.layers.GRU`: Рекуррентный слой на ячейках GRU. Выходной вектор размерностью `units=rnn_units` **(Здесь нужно указать тип ячеек в соответствии с вариантом)**\n", - "* `tf.keras.layers.Dense`: Выходной полносвязный слой размерностью `vocab_size`, в который выводится вероятность каждого символа в словаре. \n" - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "metadata": { - "id": "zHT8cLh7EAsg" - }, - "outputs": [], - "source": [ - "# Длина словаря символов\n", - "vocab_size = len(vocab)\n", - "\n", - "# размерность Embedding'а\n", - "embedding_dim = 20 #@param{type:\"number\"}\n", - "\n", - "# Параметры RNN-слоя\n", - "rnn_units = 300 #@param {type:\"number\"}\n", - "dropout_p = 0.5" - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "metadata": { - "id": "wj8HQ2w8z4iO" - }, - "outputs": [], - "source": [ - "class MyModel(tf.keras.Model):\n", - " def __init__(self, vocab_size, embedding_dim, rnn_units):\n", - " super().__init__(self)\n", - " self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)\n", - " self.gru = tf.keras.layers.GRU(rnn_units,\n", - " dropout = dropout_p,\n", - " return_sequences=True,\n", - " return_state=True)\n", - " self.dense = tf.keras.layers.Dense(vocab_size)\n", - "\n", - " def call(self, inputs, states=None, return_state=False, training=False):\n", - " x = inputs\n", - " x = self.embedding(x, training=training)\n", - " \n", - " if states is None:\n", - " states = self.gru.get_initial_state(x)\n", - "\n", - " x, *states = self.gru(x, initial_state=states, training=training)\n", - " x = self.dense(x, training=training)\n", - "\n", - " if return_state:\n", - " return x, states\n", - " else:\n", - " return x" - ] - }, - { - "cell_type": "code", - "execution_count": 24, - "metadata": { - "id": "IX58Xj9z47Aw" - }, - "outputs": [], - "source": [ - "model = MyModel(\n", - " vocab_size=len(ids_from_chars.get_vocabulary()),\n", - " embedding_dim=embedding_dim,\n", - " rnn_units=rnn_units)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "RkA5upJIJ7W7" - }, - "source": [ - "Иллюстрация работы сети\n", - "\n", - "![A drawing of the data passing through the model](https://github.com/tensorflow/text/blob/master/docs/tutorials/images/text_generation_training.png?raw=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "LdgaUC3tPHAy" - }, - "source": [ - "## Проверка необученой модели" - ] - }, - { - "cell_type": "code", - "execution_count": 25, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "C-_70kKAPrPU", - "outputId": "02de9cf7-29d5-4345-8e02-b8c940ca5c1a" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "(64, 100, 144) # (batch_size, sequence_length, vocab_size)\n" - ] - } - ], - "source": [ - "# посмотрим на один батч из датасета\n", - "for input_example_batch, target_example_batch in train_dataset.take(1):\n", - " example_batch_predictions = model(input_example_batch)\n", - " print(example_batch_predictions.shape, \"# (batch_size, sequence_length, vocab_size)\")\n" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "uwv0gEkURfx1" - }, - "source": [ - "prediction() предсказывает логиты вероятности каждого символа на следующей позиции. При этом, если мы будем выбирать символ с максимальной вероятностью, то из раза в раз модель нам будет выдавать один и тот же текст. \n", - "Чтобы этого избежать, нужно выбирать очередной индекс из распределения\n", - "`tf.random.categorical` - чем выше значение на выходном слое полносвязной сети, тем вероятнее, что данный символ будет выбран в качестве очередного. Однако, это не обязательно будет символ с максимальной вероятностью.\n" - ] - }, - { - "cell_type": "code", - "execution_count": 26, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "W6_G5P7W1TrE", - "outputId": "5fdc06a0-9be3-42b4-8054-454e997586ee" - }, - "outputs": [ - { - "data": { - "text/plain": [ - "" - ] - }, - "execution_count": 26, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "example_batch_predictions[0][0]\n" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "0yJ5Je4J1XRb" - }, - "source": [ - "![image.png]()" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "UuAT_ymD15U7" - }, - "source": [ - "На картинке отмечены наиболее вероятные символы." - ] - }, - { - "cell_type": "code", - "execution_count": 27, - "metadata": { - "id": "4V4MfFg0RQJg" - }, - "outputs": [], - "source": [ - "sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)\n", - "sampled_indices = tf.squeeze(sampled_indices, axis=-1).numpy()" - ] - }, - { - "cell_type": "code", - "execution_count": 28, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "YqFMUQc_UFgM", - "outputId": "1842194b-d7d7-4702-bca5-6b03f04b9432" - }, - "outputs": [ - { - "data": { - "text/plain": [ - "array([103, 2, 125, 127, 46, 128, 85, 84, 14, 37, 55, 7, 129,\n", - " 123, 72, 38, 138, 88, 116, 125, 142, 109, 110, 131, 21, 29,\n", - " 15, 99, 118, 48, 15, 143, 106, 139, 28, 115, 119, 8, 41,\n", - " 55, 138, 68, 130, 133, 135, 4, 114, 10, 62, 130, 120, 47,\n", - " 119, 16, 87, 71, 32, 111, 121, 85, 13, 87, 87, 75, 25,\n", - " 91, 41, 83, 51, 106, 100, 133, 3, 9, 37, 36, 103, 61,\n", - " 2, 79, 136, 56, 99, 101, 20, 143, 70, 117, 60, 43, 6,\n", - " 49, 51, 15, 85, 115, 113, 138, 23, 89], dtype=int64)" - ] - }, - "execution_count": 28, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "sampled_indices" - ] - }, - { - "cell_type": "code", - "execution_count": 29, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "xWcFwPwLSo05", - "outputId": "bed36421-88f9-429f-a9cd-099717127029" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Input:\n", - " же прошли. Их мненья, толки, страсти\n", - "Забыты для других. Смотри: вокруг тебя\n", - "Всё новое кипит, былое и\n", - "\n", - "Next Char Predictions:\n", - " Э ухfцИЗ;Vo)чсèWёЛку…гдщDN<Цмh<а–Mйн*aoё»шыэ\"и-vшоgн>КçQепИ:ККôIОaЖkаЧы!,VUЭu ВюpЦШCâлtc(ik<ИйзёFМ\n" - ] - } - ], - "source": [ - "print(\"Input:\\n\", text_from_ids(input_example_batch[0]))\n", - "print()\n", - "print(\"Next Char Predictions:\\n\", text_from_ids(sampled_indices))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "LJL0Q0YPY6Ee" - }, - "source": [ - "## Обучение модели" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "YCbHQHiaa4Ic" - }, - "source": [ - "\n", - "Можно представить задачу как задачу классификации - по предыдущему состоянию RNN и входу в данный момент времени предсказать класс (очередной символ). " - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "trpqTWyvk0nr" - }, - "source": [ - "### Настройка оптимизатора и функции потерь" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "UAjbjY03eiQ4" - }, - "source": [ - "В этом случае работает стандартная функция потерь `tf.keras.losses.sparse_categorical_crossentropy`- кроссэнтропия, которая равна минус логарифму предсказанной вероятности для верного класса.\n", - "\n", - "Поскольку модель возвращает логиты, вам необходимо установить флаг `from_logits`." - ] - }, - { - "cell_type": "code", - "execution_count": 30, - "metadata": { - "id": "ZOeWdgxNFDXq" - }, - "outputs": [], - "source": [ - "loss = tf.losses.SparseCategoricalCrossentropy(from_logits=True)" - ] - }, - { - "cell_type": "code", - "execution_count": 31, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "4HrXTACTdzY-", - "outputId": "f0dbf6f2-738e-48f8-df7c-0bbf60fc17e4" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Prediction shape: (64, 100, 144) # (batch_size, sequence_length, vocab_size)\n", - "Mean loss: tf.Tensor(4.970122, shape=(), dtype=float32)\n" - ] - } - ], - "source": [ - "example_batch_mean_loss = loss(target_example_batch, example_batch_predictions)\n", - "print(\"Prediction shape: \", example_batch_predictions.shape, \" # (batch_size, sequence_length, vocab_size)\")\n", - "print(\"Mean loss: \", example_batch_mean_loss)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "vkvUIneTFiow" - }, - "source": [ - "Необученная модель не может делать адекватные предсказания. Ее перплексия («коэффициент неопределённости») приблизительно равна размеру словаря. Это говорит о полной неопределенности модели при генерации текста.\n", - "\n", - "Перплексия = exp(кроссэнтропия)" - ] - }, - { - "cell_type": "code", - "execution_count": 32, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "MAJfS5YoFiHf", - "outputId": "0588a9b2-8598-458f-db1d-6923e6a50502" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "perplexity: 144.04443\n" - ] - } - ], - "source": [ - "print('perplexity: ',np.exp(example_batch_mean_loss))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "jeOXriLcymww" - }, - "source": [ - "Настраиваем обучение, используя метод `tf.keras.Model.compile`. Используйте `tf.keras.optimizers.Adam` с аргументами по умолчанию и функцией потерь." - ] - }, - { - "cell_type": "code", - "execution_count": 33, - "metadata": { - "id": "DDl1_Een6rL0" - }, - "outputs": [], - "source": [ - "model.compile(optimizer='adam', loss=loss)" - ] - }, - { - "cell_type": "code", - "execution_count": 34, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "vPGmAAXmVLGC", - "outputId": "1399a58c-85ff-430d-f67f-942942dec071" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: \"my_model\"\n", - "_________________________________________________________________\n", - " Layer (type) Output Shape Param # \n", - "=================================================================\n", - " embedding (Embedding) multiple 2880 \n", - " \n", - " gru (GRU) multiple 289800 \n", - " \n", - " dense (Dense) multiple 43344 \n", - " \n", - "=================================================================\n", - "Total params: 336,024\n", - "Trainable params: 336,024\n", - "Non-trainable params: 0\n", - "_________________________________________________________________\n" - ] - } - ], - "source": [ - "model.summary()" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "C6XBUUavgF56" - }, - "source": [ - "Используем `tf.keras.callbacks.ModelCheckpoint`, чтобы убедиться, что контрольные точки сохраняются во время обучения:" - ] - }, - { - "cell_type": "code", - "execution_count": 35, - "metadata": { - "id": "W6fWTriUZP-n" - }, - "outputs": [], - "source": [ - "# Directory where the checkpoints will be saved\n", - "checkpoint_dir = './training_checkpoints'\n", - "# Name of the checkpoint files\n", - "checkpoint_prefix = os.path.join(checkpoint_dir, \"ckpt_{epoch}\")\n", - "\n", - "checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(\n", - " filepath=checkpoint_prefix,\n", - " monitor=\"val_loss\",\n", - " save_weights_only=True,\n", - " save_best_only=True)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "3Ky3F_BhgkTW" - }, - "source": [ - "### Обучение!" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Обратим внимание, что перед очередным обучением нужно сбросить веса модели. Проще всего это сделать, заново объявив и скомпилировав модель:\n" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": {}, - "outputs": [ - { - "ename": "NameError", - "evalue": "name 'MyModel' is not defined", - "output_type": "error", - "traceback": [ - "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", - "\u001b[1;31mNameError\u001b[0m Traceback (most recent call last)", - "Cell \u001b[1;32mIn[1], line 1\u001b[0m\n\u001b[1;32m----> 1\u001b[0m model \u001b[38;5;241m=\u001b[39m \u001b[43mMyModel\u001b[49m(\n\u001b[0;32m 2\u001b[0m vocab_size\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mlen\u001b[39m(ids_from_chars\u001b[38;5;241m.\u001b[39mget_vocabulary()),\n\u001b[0;32m 3\u001b[0m embedding_dim\u001b[38;5;241m=\u001b[39membedding_dim,\n\u001b[0;32m 4\u001b[0m rnn_units\u001b[38;5;241m=\u001b[39mrnn_units)\n\u001b[0;32m 5\u001b[0m model\u001b[38;5;241m.\u001b[39mcompile(optimizer\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124madam\u001b[39m\u001b[38;5;124m'\u001b[39m, loss\u001b[38;5;241m=\u001b[39mloss)\n", - "\u001b[1;31mNameError\u001b[0m: name 'MyModel' is not defined" - ] - } - ], - "source": [ - "model = MyModel(\n", - " vocab_size=len(ids_from_chars.get_vocabulary()),\n", - " embedding_dim=embedding_dim,\n", - " rnn_units=rnn_units)\n", - "model.compile(optimizer='adam', loss=loss)" - ] - }, - { - "cell_type": "code", - "execution_count": 36, - "metadata": { - "id": "7yGBE2zxMMHs" - }, - "outputs": [], - "source": [ - "EPOCHS = 5" - ] - }, - { - "cell_type": "code", - "execution_count": 37, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "UK-hmKjYVoll", - "outputId": "4403459e-c93d-4361-b6b4-d4f4a29797e5" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Epoch 1/5\n", - "72/72 [==============================] - 24s 301ms/step - loss: 3.7387 - val_loss: 3.4320\n", - "Epoch 2/5\n", - "72/72 [==============================] - 22s 294ms/step - loss: 3.2194 - val_loss: 2.8863\n", - "Epoch 3/5\n", - "72/72 [==============================] - 22s 292ms/step - loss: 2.8698 - val_loss: 2.7059\n", - "Epoch 4/5\n", - "72/72 [==============================] - 23s 309ms/step - loss: 2.7643 - val_loss: 2.6365\n", - "Epoch 5/5\n", - "72/72 [==============================] - 24s 320ms/step - loss: 2.6941 - val_loss: 2.5800\n" - ] - } - ], - "source": [ - "history = model.fit(train_dataset, validation_data = val_dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])" - ] - }, - { - "cell_type": "code", - "execution_count": 38, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "UejMtXPmH-U0", - "outputId": "ec06daed-25a1-4ae3-9f9a-cd130e04c216" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "9/9 [==============================] - 1s 101ms/step - loss: 2.5769\n", - "eval loss: 2.576871871948242\n", - "perplexity 13.155920322524834\n" - ] - } - ], - "source": [ - "eval_loss = model.evaluate(test_dataset)\n", - "print('eval loss:',eval_loss)\n", - "print('perplexity',np.exp(eval_loss))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "kKkD5M6eoSiN" - }, - "source": [ - "## Генерация текста" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "oIdQ8c8NvMzV" - }, - "source": [ - "Самый простой способ сгенерировать текст с помощью этой модели — запустить ее в цикле и отслеживать внутреннее состояние модели по мере ее выполнения.\n", - "\n", - "![To generate text the model's output is fed back to the input](https://github.com/tensorflow/text/blob/master/docs/tutorials/images/text_generation_sampling.png?raw=1)\n", - "\n", - "Каждый раз, когда вы вызываете модель, вы передаете некоторый текст и внутреннее состояние. Модель возвращает прогноз для следующего символа и его нового состояния. Передайте предсказание и состояние обратно, чтобы продолжить создание текста.\n" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "DjGz1tDkzf-u" - }, - "source": [ - "Создаем модель реализующую один шаг предсказания:" - ] - }, - { - "cell_type": "code", - "execution_count": 39, - "metadata": { - "id": "iSBU1tHmlUSs" - }, - "outputs": [], - "source": [ - "class OneStep(tf.keras.Model):\n", - " def __init__(self, model, chars_from_ids, ids_from_chars, temperature=1.0):\n", - " super().__init__()\n", - " self.temperature = temperature\n", - " self.model = model\n", - " self.chars_from_ids = chars_from_ids\n", - " self.ids_from_chars = ids_from_chars\n", - "\n", - " # Create a mask to prevent \"[UNK]\" from being generated.\n", - " skip_ids = self.ids_from_chars(['[UNK]'])[:, None]\n", - " sparse_mask = tf.SparseTensor(\n", - " # Put a -inf at each bad index.\n", - " values=[-float('inf')]*len(skip_ids),\n", - " indices=skip_ids,\n", - " # Match the shape to the vocabulary\n", - " dense_shape=[len(ids_from_chars.get_vocabulary())])\n", - " self.prediction_mask = tf.sparse.to_dense(sparse_mask)\n", - "\n", - " \n", - " # Этот фрагмент целиком написан с использованием Tensorflow, поэтому его можно выполнять \n", - " # не с помощью интерпретатора языка Python, а через граф операций. Это будет значительно быстрее. \n", - " # Для этого воспользуемся декоратором @tf.function \n", - " @tf.function \n", - " def generate_one_step(self, inputs, states=None,temperature=1.0):\n", - " # Convert strings to token IDs.\n", - " input_chars = tf.strings.unicode_split(inputs, 'UTF-8')\n", - " input_ids = self.ids_from_chars(input_chars).to_tensor()\n", - "\n", - " # Run the model.\n", - " # predicted_logits.shape is [batch, char, next_char_logits]\n", - " predicted_logits, states = self.model(inputs=input_ids, states=states,\n", - " return_state=True)\n", - " # Only use the last prediction.\n", - " predicted_logits = predicted_logits[:, -1, :]\n", - " predicted_logits = predicted_logits/temperature\n", - " # Apply the prediction mask: prevent \"[UNK]\" from being generated.\n", - " predicted_logits = predicted_logits + self.prediction_mask\n", - "\n", - " # Sample the output logits to generate token IDs.\n", - " predicted_ids = tf.random.categorical(predicted_logits, num_samples=1)\n", - " predicted_ids = tf.squeeze(predicted_ids, axis=-1)\n", - "\n", - " # Convert from token ids to characters\n", - " predicted_chars = self.chars_from_ids(predicted_ids)\n", - "\n", - "\n", - " # Return the characters and model state.\n", - " return predicted_chars, states" - ] - }, - { - "cell_type": "code", - "execution_count": 40, - "metadata": { - "id": "fqMOuDutnOxK" - }, - "outputs": [], - "source": [ - "one_step_model = OneStep(model, chars_from_ids, ids_from_chars)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "p9yDoa0G3IgQ" - }, - "source": [ - "Изменяя температуру можно регулировать вариативность текста" - ] - }, - { - "cell_type": "code", - "execution_count": 41, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "ST7PSyk9t1mT", - "outputId": "ed0dfecc-3d31-4bfe-efeb-d2315044ef06" - }, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "\n", - "uКочаму,\n", - "Лыт\n", - "Нума Гве!\n", - "àvо етекы ва;\n", - "Хо> вы,\n", - "Муметы,.\n", - "Воцу:\n", - "ОтекаЕдраэмь эзоспосанах…Я кы.\n", - ") маа Почи защоючеты>\n", - "Алаций поши)\"Пры – /й пий лазой\n", - "Еже?\n", - "И,\n", - "В, à*\n", - "logJ\"nДаогей piКо '\n", - "Дя цый,;\n", - "Зази:\n", - "Унумыйй поль ь,\n", - "Тост,,,\n", - "Дежы!Шоны\n", - "H-му,\n", - "iБачуй,,;цо,\n", - "Тахрей\n", - "Ты а;\n", - "Памогой елыны…\n", - "Жебы\n", - "Ве яны!\n", - "Экычигруй,\n", - "И вьчам ре кабощалуй, ль наша водух, ё ко,\n", - "Чячу бемий>\n", - "Елетанех гружара, eалодищи:\n", - "И,\n", - "Гро вишемороцемапа\"oОмицы\n", - "upЛицль: Преща, Оды iH бочавоча!, Ценобый ни\n", - "Вныла,\n", - "Чу:.\n", - "Ввуй,\n", - "eРаДобе по!\n", - "Qтый,\n", - "Чки fХралошумо:\n", - "na-Койкаца –\n", - "Ай\n", - "Мо,\n", - "i)цыденатедубодех выйха\n", - "Полынене на бы.\n", - "Заму рыхасла cИмино Одорафута уга гоЮй вожве,\n", - "ГчаCКазко.\n", - "Мотя выйхоруnАчлатоный\n", - "Рабойх удапи,\n", - "Ты уТашь,\n", - "Обымаекоги вайзоты зой кишаметумилетелы\n", - "Я, —\n", - "yJи, солыFлы!éuХуZетце, ё\n", - "oПробемнанетече ей.\n", - "Ри,\n", - "Шоный.\n", - "По!\n", - "Ностыгу!\n", - "Hv\n", - "________________________________________________________________________________\n", - "\n", - "Run time: 1.620434284210205\n" - ] - } - ], - "source": [ - "T = 0.5 #@param {type:\"slider\", min:0, max:2, step:0.1}\n", - "N = 1000\n", - "\n", - "start = time.time()\n", - "states = None\n", - "next_char = tf.constant(['\\n'])\n", - "result = [next_char]\n", - "\n", - "for n in range(N):\n", - " next_char, states = one_step_model.generate_one_step(next_char, states=states,temperature=T)\n", - " result.append(next_char)\n", - "\n", - "result = tf.strings.join(result)\n", - "end = time.time()\n", - "\n", - "result_text = result[0].numpy().decode('utf-8')\n", - "print(result_text)\n", - "print('_'*80)\n", - "print('\\nRun time:', end - start)" - ] - }, - { - "cell_type": "code", - "execution_count": 42, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/", - "height": 300 - }, - "id": "VCwWY9xM6KCB", - "outputId": "e709c661-8bbe-4abf-e329-db9af7e6eb55" - }, - "outputs": [ - { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
lenlinesmean_line_len
count2.0000002.0000002.000000
mean499.00000035.50000012.123718
std482.24682533.2340191.262820
min158.00000012.00000011.230769
25%328.50000023.75000011.677244
50%499.00000035.50000012.123718
75%669.50000047.25000012.570192
max840.00000059.00000013.016667
\n", - "
" - ], - "text/plain": [ - " len lines mean_line_len\n", - "count 2.000000 2.000000 2.000000\n", - "mean 499.000000 35.500000 12.123718\n", - "std 482.246825 33.234019 1.262820\n", - "min 158.000000 12.000000 11.230769\n", - "25% 328.500000 23.750000 11.677244\n", - "50% 499.000000 35.500000 12.123718\n", - "75% 669.500000 47.250000 12.570192\n", - "max 840.000000 59.000000 13.016667" - ] - }, - "execution_count": 42, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "describe_poems(result_text)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "db7UJQr9ILfW" - }, - "outputs": [], - "source": [] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "22rnSwqqICn2" - }, - "source": [ - "По мотивам https://colab.research.google.com/github/tensorflow/text/blob/master/docs/tutorials/text_generation.ipynb" - ] - } - ], - "metadata": { - "accelerator": "GPU", - "colab": { - "provenance": [] - }, - "kernelspec": { - "display_name": "Python 3 (ipykernel)", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.9.13" - } - }, - "nbformat": 4, - "nbformat_minor": 1 -}