From 23df630dedc737635110b917b77fd5a825325e78 Mon Sep 17 00:00:00 2001 From: Andrey Date: Fri, 5 Apr 2024 22:03:18 +0300 Subject: [PATCH] lab04: typo --- labs/OATD_LR4.ipynb | 4819 ++++++++++++++++++++++--------------------- 1 file changed, 2410 insertions(+), 2409 deletions(-) diff --git a/labs/OATD_LR4.ipynb b/labs/OATD_LR4.ipynb index 8c2c85e..3da91e2 100644 --- a/labs/OATD_LR4.ipynb +++ b/labs/OATD_LR4.ipynb @@ -1,2423 +1,2424 @@ { - "cells": [ - { - "cell_type": "markdown", - "metadata": { - "id": "vOpSJBZfFKuo" - }, - "source": [ - "![](https://camo.githubusercontent.com/518a06d7ca808cd4ad8d5b6deb4ef15983d4649737618153432479f977935bba/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f79616e646578646174617363686f6f6c2f6e6c705f636f757273652f6d61737465722f7265736f75726365732f657870616e64696e675f6d696e645f6c6d5f6b6e5f332e706e67)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "ha8cW_h-FIND" - }, - "source": [ - "reference:\n", - "\n", - " - [nlp for you](https://lena-voita.github.io/nlp_course/language_modeling.html)\n", - "\n", - " - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course/tree/2023/week03_lm)" - ] - }, - { - "cell_type": "markdown", - "source": [ - "# Лабораторная работа №4. Использование нейронных сетей для генерации текста\n", - "В ходе работы мы будем обучать нейронные сети генерировать тексты, похожие на стихи поэтов.\n", - "\n", - "## Цель работы\n", - "Получить практические навыки решения задачи генерации текста.\n", - "\n", - "## Указания\n", - "1. Для работы рекомендуется использовать Google Colab и среду с GPU для ускорения расчетов. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\".\n", - "\n", - "2. Выполнять работу следует последовательно запуская ячейки, анализируя код и приведенные комментарии и разъяснения.\n", - "\n", - "3. В ходе работы будут встречаться вопросы, на которые нужно ответить, создав после него новую ячейку. Вопросы отмечены заголовками 3-го уровня.\n", - "Для ответа досточно 1-2 предложений. Но будьте готовы более подробно его пояснить при устной беседе.\n", - "\n", - "4. Обращайте внимание на комментарии `` - здесь вам нужно будет вставить значения параметров либо исходя из анализа кода\\выборки (где указано), либо попробовать разные варианты. Парамеры, приведенные тут по умолчанию, не обязательно правильные.\n", - "\n", - "## Варианты заданий\n", - "\n", - "Четные номера по журналу - Пушкин, нечетные - Маяковский.\n", - "\n", - "\n", - "\n", - "\n", - "\n", - "\n" - ], - "metadata": { - "id": "H2QPNriQIvTw" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "96PukQZbFNwL" - }, - "source": [ - "# Загрузка библиотек" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": { - "id": "nyb7MBAsFNhh" - }, - "outputs": [], - "source": [ - "import copy\n", - "import torch\n", - "import numpy as np\n", - "import torch.nn as nn\n", - "import torch.nn.functional as F\n", - "import matplotlib.pyplot as plt\n", - "\n", - "\n", - "from random import sample\n", - "from IPython.display import clear_output\n", - "from torch.utils.data import DataLoader, TensorDataset" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "eyO1tDFiGwFu" - }, - "source": [ - "При использовании Google Colab следует выбрать среду выполнения с аппаратным ускорителем GPU, что существенно ускорит расчеты. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\". При этом, следующая ячейка, проверяющая доступность CUDA (платформы, использующей графические ускорители), должна возвращать `True`" - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "XtIrqKT4GSXf", - "outputId": "376ab52b-e0d9-4c48-a01a-0c1191d9fa5f" - }, - "outputs": [ - { - "output_type": "execute_result", - "data": { - "text/plain": [ - "True" - ] - }, - "metadata": {}, - "execution_count": 2 - } - ], - "source": [ - "torch.cuda.is_available()" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "vXAr_sdxFSKm" - }, - "source": [ - "# Загрузим данные\n", - "\n", - "В соответствии с вариантом" - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "Krp456VbE7yP", - "outputId": "bd470eb1-d3e8-4059-a5cb-f24831c3d9dd" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "--2024-04-05 17:50:23-- http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", - "Resolving uit.mpei.ru (uit.mpei.ru)... 193.233.68.149\n", - "Connecting to uit.mpei.ru (uit.mpei.ru)|193.233.68.149|:80... connected.\n", - "HTTP request sent, awaiting response... 200 OK\n", - "Length: 1048627 (1.0M) [text/plain]\n", - "Saving to: ‘poems.txt’\n", - "\n", - "poems.txt 100%[===================>] 1.00M 625KB/s in 1.6s \n", - "\n", - "2024-04-05 17:50:25 (625 KB/s) - ‘poems.txt’ saved [1048627/1048627]\n", - "\n" - ] - } - ], - "source": [ - "!wget -O poems.txt http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", - "\n", - "# Маяковский: http://uit.mpei.ru/git/main/TDA/src/branch/master/assets/poems/mayakovskiy.txt\n" - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "BFnX81iNFFEf", - "outputId": "f2efb98f-d09e-49d6-f8b4-2952ae48c075" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Количество стихов: 720\n", - "\n", - "Пример стиха:\n", - "\n", - "Возможно ль? вместо роз, Амуром насажденных,\n", - "Тюльпанов гордо наклоненных,\n", - "Душистых ландышей, ясминов и лилей,\n", - "Которых ты всегда любила\n", - "И прежде всякой день носила\n", - "На мраморной груди твоей —\n", - "Возможно ль, милая Климена,\n", - "Какая странная во вкусе перемена!..\n", - "Ты любишь обонять не утренний цветок,\n", - "А вредную траву зелену,\n", - "Искусством превращенну\n", - "В пушистый порошок! —\n", - "Пускай уже седой профессор Геттингена,\n", - "На старой кафедре согнувшися дугой,\n", - "Вперив в латинщину глубокой разум свой,\n", - "Раскашлявшись, табак толченый\n", - "Пихает в длинный нос иссохшею рукой;\n", - "Пускай младой драгун усатый\n", - "Поутру, сидя у окна,\n", - "С остатком утреннего сна,\n", - "Из трубки пенковой дым гонит сероватый;\n", - "Пускай красавица шестидесяти лет,\n", - "У Граций в отпуску, и у любви в отставке,\n", - "Которой держится вся прелесть на подставке,\n", - "Которой без морщин на теле места нет,\n", - "Злословит, молится, зевает\n", - "И с верным табаком печали забывает, —\n", - "А ты, прелестная!.. но если уж табак\n", - "Так нравится тебе – о пыл воображенья! —\n", - "Ах! если, превращенный в прах,\n", - "И в табакерке, в заточеньи,\n", - "Я в персты нежные твои попасться мог,\n", - "Тогда б в сердечном восхищеньи\n", - "Рассыпался на грудь под шелковый платок\n", - "И даже… может быть… Но что! мечта пустая.\n", - "Не будет этого никак.\n", - "Судьба завистливая, злая!\n", - "Ах, отчего я не табак!..\n", - "\n", - "\n" - ] - } - ], - "source": [ - "# Загружаем текст из файла.\n", - "# Стихотворения в файле разделены токеном ''\n", - "\n", - "with open(\"poems.txt\") as file:\n", - " data = file.read().split(\"\\n\\n\")\n", - "print(f\"Количество стихов: {len(data)}\\n\", f\"Пример стиха:\\n\\n{data[10]}\", sep=\"\\n\")" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "urxR6VN2FbVl" - }, - "source": [ - "# Подготовка данных и сводные статистики" - ] - }, - { - "cell_type": "code", - "execution_count": 12, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "OhWos8xuFZZj", - "outputId": "635e93d6-6614-4c2c-c6c0-b0c7e70ea6ae" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Количество уникальных символов: 143\n", - "{0: 'PAD', 1: 'EOS', 2: 'a', 3: 'g', 4: ';', 5: 'R', 6: 'у', 7: 'И', 8: 'д', 9: 'ю', 10: 'V', 11: '?', 12: 'd', 13: 'з', 14: 'ы', 15: '–', 16: '(', 17: 'H', 18: 'Г', 19: ':', 20: 'm', 21: 'é', 22: 'ж', 23: 'c', 24: 'ц', 25: 'l', 26: 'Ф', 27: 'ф', 28: 'â', 29: 'п', 30: 'b', 31: 'г', 32: 'k', 33: 'B', 34: 'S', 35: \"'\", 36: 'z', 37: 'р', 38: 'ъ', 39: 'ь', 40: '!', 41: '\\n', 42: 'й', 43: 'Б', 44: '\"', 45: 'н', 46: '_', 47: 'P', 48: 'к', 49: 'F', 50: '»', 51: '*', 52: '—', 53: 'Ц', 54: 'L', 55: 'ê', 56: 'щ', 57: ')', 58: 's', 59: 'y', 60: 'С', 61: 'Ш', 62: 'Р', 63: 'э', 64: 'i', 65: 'x', 66: 'У', 67: 'è', 68: 'à', 69: 'p', 70: 'л', 71: 'T', 72: 'I', 73: 'û', 74: 'в', 75: '„', 76: 'Z', 77: 'П', 78: 'ё', 79: 'Л', 80: 'ш', 81: 'М', 82: '…', 83: '-', 84: 'З', 85: 'n', 86: '.', 87: 'В', 88: 'х', 89: 'с', 90: 'Ю', 91: 'C', 92: ' ', 93: 'е', 94: 'j', 95: 'Х', 96: 'а', 97: 'Н', 98: 'Д', 99: 'M', 100: 'и', 101: ',', 102: 'б', 103: '<', 104: '>', 105: 'А', 106: 'Т', 107: 'N', 108: 'о', 109: '«', 110: '\\xa0', 111: 'o', 112: 'Й', 113: 'Q', 114: 'U', 115: 'W', 116: 'ç', 117: 'т', 118: 'Е', 119: 'O', 120: 'О', 121: 'ч', 122: 'e', 123: 'u', 124: 'f', 125: 'D', 126: 'E', 127: 'К', 128: 'v', 129: 'Ж', 130: 'Щ', 131: 'м', 132: 'A', 133: 'Ч', 134: 'h', 135: 'Я', 136: 'ô', 137: 'J', 138: 't', 139: 'я', 140: 'r', 141: 'q', 142: 'Э'}\n" - ] - } - ], - "source": [ - "# Составляем словарь уникальных токенов\n", - "vocab = [\"PAD\", \"EOS\",] + list(set(\"\".join(data))) #список уникальных символов.\n", - "\n", - "# Формируем два словаря, реализующие перевод символов в их индексы и обратно\n", - "id2char = dict(enumerate(vocab)) #словарь индексов в символы\n", - "char2id = {char: ind for ind, char in id2char.items()} #словарь символов в индексы\n", - "print(f\"Количество уникальных символов: {len(vocab)}\", id2char, sep=\"\\n\")" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "xeTO4fBQFfBS" - }, - "source": [ - "Рассмотрим длины текстов" - ] - }, - { - "cell_type": "code", - "execution_count": 13, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "J-u-IxOeFZXY", - "outputId": "3ac61929-c08f-447f-df37-0f65030d3a57" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Максимальная длина текста: 8948\n" - ] - } - ], - "source": [ - "lengths = list(map(len, data))\n", - "print(\"Максимальная длина текста: \", max(lengths))" - ] - }, - { - "cell_type": "code", - "execution_count": 14, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/", - "height": 564 - }, - "id": "Ym7S8tmNFZUg", - "outputId": "67470c7b-ad81-4445-85d0-d3b1a4621e33" - }, - "outputs": [ - { - "output_type": "display_data", - "data": { - "text/plain": [ - "
" - ], - "image/png": "\n" - }, - "metadata": {} - } - ], - "source": [ - "plt.rcParams[\"figure.figsize\"] = (14, 6)\n", - "plt.hist(lengths, bins=30, range=[0, 6000])\n", - "plt.xlabel(\"Длина текста в символах\")\n", - "plt.title(\"Гистограмма длин текстов\")\n", - "plt.grid()" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "JuD6onVvFZR8", - "outputId": "49d24414-289e-4775-ac16-2f33f8873ac1" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Средняя длина 808.9125\n", - "Медиана длины 453.5\n", - "Мода длины 221\n" - ] - } - ], - "source": [ - "lengths = np.array(lengths)\n", - "print(\"Средняя длина\", np.mean(lengths))\n", - "print(\"Медиана длины\", np.median(lengths))\n", - "print(\"Мода длины\", np.bincount(lengths).argmax())" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 1\n", - "Где можно будет использовать знание о параметрах распределения длин в выборке?" - ], - "metadata": { - "id": "wjXxroS0IDXu" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "zfkSHd-8FlE1" - }, - "source": [ - "Выберите длину для генерации" - ] - }, - { - "cell_type": "code", - "execution_count": 15, - "metadata": { - "id": "y-Q7-EPuFZO5" - }, - "outputs": [], - "source": [ - "# Устанавливаем, сколько символов будет генерировать модель (максимальная длина генерируемого текста)\n", - "MAXLEN = 512 #" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "TSfv4n08Fpiv" - }, - "source": [ - "# Преобразование данных" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "vtelHtjyFq1N" - }, - "source": [ - "Создадим функцию для преобразования текста в вектора одинакового размера для подачи в нейросеть. В этой функции добавляется токен EOS - конец последовательности. Если текст короче заданной длины, то добавляется специальный токен PAD. Если текст больше заданной длины, то он обрезается." - ] - }, - { - "cell_type": "code", - "execution_count": 16, - "metadata": { - "id": "Hf9iaFRKJUGq" - }, - "outputs": [], - "source": [ - "line_ix = [char2id[c] for c in data[5][:512]]" - ] - }, - { - "cell_type": "code", - "execution_count": 17, - "metadata": { - "id": "2emYDlcVJnwi" - }, - "outputs": [], - "source": [ - "data_ix = np.zeros([len(data[5]), 512], 'int64')\n", - "data_ix[5, :len(line_ix)] = line_ix" - ] - }, - { - "cell_type": "code", - "execution_count": 18, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "QA5lQz2eJ8Oq", - "outputId": "e5df533b-ff5e-494a-d6ae-b2e8e4ffd442" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "[0 0 0 ... 0 0 0]\n" - ] - } - ], - "source": [ - "data_ix= np.transpose(data_ix)\n", - "print(data_ix[5])" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "metadata": { - "id": "YYGc7vo2FoTw" - }, - "outputs": [], - "source": [ - "def to_matrix(data, char2id, max_len=None, dtype='int64', batch_first = True):\n", - "\n", - " max_len = max_len if max_len else max(map(len, data))\n", - " data = [text[:max_len] + \" EOS\" for text in data]\n", - " data_ix = np.zeros([len(data), max_len], dtype)\n", - "\n", - " for i in range(len(data)):\n", - " line_ix = [char2id[c] for c in data[i][:max_len]]\n", - " data_ix[i, :len(line_ix)] = line_ix\n", - "\n", - " if not batch_first: # convert [batch, time] into [time, batch]\n", - " data_ix = np.transpose(data_ix)\n", - "\n", - " return data_ix" - ] - }, - { - "cell_type": "code", - "execution_count": 20, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "DbkCcqotFoRP", - "outputId": "97e86d8c-26f4-407a-c587-58d0df5867cd" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Исходный текст:\n", - " Так и мне узнать случилось,\n", - "Что за птица Купидон;\n", - "Сердце страстное пленилось;\n", - "Признаюсь – и я влюблен!\n", - "Пролетело счастья время,\n", - "Как, любви не зная бремя,\n", - "Я живал да попевал,\n", - "Как в театре и на балах,\n", - "На гуляньях иль в воксалах\n", - "Легким зефиром летал;\n", - "Как, смеясь во зло Амуру,\n", - "Я писал карикатуру\n", - "На любезный женской пол;\n", - "Но напрасно я смеялся,\n", - "Наконец и сам попался,\n", - "Сам, увы! с ума сошел.\n", - "Смехи, вольность – всё под лавку\n", - "Из Катонов я в отставку,\n", - "И теперь я – Селадон!\n", - "Миловидной жрицы Тальи\n", - "Видел прелести Натальи,\n", - "И уж в сердце – Купидон!\n", - "\n", - "Так, Наталья! признаюся,\n", - "Я тобою полонен,\n", - "В первый раз еще, стыжуся,\n", - "В женски прелести влюблен.\n", - "Целый день, как ни верчуся\n", - "Лишь тобою занят я;\n", - "Ночь придет – и лишь тебя\n", - "Вижу я в пустом мечтаньи,\n", - "Вижу, в легком одеяньи\n", - "Будто милая со мной;\n", - "Робко, сладостно дыханье,\n", - "Белой груди колебанье,\n", - "Снег затмивший белизной,\n", - "И полуотверсты очи,\n", - "Скромный мрак безмолвной ночи —\n", - "Дух в восторг приводят мой!..\n", - "Я один в беседке с нею,\n", - "Вижу… девственну лилею,\n", - "Трепещу, томлюсь, немею…\n", - "И проснулся… вижу мрак\n", - "Вкруг постели одинокой!\n", - "Испускаю вздох глубокой,\n", - "Сон ленивый, томноокой\n", - "Отлетает на крылах.\n", - "Страсть сильнее становится\n", - "И, любовью утомясь,\n", - "Я слабею всякой час.\n", - "Всё к чему-то ум стремится,\n", - "А к чему? – никто из нас\n", - "Дамам в слух того не скажет,\n", - "А уж так и сяк размажет.\n", - "Я – по-свойски объяснюсь.\n", - "\n", - "Все любовники желают\n", - "И того, чего не знают;\n", - "Это свойство их – дивлюсь!\n", - "Завернувшись балахоном,\n", - "С хватской шапкой на бекрень\n", - "Я желал бы Филимоном\n", - "Под вечер, как всюду тень,\n", - "Взяв Анюты нежну руку,\n", - "Изъяснять любовну муку,\n", - "Говорить: она моя!\n", - "Я желал бы, чтоб Назорой\n", - "Ты старалася меня\n", - "Удержать умильным взором.\n", - "Иль седым Опекуном\n", - "Легкой, миленькой Розины,\n", - "Старым пасынком судьбины,\n", - "В епанче и с париком,\n", - "Дерзкой пламенной рукою\n", - "Белоснежну, полну грудь…\n", - "Я желал бы… да ногою\n", - "Моря не перешагнуть.\n", - "И, хоть по уши влюбленный,\n", - "Но с тобою разлученный,\n", - "Всей надежды я лишен.\n", - "\n", - "Но, Наталья! ты не знаешь\n", - "Кто твой нежный Селадон,\n", - "Ты еще не понимаешь,\n", - "Отчего не смеет он\n", - "И надеяться? – Наталья!\n", - "Выслушай еще меня:\n", - "\n", - "Не владетель я Сераля,\n", - "Не арап, не турок я.\n", - "За учтивого китайца,\n", - "Грубого американца\n", - "Почитать меня нельзя,\n", - "Не представь и немчурою,\n", - "С колпаком на волосах,\n", - "С кружкой, пивом налитою,\n", - "И с цыгаркою в зубах.\n", - "Не представь кавалергарда\n", - "В каске, с длинным палашом.\n", - "Не люблю я бранный гром:\n", - "Шпага, сабля, алебарда\n", - "Не тягчат моей руки\n", - "За Адамовы грехи.\n", - "\n", - "– Кто же ты, болтун влюбленный?\n", - "Взглянь на стены возвышенны,\n", - "Где безмолвья вечный мрак;\n", - "Взглянь на окны загражденны,\n", - "На лампады там зажженны…\n", - "Знай, Наталья! – я… монах!\n", - "\n", - "\n", - "Преобразованный текст:\n", - " [106 96 48 92 100 92 131 45 93 92 6 13 45 96 117 39 92 89\n", - " 70 6 121 100 70 108 89 39 101 41 133 117 108 92 13 96 92 29\n", - " 117 100 24 96 92 127 6 29 100 8 108 45 4 41 60 93 37 8\n", - " 24 93 92 89 117 37 96 89 117 45 108 93 92 29 70 93 45 100\n", - " 70 108 89 39 4 41 77 37 100 13 45 96 9 89 39 92 15 92\n", - " 100 92 139 92 74 70 9 102 70 93 45 40 41 77 37 108 70 93\n", - " 117 93 70 108 92 89 121 96 89 117 39 139 92 74 37 93 131 139\n", - " 101 41 127 96 48 101 92 70 9 102 74 100 92 45 93 92 13 45\n", - " 96 139 92 102 37 93 131 139 101 41 135 92 22 100 74 96 70 92\n", - " 8 96 92 29 108 29 93 74 96 70 101 41 127 96 48 92 74 92\n", - " 117 93 96 117 37 93 92 100 92 45 96 92 102 96 70 96 88 101\n", - " 41 97 96 92 31 6 70 139 45 39 139 88 92 100 70 39 92 74\n", - " 92 74 108 48 89 96 70 96 88 41 79 93 31 48 100 131 92 13\n", - " 93 27 100 37 108 131 92 70 93 117 96 70 4 41 127 96 48 101\n", - " 92 89 131 93 139 89 39 92 74 108 92 13 70 108 92 105 131 6\n", - " 37 6 101 41 135 92 29 100 89 96 70 92 48 96 37 100 48 96\n", - " 117 6 37 6 41 97 96 92 70 9 102 93 13 45 14 42 92 22\n", - " 93 45 89 48 108 42 92 29 108 70 4 41 97 108 92 45 96 29\n", - " 37 96 89 45 108 92 139 92 89 131 93 139 70 89 139 101 41 97\n", - " 96 48 108 45 93 24 92 100 92 89 96 131 92 29 108 29 96 70\n", - " 89 139 101 41 60 96 131 101 92 6 74 14 40 92 89 92 6 131\n", - " 96 92 89 108 80 93 70 86 41 60 131 93 88 100 101 92 74 108\n", - " 70 39 45 108 89 117 39 92 15 92 74 89 78 92 29 108 8 92\n", - " 70 96 74 48 6 41 7 13 92 127 96 117 108 45 108 74 92 139\n", - " 92 74 92 108 117 89 117 96 74 48 6 101 41 7 92 117 93 29\n", - " 93 37 39 92 139 92 15 92 60 93 70 96 8 108 45 40 41 81\n", - " 100 70 108 74 100 8 45 108 42 92 22 37 100 24 14 92 106 96\n", - " 70 39 100 41 87 100 8 93 70 92 29 37 93 70 93 89 117 100\n", - " 92 97 96 117 96 70 39 100]\n" - ] - } - ], - "source": [ - "# Проверяем работу функции - кодируем один из текстов и смотрим как он выглядит в кодированном виде\n", - "encode = to_matrix(data[:1], char2id, MAXLEN)\n", - "print(\"Исходный текст:\\n\", data[0])\n", - "print(\"Преобразованный текст:\\n\", encode[0])" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 2\n", - "Пояснить, что хранится в переменной `encode`.\n", - "\n", - "Как будет выглядеть ваша фамилия в кодированном виде?" - ], - "metadata": { - "id": "nSrGA_gLLh3A" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "eQ-s7rzHFu9T" - }, - "source": [ - "# Подготовка нейросети" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "c3qNOFx8Fwec" - }, - "source": [ - "![](https://raw.githubusercontent.com/tensorflow/text/master/docs/tutorials/images/text_generation_training.png)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "atZoEO6VFyQf" - }, - "source": [ - "Исходя из архитектуры нейросети на картинке, нужно задать 3 слоя:\n", - " - Embedding\n", - " - GRU\n", - " - Dense\n", - "\n", - "\n", - "Для этого воспользуемся pytorch, ссылки на подробную документацию каждого слоя:\n", - " - [nn.Embedding](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)\n", - " - [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html)\n", - " - [nn.Linear](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) " - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "metadata": { - "id": "3rAXL2-QFvM9" - }, - "outputs": [], - "source": [ - "num_embeddings = len(vocab) #количество эмбеддингов должно соответствовать длине словаря\n", - "embedding_dim = 32 #определяется размерность эмбеддинга\n", - "emb = nn.Embedding(num_embeddings, embedding_dim) # Определяем объект emb как слой эмбеддингов заданного размера" - ] - }, - { - "cell_type": "code", - "source": [ - "\n", - "num_embeddings" - ], - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "mGb6aUqfOmav", - "outputId": "ec17500b-0522-4c56-a6f9-0a5da11f7346" - }, - "execution_count": 34, - "outputs": [ - { - "output_type": "execute_result", - "data": { - "text/plain": [ - "143" - ] - }, - "metadata": {}, - "execution_count": 34 - } - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 3\n", - "Почему количество эмбеддингов должно соответствовать длине словаря?" - ], - "metadata": { - "id": "esvotgUlMADX" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "hHK3n4noF2OP" - }, - "source": [ - "В качестве примера пропустим через этот слой первые 5 букв первого текста." - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "GvwHFBOWFz-U", - "outputId": "0a58cf39-3151-48d5-846c-6f55d1dfc863" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Размер тензора: torch.Size([5, 32])\n", - "\n", - "tensor([[ 1.5029e+00, -1.7916e+00, 2.2026e+00, -2.2513e+00, -6.9742e-01,\n", - " 3.0790e-01, 6.8104e-01, 7.7460e-01, -6.1624e-01, 1.5153e+00,\n", - " -4.1424e-01, -3.7886e-01, 3.0690e-01, 2.3166e-04, -1.3926e-01,\n", - " -4.1106e-01, -3.6484e-01, 3.3451e-01, -3.3457e+00, -6.2611e-01,\n", - " 8.0940e-01, 8.7477e-01, -9.3242e-02, 1.0553e+00, 1.0860e+00,\n", - " -4.8333e-01, 1.1123e+00, 6.2818e-01, 2.5269e-01, 1.3213e+00,\n", - " 5.3855e-01, 4.6009e-01],\n", - " [ 5.7508e-01, 1.6589e+00, -1.1679e+00, -2.4309e+00, -3.9557e-01,\n", - " 3.8376e-01, -9.8238e-01, -1.1509e+00, 2.2251e+00, -4.6321e-01,\n", - " 6.5630e-01, -1.9887e+00, -6.1972e-01, -1.6304e-01, -9.7050e-01,\n", - " -2.5951e-01, 4.9236e-01, -1.9583e+00, 1.9546e+00, -1.0485e+00,\n", - " 1.2174e-01, 8.9455e-01, -2.3779e+00, 2.3129e+00, -2.7838e-01,\n", - " 9.1432e-01, -2.7290e+00, -1.1626e+00, -8.9565e-01, -8.5091e-03,\n", - " 8.8071e-01, -9.9323e-03],\n", - " [-8.4068e-01, -6.1268e-01, 6.7328e-01, -9.6503e-01, 6.8494e-01,\n", - " -8.4349e-01, 3.5604e-01, 1.7478e+00, -1.7844e-01, -7.7445e-01,\n", - " 1.3449e+00, 1.1115e+00, 1.1597e+00, 7.3386e-01, 9.6546e-01,\n", - " -1.7147e+00, -3.4931e-01, 1.7341e-01, 3.5583e-01, -2.5318e-01,\n", - " -4.7672e-01, -1.4090e-02, -5.9210e-01, 5.4945e-01, 1.6417e-01,\n", - " -4.4186e-01, 7.3914e-01, 1.8834e+00, 3.0256e-01, 6.1556e-01,\n", - " -9.7063e-01, 4.4972e-01],\n", - " [ 5.6335e-01, 1.9862e-01, 3.7290e-01, 9.5874e-01, 6.3197e-01,\n", - " 2.9606e-01, 1.6983e+00, -6.7355e-01, -3.7383e-01, -1.0147e+00,\n", - " -1.2620e-02, 6.6465e-01, 9.1266e-01, 1.2363e+00, 1.9966e+00,\n", - " -1.1470e+00, -5.4097e-01, 1.3002e+00, -1.4012e+00, -8.1303e-01,\n", - " -7.5828e-01, 2.8108e-01, 1.0428e+00, 4.5049e-01, -1.2042e-01,\n", - " -1.2361e+00, 2.9283e-01, -1.6573e+00, 3.8987e-01, -2.1059e-01,\n", - " 1.4592e-01, -2.3350e-01],\n", - " [ 7.5370e-01, -1.6429e+00, -8.4913e-01, 3.6310e-02, 1.4648e+00,\n", - " -9.0935e-01, -2.1241e-01, -3.0972e-01, 6.5774e-01, 6.8460e-01,\n", - " 4.4648e-01, 6.2579e-01, 7.1138e-01, 1.8680e+00, -1.3650e+00,\n", - " 1.2340e-02, -1.2517e-01, 3.1195e-01, 3.0871e-01, 5.0507e-01,\n", - " -1.2373e+00, -1.0363e+00, -4.4852e-01, -8.9384e-01, -4.5717e-01,\n", - " 1.0538e-01, 4.1036e-01, 2.9193e+00, -1.1410e+00, 8.8568e-01,\n", - " -3.3892e-01, -7.0943e-01]], grad_fn=)\n" - ] - } - ], - "source": [ - "# emb_out - 5 первых символов в виде эмбедингов\n", - "emb_out = emb(torch.tensor(encode[0][:5]))\n", - "print(f\"Размер тензора: {emb_out.shape}\\n\")\n", - "print(emb_out)\n" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 4\n", - "Пояснить, почему получен такой размер `emb_out`?" - ], - "metadata": { - "id": "-YOv6t-qMOQi" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "nkS5ZQ8fF4XP" - }, - "source": [ - "# Создадим ячейку GRU" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 5\n", - "Обратиться к документации к [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html) и ответить на вопрос, за что отчечают параметры `input_size`, `hidden_size`, `num_layers`.\n", - "\n", - "В следующей ячейке задать значения для этих параметров" - ], - "metadata": { - "id": "ZBfkiOYmM9yr" - } - }, - { - "cell_type": "code", - "execution_count": 25, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "5bJ7fRAYFz71", - "outputId": "08fe5314-c7fb-4901-9947-4eabbd4c2326" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Размер output: torch.Size([5, 64])\n", - "Размер h_n: torch.Size([1, 64])\n" - ] - } - ], - "source": [ - "# Определяем ячейку GRU в переменной gru, предварительно задав рамерность скрытого состояния и количество рекуррентных слоев\n", - "input_size = emb.embedding_dim # вход в GRU должен соответствовать размеру эмбеддинга\n", - "hidden_size = 64 #\n", - "num_layers = 1 #\n", - "gru = nn.GRU(input_size, hidden_size, num_layers)\n", - "output, h_n = gru(emb_out)\n", - "print(\"Размер output:\", output.shape)\n", - "print(\"Размер h_n:\", h_n.shape)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "4W5Q3O45F6wh" - }, - "source": [ - "Выходом GRU является 2 тензора:\n", - " - output (используется для классификации)\n", - " - тензор скрытого состояния h_n (используается для последующей передачи во времени)\n", - "\n", - "Теперь используем output для предсказания следующей буквы, пропустив через линейный слой" - ] - }, - { - "cell_type": "code", - "execution_count": 26, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "p16NvYn2Fz4-", - "outputId": "a31d5f60-dfe0-4a7e-c078-ee7700750aa6" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Размер выходного слоя из нейросети: torch.Size([5, 143])\n" - ] - } - ], - "source": [ - "in_features = gru.hidden_size\n", - "out_features = len(vocab) #предсказываем букву из всего словаря\n", - "linear = nn.Linear(in_features, out_features) # Определяем линейный слой. Почему заданы такие входные и выходные параметры для него?\n", - "linear_out = linear(output) # output - выход GRU\n", - "print(\"Размер выходного слоя из нейросети: \", linear_out.shape)" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 6\n", - "Что содержится в векторе linear_out?\n", - "\n", - "Определить индекс символа, который наиболее вероятно выдаст ячейка GRU на первом шаге?" - ], - "metadata": { - "id": "6no89JxCNwvX" - } - }, - { - "cell_type": "code", - "execution_count": 29, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "Z2lThHhjOBI2", - "outputId": "50a18b7f-094d-41e1-a728-c47ef9561474" - }, - "outputs": [ - { - "output_type": "execute_result", - "data": { - "text/plain": [ - "tensor([ 0.0909, -0.0186, -0.2154, -0.2624, -0.0282, -0.1714, -0.0423, 0.1505,\n", - " 0.0645, 0.0452, -0.0173, -0.0822, 0.1414, 0.1803, -0.2480, -0.1756,\n", - " -0.0447, -0.0136, 0.1097, -0.2245, 0.0189, -0.0559, 0.0215, -0.0040,\n", - " 0.0454, 0.2437, -0.2015, 0.0818, 0.2883, 0.2263, -0.0109, 0.1681,\n", - " -0.0642, -0.0497, 0.1583, -0.0795, -0.0376, 0.0674, -0.1307, 0.0640,\n", - " 0.0966, 0.0140, -0.1366, -0.1685, 0.0397, -0.1600, -0.0497, -0.2244,\n", - " -0.1075, -0.1048, 0.0275, -0.0144, -0.1456, 0.0394, -0.1426, -0.0605,\n", - " -0.0743, 0.1303, 0.0337, 0.1010, -0.0651, -0.1233, 0.0282, 0.2729,\n", - " 0.0485, -0.0911, 0.1994, 0.0610, 0.0911, 0.0940, -0.0973, 0.0747,\n", - " 0.0031, 0.1500, -0.0295, 0.0127, -0.2865, -0.0251, -0.1395, 0.1547,\n", - " 0.0830, 0.0782, -0.0181, 0.1317, -0.0537, 0.1293, -0.2458, 0.1477,\n", - " -0.0610, -0.0592, -0.2878, -0.1622, 0.1336, 0.0987, -0.0834, -0.0815,\n", - " -0.1764, 0.0202, -0.0097, 0.0176, -0.1874, 0.0716, -0.1070, -0.1364,\n", - " 0.1748, 0.1479, -0.0478, 0.0862, 0.0648, 0.1126, -0.0995, -0.1324,\n", - " 0.1023, -0.0247, 0.0439, 0.0212, -0.0608, 0.0402, 0.1468, 0.2311,\n", - " -0.1142, 0.2198, -0.1181, -0.2196, -0.0653, 0.0870, -0.3388, 0.1208,\n", - " 0.0851, 0.0590, 0.1963, 0.0710, 0.1099, 0.1648, 0.0260, -0.1451,\n", - " 0.0012, -0.0973, -0.1058, -0.0628, 0.0585, 0.1859, -0.0573],\n", - " grad_fn=)" - ] - }, - "metadata": {}, - "execution_count": 29 - } - ], - "source": [ - "linear_out[0]" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "NZnJy28VF894" - }, - "source": [ - "Теперь определим класс со всеми частями:" - ] - }, - { - "cell_type": "code", - "execution_count": 30, - "metadata": { - "id": "1GinxRWgF9KG" - }, - "outputs": [], - "source": [ - "class CharGRULoop(nn.Module): # Описываем инициализатор класса.\n", - " def __init__(self, num_embeddings=52, embedding_dim=16, hidden_size=64, num_layers=1): # В методе __init__ определим архитектуру модели, создав необходимые слои\n", - " super(self.__class__, self).__init__()\n", - " self.emb = nn.Embedding(num_embeddings, embedding_dim)\n", - " self.gru = nn.GRU(embedding_dim, hidden_size, num_layers, batch_first=True)\n", - " self.hid_to_logits = nn.Linear(hidden_size, num_embeddings)\n", - "\n", - " def forward(self, x, hid_state): # Здесь описываем стурктуру сети - как сигнал должен по ней проходить\n", - " x = self.emb(x) # Проходим через эмбеддинг-слой\n", - " if hid_state is not None: # Проходим через GRU, сохраняя hidden state\n", - " h_seq, hid_state = self.gru(x, hid_state)\n", - " else:\n", - " h_seq, hid_state = self.gru(x)\n", - " next_logits = self.hid_to_logits(h_seq) # проходим через полносвязный слой\n", - " next_logp = F.log_softmax(next_logits, dim=-1) # Используем функцию softmax\n", - " return next_logp, hid_state" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "1aW5mneXF_cy" - }, - "source": [ - "Определим модель:" - ] - }, - { - "cell_type": "code", - "execution_count": 35, - "metadata": { - "id": "_U6Q0oosF_o7" - }, - "outputs": [], - "source": [ - "model = CharGRULoop(num_embeddings=len(vocab), embedding_dim=64, hidden_size=192, num_layers=2)\n", - "# Можно попробовать создать сеть с другими значениями параметров" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "nnS2cn8YGBPw" - }, - "source": [ - "Количество параметров:" - ] - }, - { - "cell_type": "code", - "execution_count": 32, - "metadata": { - "id": "zp7I2GVIGCOw" - }, - "outputs": [], - "source": [ - "!pip -q install torchinfo" - ] - }, - { - "cell_type": "code", - "execution_count": 36, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "24-GKj6nGDc4", - "outputId": "8bc88d9d-0105-4ad6-ab6a-5a90c5d2a4bf" - }, - "outputs": [ - { - "output_type": "execute_result", - "data": { - "text/plain": [ - "=================================================================\n", - "Layer (type:depth-idx) Param #\n", - "=================================================================\n", - "CharGRULoop --\n", - "├─Embedding: 1-1 9,152\n", - "├─GRU: 1-2 370,944\n", - "├─Linear: 1-3 27,599\n", - "=================================================================\n", - "Total params: 407,695\n", - "Trainable params: 407,695\n", - "Non-trainable params: 0\n", - "=================================================================" - ] - }, - "metadata": {}, - "execution_count": 36 - } - ], - "source": [ - "from torchinfo import summary\n", - "\n", - "summary(model)" - ] - }, - { - "cell_type": "markdown", - "source": [ - "Каждый раз, когда вы вызываете модель (forward), вы передаете некоторый текст и внутреннее состояние. Модель возвращает прогноз для следующего символа и его нового состояния.\n", - "\n", - "![image.png]()" - ], - "metadata": { - "id": "gIEsZBJbUNY5" - } - }, - { - "cell_type": "markdown", - "metadata": { - "id": "afVs3q7tGFPO" - }, - "source": [ - "Функция для генерации последовательности символов (текста)" - ] - }, - { - "cell_type": "code", - "execution_count": 39, - "metadata": { - "id": "meZeWXwUGFss" - }, - "outputs": [], - "source": [ - "def generate_sample(model, char2id, id2char, seed_phrase=' ', strategy=\"greedy\", max_length=100, temperature=1.0):\n", - " \"\"\"\n", - " model - нейросеть\n", - " char2id - словарь преобразования букв в их индексы\n", - " id2char - словарь преобразования индексов в буквы\n", - " seed_phrase - начальная фраза для генерации\n", - " strategy - стратегия генерации (жадная \"greedy\" или сэмплирование \"sample\")\n", - " max_length - максимальная длина сгенирированного текста\n", - " temperature - ???\n", - " \"\"\"\n", - "\n", - " x_sequence = [char2id[token] for token in seed_phrase] # кодируем начальную фразу\n", - " x_sequence = torch.tensor([x_sequence], dtype=torch.int64) # создаем тензор\n", - " hid_state = None # задаем тензор скрытого состояния h_n, при такой подачи вектор заполнится нулями\n", - "\n", - " with torch.no_grad(): # отключаем подсчет градиентов, поскольку сеть уже обучена и не нужно проводить обратное распространение ошибки\n", - " for i in range(len(seed_phrase) - 1): # подаем номер буквы и hid_state в цикле\n", - " _, hid_state = model(x_sequence[:, i].unsqueeze(0), hid_state)\n", - "\n", - " # начинаем генерацию\n", - " for _ in range(max_length - len(seed_phrase)):\n", - "\n", - " logp_next, hid_state = model(x_sequence[:, -1].unsqueeze(0), hid_state) # подаем последнюю букву из фразы\n", - " p_next = F.softmax(logp_next / temperature, dim=-1).data.numpy()[0] # нормируем выходы модели на температуру и применяем софтмакс\n", - "\n", - " if strategy == \"greedy\": next_ix = p_next.argmax() #берем токен с максимальной вероятностью\n", - " elif strategy == \"sample\": next_ix = np.random.choice(len(id2char), p=p_next[0]) #получаем следующий токен сэмплированием с вероятностями\n", - " else: raise ValueError('Хулиган, не делай так! Выбери \"greedy\" или \"sample\"')\n", - "\n", - " if id2char[next_ix] == \"EOS\": break # если получили токен EOS, то прекращаем генерацию\n", - " else:\n", - " next_ix = torch.tensor([[next_ix]], dtype=torch.int64) # создаем тензор следующий буквы\n", - " x_sequence = torch.cat([x_sequence, next_ix], dim=1) # добавляем предсказанный токен в конец последовательности\n", - "\n", - " return ''.join([id2char[ix] for ix in x_sequence.data.numpy()[0]]) # возвращаем декодированную строку" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "IJohkcbJGG5O" - }, - "source": [ - "Попробуем что-нибудь сгенерировать:" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 7\n", - "Выполните следующую ячейку несколько раз с одной и той же SEED_PHRASE, запомните выводы модели и объясните результат - чем отличается стратегия greedy от sample?" - ], - "metadata": { - "id": "b2hqsv33P2gW" - } - }, - { - "cell_type": "code", - "execution_count": 43, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "5bqp2xRjGIdW", - "outputId": "431d70ec-9bca-4765-aae6-3ae6e143fb11" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Я люблю машинное обучение!\n", - "ддZгàuгuuZsàCCCCОааа___IIшCCОаа!___IICйCCОаа!___IICйCCОаа!___IICйCCОаа!__\n", - "\n", - "Я люблю машинное обучение!\n", - "" - ], - "image/png": "\n" - }, - "metadata": {} - } - ], - "source": [ - "EPOCH = 200 # количество эпох обучения\n", - "history_train = [] # список значений лосса трейна на каждой эпохи\n", - "history_test = [] # список значений лосса теста на каждой эпохи\n", - "model.to(device) # И модель, и данные должны находиться на одном устройстве.\n", - " # Поэтому при работе с GPU нужно следить и явно указывать, на каком устройстве проводится работа.\n", - "\n", - "\n", - "best_test_loss = float(\"inf\")\n", - "for i in range(EPOCH): #цикл по эпохам\n", - "\n", - " loss_test = 0\n", - " loss_train = 0\n", - "\n", - " for batch in dataloader_train: #цикл по тренировачным батчам\n", - "\n", - " optimizer.zero_grad() #обнуляем градиенты\n", - " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device) #делаем из батча тензор\n", - "\n", - " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None) #подаем батч в модель\n", - "\n", - " actual_next_tokens = batch_ix[:, 1:] # таргеры\n", - "\n", - " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long()) # считаем лосс на батче\n", - " loss_train += loss.item() # добавляем лосс с батча в суммарный лосс\n", - "\n", - " loss.backward() # делаем обратный проход\n", - " optimizer.step() # делаем шаг оптимизатором\n", - "\n", - " history_train.append(loss_train/len(dataloader_train)) # добавляем средний лосс за эпоху в список\n", - "\n", - " for batch in dataloader_test: #цикл по тестовым батчам\n", - " with torch.no_grad(): # отключаем подсчет градиентов\n", - "\n", - " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device)\n", - " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None)\n", - "\n", - " actual_next_tokens = batch_ix[:, 1:]\n", - "\n", - " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long())\n", - " loss_test += loss.item()\n", - "\n", - " loss_test = loss_test/len(dataloader_test)\n", - " history_test.append(loss_test)\n", - "\n", - " if loss_test < best_test_loss: #сохраняем лучшую модель по лоссу на тесте\n", - " best_test_loss = loss_test\n", - " best_model = copy.deepcopy(model)\n", - " best_model.to(\"cpu\")\n", - "\n", - " if (i + 1) % 5 == 0: # выводим график лосса каждые 5 эпох\n", - " clear_output(True)\n", - " plt.plot(history_train, label='loss_train')\n", - " plt.plot(history_test, label='loss_test')\n", - " plt.grid()\n", - " plt.legend()\n", - " plt.show()\n" - ] - }, - { - "cell_type": "markdown", - "source": [ - "### Вопрос 8\n", - "Достаточно ли обучилась модель? Имеет ли смысл изменить количество эпох обучения?" - ], - "metadata": { - "id": "iWGz3oH3Rowq" - } - }, - { - "cell_type": "code", - "execution_count": 51, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "k924KVVaGU4t", - "outputId": "01db571f-54df-421e-cdf5-6c6c4ce7bf72" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "perplexity (best model test): 7.181648032772434\n", - "perplexity (last epoch test): 7.421088521940808\n" - ] - } - ], - "source": [ - "print(\"perplexity (best model test): \", np.exp(best_test_loss))\n", - "print(\"perplexity (last epoch test): \", np.exp(loss_test))" - ] - }, - { - "cell_type": "code", - "execution_count": 52, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "5fwRbhzDGVxl", - "outputId": "230be0e7-f04c-4c63-8576-2e2971a82b00" - }, - "outputs": [ - { - "output_type": "execute_result", - "data": { - "text/plain": [ - "CharGRULoop(\n", - " (emb): Embedding(143, 64)\n", - " (gru): GRU(64, 256, num_layers=3, batch_first=True)\n", - " (hid_to_logits): Linear(in_features=256, out_features=143, bias=True)\n", - ")" - ] - }, - "metadata": {}, - "execution_count": 52 - } - ], - "source": [ - "device = 'cpu' # Обучение обычно проводится на GPU, но чтобы не тратить его ресурсы, работу по генерации текста уже обученной моделью стоит перенести обратно на CPU\n", - "model.to(device)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "0PWo3arcGWvv" - }, - "source": [ - "Погенерируем текст. Сначала зададим стартовую фразу.\n", - "\n", - "Выполнив следующие ячейки по несколько раз, убедитесь, что правильно ответили на вопрос 7 \"Чем отличается стратегия greedy от sample?\"" - ] - }, - { - "cell_type": "code", - "execution_count": 53, - "metadata": { - "id": "dtUW5hVBGX9p" - }, - "outputs": [], - "source": [ - "#Если вы не согласны, вы можете поменять стартовую фразу, но что думает об этом высказывание машина?\n", - "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "Nr24uuQRGZqQ" - }, - "source": [ - "Sample strategy" - ] - }, - { - "cell_type": "code", - "execution_count": 56, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "bY_iYC82GY28", - "outputId": "1a41d952-882b-451a-b321-f2066f03f255" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Теория автоматического управления - лучший предмет,\n", - "В вечерчят, может и ребких ряд,\n", - "Когда в тихает Наздним не рафстились взор,\n", - "Где боющей слус во знали цвю,\n", - "Еврожачи в пустыню твоей, прочей,\n", - "В Ажертрянный лес пропариду улещенье,\n", - "Истревняешь литее молви от меня за Eилей\n", - "В и ждох эти пыраматься спомнорой,\n", - "И вишел ее пеельчим на пытом.\n", - "\n", - "Зевители, моей пужко образ роды погоглавляек;\n", - "Скворный, сокружлен ускоре вином:\n", - "\n", - " EOS любится каз ним меня дороды!\n", - "Всях казы-тро ты сладо мною рошу.\n", - "Нет, и красота тебе прироща\n" - ] - } - ], - "source": [ - "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"sample\", max_length=MAXLEN))" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "i6n4dUScGbk9" - }, - "outputs": [], - "source": [ - "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", - "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "gyB9g3KOGe8k" - }, - "source": [ - "Greedy strategy:\n" - ] - }, - { - "cell_type": "code", - "execution_count": 58, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "HuTB1fdlGd0b", - "outputId": "83440df4-700d-4c3b-935b-8e3aa5f65bcb" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Теория автоматического управления - лучший предмет,\n", - "И в тебе под него не след не внемлет он мой под сон,\n", - "И в тебя с полей под сенью покой приветный страсть устались,\n", - "И в тебя в тебя с поле под сенью покой,\n", - "И с тобой страсть и страсть у него в поле молчаливой,\n", - "И с тобой в тебе с полей под страсть и страсть на волненье,\n", - "И в тебя в тебя с поле под страсть и страсть на восторга,\n", - "И с тебя с невольно прости страсть и страсть на восторга,\n", - "И с тебя с невольно прости страсть и страсть на восторга,\n", - "И с тебя с невольн\n" - ] - } - ], - "source": [ - "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"greedy\", max_length=MAXLEN))" - ] - }, - { - "cell_type": "code", - "execution_count": 59, - "metadata": { - "id": "_tKKZheZGfu8" - }, - "outputs": [], - "source": [ - "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", - "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" - ] - }, - { - "cell_type": "code", - "source": [ - "\n" - ], - "metadata": { - "id": "RpVEloyFScaa" - }, - "execution_count": 59, - "outputs": [] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "jxpdQXl1GhyL" - }, - "source": [ - "# Эксперименты с температурой" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "LdKkJc5vGjIt" - }, - "source": [ - "В функции `generate_sample` есть параметр `temperature`.\n", - "\n", - "Основываясь на прошлом пункте, выберите стратегию, которая больше понравилась и запустите ячейки с разной температурой" - ] - }, - { - "cell_type": "code", - "execution_count": 60, - "metadata": { - "id": "h88cuY0HGfsa" - }, - "outputs": [], - "source": [ - "nice_strategy = \"sample\" #" - ] - }, - { - "cell_type": "code", - "execution_count": 61, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "9uZZRmP-GlS2", - "outputId": "46f77170-a06e-4e72-98ca-f30d76e0c5f2" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Теория автоматического управления - лучший предмет,\n", - "Нет.У дух преБЦя! убиием?> Скутxщ:: —\n", - "мбебле) был за цев чещу\n", - "Па. ТДа чевтовых: а домите,\n", - "Хтон живлчивые Посов, я , куке, лесь,\n", - "<пучалу> лябесимlим КлOE<жуе оRлки-пом,\n", - "Бедпятные пъе! сrакиса: ебя.\n", - ". нелаться, лены яхтну…\n", - "М зигранном дня, <судую,\n", - "Афием, П*\";c——\n", - "ДТрома, нуй, чтоко и; Дьбл\n", - "Еу! укнавнпиdусем.и.. ь,я\n", - "\n", - "Гдю Увер!ы\n", - "Дррикаявь, твое гофJ —!\n", - "Уе.ш. И, Бстоъ тиханью,\n", - "Лю??\n", - "Хласуя âлучит хожделz штон!…Л.\n", - "…»>\n", - "ожестгу<чиг\n", - "Ясь.…а хванни дупгухНвеннемляцы. —\n" - ] - } - ], - "source": [ - "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=nice_strategy, max_length=MAXLEN, temperature=2.0))" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "DwIORQ3OoiKN" - }, - "source": [ - "### Вопрос 9\n", - "Сделайте выводы как влияет изменение температуры на генерацию текста.\n", - "\n", - "Выберите оптимальное значение температуры" - ] - }, - { - "cell_type": "code", - "execution_count": 62, - "metadata": { - "id": "4DoOXClVohes" - }, - "outputs": [], - "source": [ - "\n" - ] - }, - { - "cell_type": "code", - "execution_count": 63, - "metadata": { - "id": "htAW_ABDGnc6" - }, - "outputs": [], - "source": [ - "# По завершению работы с рекуррентной сетью, очистим кэш\n", - "torch.cuda.empty_cache()" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "rlcgdw_gGpiO" - }, - "source": [ - "# Bonus track GPT" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "FND3cMDMGra3" - }, - "source": [ - "Дальше происходит магия, чтобы все вышло:\n", - " - здесь лучше перезапустить сеанс (Среда выполнения -> Перезапустить сеанс" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "metadata": { - "id": "HEZqH-4rGo84", - "colab": { - "base_uri": "https://localhost:8080/" - }, - "outputId": "881559c1-9659-4157-97fc-ccf9425169b3" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m297.3/297.3 kB\u001b[0m \u001b[31m4.3 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m23.7/23.7 MB\u001b[0m \u001b[31m43.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m823.6/823.6 kB\u001b[0m \u001b[31m46.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m14.1/14.1 MB\u001b[0m \u001b[31m62.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m731.7/731.7 MB\u001b[0m \u001b[31m1.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m410.6/410.6 MB\u001b[0m \u001b[31m1.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m121.6/121.6 MB\u001b[0m \u001b[31m7.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m56.5/56.5 MB\u001b[0m \u001b[31m11.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m124.2/124.2 MB\u001b[0m \u001b[31m8.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m196.0/196.0 MB\u001b[0m \u001b[31m6.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m166.0/166.0 MB\u001b[0m \u001b[31m7.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m99.1/99.1 kB\u001b[0m \u001b[31m13.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m21.1/21.1 MB\u001b[0m \u001b[31m58.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", - "\u001b[?25h" - ] - } - ], - "source": [ - "!pip install -q transformers[torch]" - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "metadata": { - "id": "5ccG2XtoGtDT" - }, - "outputs": [], - "source": [ - "import locale\n", - "import torch\n", - "import transformers\n", - "import numpy as np\n", - "\n", - "from warnings import simplefilter\n", - "from IPython.display import clear_output\n", - "from transformers import Trainer, TrainingArguments\n", - "from transformers import GPT2LMHeadModel, GPT2Tokenizer\n", - "from transformers import TextDataset, DataCollatorForLanguageModeling\n" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": { - "id": "xerwrDTGGtAc" - }, - "outputs": [], - "source": [ - "# Задаем некоторые настроечные параметры касательно кодировки и отображения предупреждений\n", - "locale.getpreferredencoding = lambda: \"UTF-8\"\n", - "simplefilter(\"ignore\", category=FutureWarning)\n", - "transformers.logging.set_verbosity_error()" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": { - "id": "ygm4wl7EGvLX" - }, - "outputs": [], - "source": [ - "\n", - "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n", - "\n", - "model_name = \"sberbank-ai/rugpt3small_based_on_gpt2\" # Опередлим, какой моделью будем пользоваться\n", - "tokenizer = GPT2Tokenizer.from_pretrained(model_name) # Определим токенайзер для нашего текста\n", - "model = GPT2LMHeadModel.from_pretrained(model_name).to(device) # Загрузим предобученную модель трансформера rugpt3small от Сбера\n", - "\n", - "clear_output()" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "jfAXAgtfGvIs", - "outputId": "a9f47a68-7a4a-4edc-be98-cbf539e277cb" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Теория автоматического управления - лучший предмет, который я знаю.\n", - "\n", - "\n", - "\n", - "\n", - "\n", - "\n", - "\n" - ] - } - ], - "source": [ - "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", - "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", - "out = model.generate(input_ids, do_sample=False, max_length=20)\n", - "\n", - "generated_text = list(map(tokenizer.decode, out))[0]\n", - "\n", - "print(generated_text) #Так работает предобученный трансформер" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "By_ukdhOp_F8" - }, - "source": [ - "Давайте дообучим трансформер на нашем датасете - мы хотим генерировать стихи" - ] - }, - { - "cell_type": "code", - "execution_count": 17, - "metadata": { - "id": "YLIYVZ1AGxzV" - }, - "outputs": [], - "source": [ - "train_path = \"train_dataset.txt\"\n", - "\n", - "with open(\"poems.txt\", encoding=\"utf-8\") as file:\n", - " data = file.read().split(\"\\n\\n\")\n", - "\n", - "with open(train_path, mode=\"w\", encoding=\"utf-8\") as f:\n", - " f.write(\"\".join(data))" - ] - }, - { - "cell_type": "code", - "execution_count": 18, - "metadata": { - "id": "ulVcdoROGyy2" - }, - "outputs": [], - "source": [ - "train_dataset = TextDataset(tokenizer=tokenizer, file_path=train_path, block_size=128) # Создание датасета\n", - "data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False) # Создание даталодера (нарезает текст на оптимальные по длине куски)" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "metadata": { - "id": "nTkPLolOGzqH" - }, - "outputs": [], - "source": [ - "\n", - "training_args = TrainingArguments(\n", - " output_dir=\"./finetuned\",\n", - " overwrite_output_dir=True,\n", - " num_train_epochs=15,\n", - " per_device_train_batch_size=32,\n", - " per_device_eval_batch_size=32,\n", - " warmup_steps=10, # рекомендованные значения (warmup_steps нужен для \"разогрева\" сети, c его помощью learning rate постепенно увеличивается до заданного значения)\n", - " gradient_accumulation_steps=16, # рекомендованные значения\n", - ")\n", - "#(обычно мы хотим положить батч по-больше, чтобы сеть побыстрей сошлась, но мы ограничены памятью gpu, gradient_accumulation_steps накапливает (суммирует или усредняет) градиенты за прогон на 16 батчах )\n", - "\n", - "trainer = Trainer(\n", - " model=model,\n", - " args=training_args,\n", - " data_collator=data_collator,\n", - " train_dataset=train_dataset,\n", - " optimizers=(\n", - " torch.optim.AdamW(model.parameters(), lr=1e-5), # рекомендованные значения\n", - " None,\n", - " ),\n", - ")" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "MN4IUz0cG06R" - }, - "source": [ - "# Эта ячейка займет около 15-20 минут" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "Wkb6QEgiHzUv" - }, - "source": [ - "Добавил тут переменную, откуда потом берется лосс с трейна и считается перплексия." - ] - }, - { - "cell_type": "code", - "execution_count": 20, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "MIDjczLBG1x4", - "outputId": "4cd93a79-50a4-4f67-dc0d-1736a9055395" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "{'train_runtime': 512.7748, 'train_samples_per_second': 43.499, 'train_steps_per_second': 0.059, 'train_loss': 4.064910634358724, 'epoch': 10.21}\n" - ] - } - ], - "source": [ - "output = trainer.train() # Дообучаем трансформер на наши тексты" - ] - }, - { - "cell_type": "code", - "execution_count": 21, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "jGSF1YRpHzUw", - "outputId": "76ecac12-dd33-4005-d1bd-4a6e27a0f74e" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "perplexity: 58.25970187428917\n" - ] - } - ], - "source": [ - "print('perplexity: ', np.exp(output.training_loss)) #расчет перплексии" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "CssQW8rLHzUx" - }, - "source": [ - "### Вопрос 10\n", - "Какое значение перплексии получилось у трансформера?\n", - "\n", - "Какое значение перплексии получалось у рекуррентной сети?\n", - "\n", - "Почему у рекуррентной сети значение было существенно ниже, но качество текстов хуже? Почему нельзя сравнивать значения для рекуррентной сети и трансформера?\n" - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "ZEG2FYNsG4oy", - "outputId": "0bad01e8-fb2a-4a34-c1ba-39dd01017a66" - }, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "\n", - "Теория автоматического управления - лучший предмет,\n", - "Когда в нем все подчинено закону. \n", - "\n", - "И только законы в нем\n", - "Ошибки и воры\n", - "Так искусно ведут против\n", - "Нимфы его дела;\n", - "Они как раз в ней с самого начала\n", - "Узрели: человек есть душа,\n", - "Коли вдруг он не становится ни грешным,\n", - "Ни преступником,\n", - "Ни преступником.\n", - "\n", - "Он как будто в ней живет,\n", - "И в ней дух живет,\n", - "В ней свет есть для всех он,\n", - "Она его питает,\n", - "Она о нем поет.\n", - "\n", - "Но для него ничего не значит\n", - "Свой день, свои жертвы,\n", - "Он не может быть свободен,\n", - "И он ни над кем не властен:\n", - "В нем весь ход земного рая\n", - "В нем его предел.\n", - "\n", - "Он хочет жить, он хочет умереть,\n", - "Готов он ко всему и не может\n", - "Предать себя сомненьем;\n", - "В нем человек в конце концов\n", - "Перестает жить и для себя.\n", - "Ведь он же человек,\n", - "Он ведь даже в своем законе\n", - "Омертвляет грех силою мысли.\n", - "\n", - "Но все напрасно: с нею человек живет:\n", - "И в нем живет она со своей душой.\n", - "Но\n" - ] - } - ], - "source": [ - "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", - "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", - "model.eval()\n", - "with torch.no_grad():\n", - " out = model.generate(\n", - " input_ids,\n", - " do_sample=True, # sample strategy\n", - " temperature=1.0,\n", - " max_length=256,\n", - " pad_token_id=512 # указываем id токена\n", - " )\n", - "\n", - "generated_text = list(map(tokenizer.decode, out))[0]\n", - "print()\n", - "print(generated_text)" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "kK91Afxmqsnr" - }, - "source": [ - "### Вопрос 11\n", - "Проверьте работу ячейки выше для разных стартовых фраз и разных параметров `temperature`, `max_length`, `do_sample` и объясните, за что отвечает каждый из параметров. Подберите (субъективно) лучшие" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "URWWyeN_G92m" - }, - "source": [ - "# Beam Search\n", - "До этого мы использовали обычный \"жадный\" поиск\n", - "\n", - "![](https://huggingface.co/blog/assets/02_how-to-generate/greedy_search.png)\n", - "\n", - "Для каждого слова следующим считали _наиболее вероятное_.\n", - "Но, возможно, пройдя по не самому вероятному слову, в итоге мы получим более вероятную __последовательность__ слов, чем при жадном алгоритме.\n", - "Такой подход называется Beam search.\n", - "\n", - "![](https://huggingface.co/blog/assets/02_how-to-generate/beam_search.png)\n", - "\n", - "[подробнее тут](https://huggingface.co/blog/how-to-generate)\n", - "\n", - "Для использования Beam search передадим в функцию генерации параметр `num_beams` который характеризует количество рассматриваемых \"альтернативных\" путей" - ] - }, - { - "cell_type": "code", - "execution_count": 105, - "metadata": { - "id": "f5qj2KVoG56d" - }, - "outputs": [], - "source": [ - "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", - "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", - "model.eval()\n", - "with torch.no_grad():\n", - " out = model.generate(\n", - " input_ids,\n", - " do_sample=False,\n", - " max_new_tokens=75,\n", - " no_repeat_ngram_size=3, # устанавливает вероятность 0 для повторяющихся n-gram (таким образом решается проблема зацикливания)\n", - " pad_token_id=512,\n", - " num_beams=5,\n", - " num_return_sequences=5, # количество возвращенных сгенерированных текстов отранжированных по вероятности после beam_search\n", - " top_p=0.9, #\n", - " top_k=20, #\n", - " temperature=2.0 #\n", - " )\n", - "\n", - "generated_text = list(map(tokenizer.decode, out))\n" - ] - }, - { - "cell_type": "code", - "source": [ - "# Выведем _num_return_sequences_ сгенерированных текстов\n", - "for i, seq in enumerate(generated_text):\n", - " print(f\"Applicant {i}\", seq, \"\\n\", sep=\"\\n\")" - ], - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "af8foFo1f6Hj", - "outputId": "0f5328b9-201b-486a-b569-30ce7715278a" - }, - "execution_count": 106, - "outputs": [ - { - "output_type": "stream", - "name": "stdout", - "text": [ - "Applicant 0\n", - "Теория автоматического управления - лучший предмет,\n", - "Который я когда-либо читал.\n", - "\n", - "Я знаю, что это не так,\n", - "Но я не знаю, как это объяснить.\n", - "Я не знаю даже, как объяснить\n", - "То, что я знаю, и то, что не знаю.\n", - "И я знаю только то,\n", - "Что знаю я, но не знаю\n", - "И того, и другого.\n", - "\n", - "\n", - "\n", - "Applicant 1\n", - "Теория автоматического управления - лучший предмет,\n", - "Который я когда-либо читал.\n", - "\n", - "Я знаю, что это не так,\n", - "Но я не знаю, как это объяснить.\n", - "Я не знаю даже, как объяснить\n", - "То, что я знаю, и то, что не знаю.\n", - "И я знаю только то,\n", - "Что знаю я, но не знаю\n", - "И того, что знаю я.\n", - "\n", - "\n", - "Applicant 2\n", - "Теория автоматического управления - лучший предмет,\n", - "Который я когда-либо читал.\n", - "\n", - "Я знаю, что это не так,\n", - "Но я не знаю, как это объяснить.\n", - "Я не знаю даже, как объяснить\n", - "То, что я знаю, и то, что не знаю.\n", - "И я знаю только то,\n", - "Что знаю я, но не знаю\n", - "И то, и другое.\n", - "\n", - "\n", - "\n", - "Applicant 3\n", - "Теория автоматического управления - лучший предмет,\n", - "Который я когда-либо читал.\n", - "\n", - "Я знаю, что это не так,\n", - "Но я не знаю, как это объяснить.\n", - "Я не знаю даже, как объяснить\n", - "То, что я знаю, и то, что не знаю.\n", - "И я знаю только то,\n", - "Что знаю я, но не знаю\n", - "И того, чего не знаю я\n", - "\n", - "\n", - "Applicant 4\n", - "Теория автоматического управления - лучший предмет,\n", - "Который я когда-либо читал.\n", - "\n", - "Я знаю, что это не так,\n", - "Но я не знаю, как это объяснить.\n", - "Я не знаю даже, как объяснить\n", - "То, что я знаю, и то, что не знаю.\n", - "И я знаю только то,\n", - "Что знаю я, но не знаю\n", - "И то, чего не знаю я\n", - "\n", - "\n" - ] - } - ] - }, - { - "cell_type": "markdown", - "metadata": { - "id": "AWJBlaMSHzU0" - }, - "source": [ - " Дополнительно можно изучить смысл параметров top_p и top_k [по ссылке](https://huggingface.co/blog/how-to-generate)\n", - "\n", - "Опробуйте разные значения параметров, какая схема выборки получилась лучше?" - ] + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "id": "vOpSJBZfFKuo" + }, + "source": [ + "![](https://camo.githubusercontent.com/518a06d7ca808cd4ad8d5b6deb4ef15983d4649737618153432479f977935bba/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f79616e646578646174617363686f6f6c2f6e6c705f636f757273652f6d61737465722f7265736f75726365732f657870616e64696e675f6d696e645f6c6d5f6b6e5f332e706e67)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "ha8cW_h-FIND" + }, + "source": [ + "reference:\n", + "\n", + " - [nlp for you](https://lena-voita.github.io/nlp_course/language_modeling.html)\n", + "\n", + " - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course/tree/2023/week03_lm)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "H2QPNriQIvTw" + }, + "source": [ + "# Лабораторная работа №4. Использование нейронных сетей для генерации текста\n", + "В ходе работы мы будем обучать нейронные сети генерировать тексты, похожие на стихи поэтов.\n", + "\n", + "## Цель работы\n", + "Получить практические навыки решения задачи генерации текста.\n", + "\n", + "## Указания\n", + "1. Для работы рекомендуется использовать Google Colab и среду с GPU для ускорения расчетов. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\".\n", + "\n", + "2. Выполнять работу следует последовательно запуская ячейки, анализируя код и приведенные комментарии и разъяснения.\n", + "\n", + "3. В ходе работы будут встречаться вопросы, на которые нужно ответить, создав после него новую ячейку. Вопросы отмечены заголовками 3-го уровня.\n", + "Для ответа досточно 1-2 предложений. Но будьте готовы более подробно его пояснить при устной беседе.\n", + "\n", + "4. Обращайте внимание на комментарии `` - здесь вам нужно будет вставить значения параметров либо исходя из анализа кода\\выборки (где указано), либо попробовать разные варианты. Парамеры, приведенные тут по умолчанию, не обязательно правильные.\n", + "\n", + "## Варианты заданий\n", + "\n", + "Четные номера по журналу - Пушкин, нечетные - Маяковский.\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "96PukQZbFNwL" + }, + "source": [ + "# Загрузка библиотек" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "id": "nyb7MBAsFNhh" + }, + "outputs": [], + "source": [ + "import copy\n", + "import torch\n", + "import numpy as np\n", + "import torch.nn as nn\n", + "import torch.nn.functional as F\n", + "import matplotlib.pyplot as plt\n", + "\n", + "\n", + "from random import sample\n", + "from IPython.display import clear_output\n", + "from torch.utils.data import DataLoader, TensorDataset" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "eyO1tDFiGwFu" + }, + "source": [ + "При использовании Google Colab следует выбрать среду выполнения с аппаратным ускорителем GPU, что существенно ускорит расчеты. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\". При этом, следующая ячейка, проверяющая доступность CUDA (платформы, использующей графические ускорители), должна возвращать `True`" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" }, + "id": "XtIrqKT4GSXf", + "outputId": "376ab52b-e0d9-4c48-a01a-0c1191d9fa5f" + }, + "outputs": [ { - "cell_type": "markdown", - "metadata": { - "id": "NgxotZZrHBLI" - }, - "source": [ - "Сохранить модель при необходимости:" + "data": { + "text/plain": [ + "True" ] + }, + "execution_count": 2, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "torch.cuda.is_available()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "vXAr_sdxFSKm" + }, + "source": [ + "# Загрузим данные\n", + "\n", + "В соответствии с вариантом" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Krp456VbE7yP", + "outputId": "bd470eb1-d3e8-4059-a5cb-f24831c3d9dd" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "--2024-04-05 17:50:23-- http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", + "Resolving uit.mpei.ru (uit.mpei.ru)... 193.233.68.149\n", + "Connecting to uit.mpei.ru (uit.mpei.ru)|193.233.68.149|:80... connected.\n", + "HTTP request sent, awaiting response... 200 OK\n", + "Length: 1048627 (1.0M) [text/plain]\n", + "Saving to: ‘poems.txt’\n", + "\n", + "poems.txt 100%[===================>] 1.00M 625KB/s in 1.6s \n", + "\n", + "2024-04-05 17:50:25 (625 KB/s) - ‘poems.txt’ saved [1048627/1048627]\n", + "\n" + ] + } + ], + "source": [ + "!wget -O poems.txt http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n", + "\n", + "# Маяковский: http://uit.mpei.ru/git/main/TDA/src/branch/master/assets/poems/mayakovskiy.txt\n" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "BFnX81iNFFEf", + "outputId": "f2efb98f-d09e-49d6-f8b4-2952ae48c075" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество стихов: 720\n", + "\n", + "Пример стиха:\n", + "\n", + "Возможно ль? вместо роз, Амуром насажденных,\n", + "Тюльпанов гордо наклоненных,\n", + "Душистых ландышей, ясминов и лилей,\n", + "Которых ты всегда любила\n", + "И прежде всякой день носила\n", + "На мраморной груди твоей —\n", + "Возможно ль, милая Климена,\n", + "Какая странная во вкусе перемена!..\n", + "Ты любишь обонять не утренний цветок,\n", + "А вредную траву зелену,\n", + "Искусством превращенну\n", + "В пушистый порошок! —\n", + "Пускай уже седой профессор Геттингена,\n", + "На старой кафедре согнувшися дугой,\n", + "Вперив в латинщину глубокой разум свой,\n", + "Раскашлявшись, табак толченый\n", + "Пихает в длинный нос иссохшею рукой;\n", + "Пускай младой драгун усатый\n", + "Поутру, сидя у окна,\n", + "С остатком утреннего сна,\n", + "Из трубки пенковой дым гонит сероватый;\n", + "Пускай красавица шестидесяти лет,\n", + "У Граций в отпуску, и у любви в отставке,\n", + "Которой держится вся прелесть на подставке,\n", + "Которой без морщин на теле места нет,\n", + "Злословит, молится, зевает\n", + "И с верным табаком печали забывает, —\n", + "А ты, прелестная!.. но если уж табак\n", + "Так нравится тебе – о пыл воображенья! —\n", + "Ах! если, превращенный в прах,\n", + "И в табакерке, в заточеньи,\n", + "Я в персты нежные твои попасться мог,\n", + "Тогда б в сердечном восхищеньи\n", + "Рассыпался на грудь под шелковый платок\n", + "И даже… может быть… Но что! мечта пустая.\n", + "Не будет этого никак.\n", + "Судьба завистливая, злая!\n", + "Ах, отчего я не табак!..\n", + "\n", + "\n" + ] + } + ], + "source": [ + "# Загружаем текст из файла.\n", + "# Стихотворения в файле разделены токеном ''\n", + "\n", + "with open(\"poems.txt\") as file:\n", + " data = file.read().split(\"\\n\\n\")\n", + "print(f\"Количество стихов: {len(data)}\\n\", f\"Пример стиха:\\n\\n{data[10]}\", sep=\"\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "urxR6VN2FbVl" + }, + "source": [ + "# Подготовка данных и сводные статистики" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "OhWos8xuFZZj", + "outputId": "635e93d6-6614-4c2c-c6c0-b0c7e70ea6ae" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество уникальных символов: 143\n", + "{0: 'PAD', 1: 'EOS', 2: 'a', 3: 'g', 4: ';', 5: 'R', 6: 'у', 7: 'И', 8: 'д', 9: 'ю', 10: 'V', 11: '?', 12: 'd', 13: 'з', 14: 'ы', 15: '–', 16: '(', 17: 'H', 18: 'Г', 19: ':', 20: 'm', 21: 'é', 22: 'ж', 23: 'c', 24: 'ц', 25: 'l', 26: 'Ф', 27: 'ф', 28: 'â', 29: 'п', 30: 'b', 31: 'г', 32: 'k', 33: 'B', 34: 'S', 35: \"'\", 36: 'z', 37: 'р', 38: 'ъ', 39: 'ь', 40: '!', 41: '\\n', 42: 'й', 43: 'Б', 44: '\"', 45: 'н', 46: '_', 47: 'P', 48: 'к', 49: 'F', 50: '»', 51: '*', 52: '—', 53: 'Ц', 54: 'L', 55: 'ê', 56: 'щ', 57: ')', 58: 's', 59: 'y', 60: 'С', 61: 'Ш', 62: 'Р', 63: 'э', 64: 'i', 65: 'x', 66: 'У', 67: 'è', 68: 'à', 69: 'p', 70: 'л', 71: 'T', 72: 'I', 73: 'û', 74: 'в', 75: '„', 76: 'Z', 77: 'П', 78: 'ё', 79: 'Л', 80: 'ш', 81: 'М', 82: '…', 83: '-', 84: 'З', 85: 'n', 86: '.', 87: 'В', 88: 'х', 89: 'с', 90: 'Ю', 91: 'C', 92: ' ', 93: 'е', 94: 'j', 95: 'Х', 96: 'а', 97: 'Н', 98: 'Д', 99: 'M', 100: 'и', 101: ',', 102: 'б', 103: '<', 104: '>', 105: 'А', 106: 'Т', 107: 'N', 108: 'о', 109: '«', 110: '\\xa0', 111: 'o', 112: 'Й', 113: 'Q', 114: 'U', 115: 'W', 116: 'ç', 117: 'т', 118: 'Е', 119: 'O', 120: 'О', 121: 'ч', 122: 'e', 123: 'u', 124: 'f', 125: 'D', 126: 'E', 127: 'К', 128: 'v', 129: 'Ж', 130: 'Щ', 131: 'м', 132: 'A', 133: 'Ч', 134: 'h', 135: 'Я', 136: 'ô', 137: 'J', 138: 't', 139: 'я', 140: 'r', 141: 'q', 142: 'Э'}\n" + ] + } + ], + "source": [ + "# Составляем словарь уникальных токенов\n", + "vocab = [\"PAD\", \"EOS\",] + list(set(\"\".join(data))) #список уникальных символов.\n", + "\n", + "# Формируем два словаря, реализующие перевод символов в их индексы и обратно\n", + "id2char = dict(enumerate(vocab)) #словарь индексов в символы\n", + "char2id = {char: ind for ind, char in id2char.items()} #словарь символов в индексы\n", + "print(f\"Количество уникальных символов: {len(vocab)}\", id2char, sep=\"\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "xeTO4fBQFfBS" + }, + "source": [ + "Рассмотрим длины текстов" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "J-u-IxOeFZXY", + "outputId": "3ac61929-c08f-447f-df37-0f65030d3a57" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Максимальная длина текста: 8948\n" + ] + } + ], + "source": [ + "lengths = list(map(len, data))\n", + "print(\"Максимальная длина текста: \", max(lengths))" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 564 + }, + "id": "Ym7S8tmNFZUg", + "outputId": "67470c7b-ad81-4445-85d0-d3b1a4621e33" + }, + "outputs": [ + { + "data": { + "image/png": "\n", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "plt.rcParams[\"figure.figsize\"] = (14, 6)\n", + "plt.hist(lengths, bins=30, range=[0, 6000])\n", + "plt.xlabel(\"Длина текста в символах\")\n", + "plt.title(\"Гистограмма длин текстов\")\n", + "plt.grid()" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "JuD6onVvFZR8", + "outputId": "49d24414-289e-4775-ac16-2f33f8873ac1" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Средняя длина 808.9125\n", + "Медиана длины 453.5\n", + "Мода длины 221\n" + ] + } + ], + "source": [ + "lengths = np.array(lengths)\n", + "print(\"Средняя длина\", np.mean(lengths))\n", + "print(\"Медиана длины\", np.median(lengths))\n", + "print(\"Мода длины\", np.bincount(lengths).argmax())" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "wjXxroS0IDXu" + }, + "source": [ + "### Вопрос 1\n", + "Где можно будет использовать знание о параметрах распределения длин в выборке?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "zfkSHd-8FlE1" + }, + "source": [ + "Выберите длину для генерации" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": { + "id": "y-Q7-EPuFZO5" + }, + "outputs": [], + "source": [ + "# Устанавливаем, сколько символов будет генерировать модель (максимальная длина генерируемого текста)\n", + "MAXLEN = 512 #" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "TSfv4n08Fpiv" + }, + "source": [ + "# Преобразование данных" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "vtelHtjyFq1N" + }, + "source": [ + "Создадим функцию для преобразования текста в вектора одинакового размера для подачи в нейросеть. В этой функции добавляется токен EOS - конец последовательности. Если текст короче заданной длины, то добавляется специальный токен PAD. Если текст больше заданной длины, то он обрезается." + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": { + "id": "Hf9iaFRKJUGq" + }, + "outputs": [], + "source": [ + "line_ix = [char2id[c] for c in data[5][:512]]" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": { + "id": "2emYDlcVJnwi" + }, + "outputs": [], + "source": [ + "data_ix = np.zeros([len(data[5]), 512], 'int64')\n", + "data_ix[5, :len(line_ix)] = line_ix" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "QA5lQz2eJ8Oq", + "outputId": "e5df533b-ff5e-494a-d6ae-b2e8e4ffd442" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[0 0 0 ... 0 0 0]\n" + ] + } + ], + "source": [ + "data_ix= np.transpose(data_ix)\n", + "print(data_ix[5])" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": { + "id": "YYGc7vo2FoTw" + }, + "outputs": [], + "source": [ + "def to_matrix(data, char2id, max_len=None, dtype='int64', batch_first = True):\n", + "\n", + " max_len = max_len if max_len else max(map(len, data))\n", + " data = [text[:max_len] + \" EOS\" for text in data]\n", + " data_ix = np.zeros([len(data), max_len], dtype)\n", + "\n", + " for i in range(len(data)):\n", + " line_ix = [char2id[c] for c in data[i][:max_len]]\n", + " data_ix[i, :len(line_ix)] = line_ix\n", + "\n", + " if not batch_first: # convert [batch, time] into [time, batch]\n", + " data_ix = np.transpose(data_ix)\n", + "\n", + " return data_ix" + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "DbkCcqotFoRP", + "outputId": "97e86d8c-26f4-407a-c587-58d0df5867cd" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Исходный текст:\n", + " Так и мне узнать случилось,\n", + "Что за птица Купидон;\n", + "Сердце страстное пленилось;\n", + "Признаюсь – и я влюблен!\n", + "Пролетело счастья время,\n", + "Как, любви не зная бремя,\n", + "Я живал да попевал,\n", + "Как в театре и на балах,\n", + "На гуляньях иль в воксалах\n", + "Легким зефиром летал;\n", + "Как, смеясь во зло Амуру,\n", + "Я писал карикатуру\n", + "На любезный женской пол;\n", + "Но напрасно я смеялся,\n", + "Наконец и сам попался,\n", + "Сам, увы! с ума сошел.\n", + "Смехи, вольность – всё под лавку\n", + "Из Катонов я в отставку,\n", + "И теперь я – Селадон!\n", + "Миловидной жрицы Тальи\n", + "Видел прелести Натальи,\n", + "И уж в сердце – Купидон!\n", + "\n", + "Так, Наталья! признаюся,\n", + "Я тобою полонен,\n", + "В первый раз еще, стыжуся,\n", + "В женски прелести влюблен.\n", + "Целый день, как ни верчуся\n", + "Лишь тобою занят я;\n", + "Ночь придет – и лишь тебя\n", + "Вижу я в пустом мечтаньи,\n", + "Вижу, в легком одеяньи\n", + "Будто милая со мной;\n", + "Робко, сладостно дыханье,\n", + "Белой груди колебанье,\n", + "Снег затмивший белизной,\n", + "И полуотверсты очи,\n", + "Скромный мрак безмолвной ночи —\n", + "Дух в восторг приводят мой!..\n", + "Я один в беседке с нею,\n", + "Вижу… девственну лилею,\n", + "Трепещу, томлюсь, немею…\n", + "И проснулся… вижу мрак\n", + "Вкруг постели одинокой!\n", + "Испускаю вздох глубокой,\n", + "Сон ленивый, томноокой\n", + "Отлетает на крылах.\n", + "Страсть сильнее становится\n", + "И, любовью утомясь,\n", + "Я слабею всякой час.\n", + "Всё к чему-то ум стремится,\n", + "А к чему? – никто из нас\n", + "Дамам в слух того не скажет,\n", + "А уж так и сяк размажет.\n", + "Я – по-свойски объяснюсь.\n", + "\n", + "Все любовники желают\n", + "И того, чего не знают;\n", + "Это свойство их – дивлюсь!\n", + "Завернувшись балахоном,\n", + "С хватской шапкой на бекрень\n", + "Я желал бы Филимоном\n", + "Под вечер, как всюду тень,\n", + "Взяв Анюты нежну руку,\n", + "Изъяснять любовну муку,\n", + "Говорить: она моя!\n", + "Я желал бы, чтоб Назорой\n", + "Ты старалася меня\n", + "Удержать умильным взором.\n", + "Иль седым Опекуном\n", + "Легкой, миленькой Розины,\n", + "Старым пасынком судьбины,\n", + "В епанче и с париком,\n", + "Дерзкой пламенной рукою\n", + "Белоснежну, полну грудь…\n", + "Я желал бы… да ногою\n", + "Моря не перешагнуть.\n", + "И, хоть по уши влюбленный,\n", + "Но с тобою разлученный,\n", + "Всей надежды я лишен.\n", + "\n", + "Но, Наталья! ты не знаешь\n", + "Кто твой нежный Селадон,\n", + "Ты еще не понимаешь,\n", + "Отчего не смеет он\n", + "И надеяться? – Наталья!\n", + "Выслушай еще меня:\n", + "\n", + "Не владетель я Сераля,\n", + "Не арап, не турок я.\n", + "За учтивого китайца,\n", + "Грубого американца\n", + "Почитать меня нельзя,\n", + "Не представь и немчурою,\n", + "С колпаком на волосах,\n", + "С кружкой, пивом налитою,\n", + "И с цыгаркою в зубах.\n", + "Не представь кавалергарда\n", + "В каске, с длинным палашом.\n", + "Не люблю я бранный гром:\n", + "Шпага, сабля, алебарда\n", + "Не тягчат моей руки\n", + "За Адамовы грехи.\n", + "\n", + "– Кто же ты, болтун влюбленный?\n", + "Взглянь на стены возвышенны,\n", + "Где безмолвья вечный мрак;\n", + "Взглянь на окны загражденны,\n", + "На лампады там зажженны…\n", + "Знай, Наталья! – я… монах!\n", + "\n", + "\n", + "Преобразованный текст:\n", + " [106 96 48 92 100 92 131 45 93 92 6 13 45 96 117 39 92 89\n", + " 70 6 121 100 70 108 89 39 101 41 133 117 108 92 13 96 92 29\n", + " 117 100 24 96 92 127 6 29 100 8 108 45 4 41 60 93 37 8\n", + " 24 93 92 89 117 37 96 89 117 45 108 93 92 29 70 93 45 100\n", + " 70 108 89 39 4 41 77 37 100 13 45 96 9 89 39 92 15 92\n", + " 100 92 139 92 74 70 9 102 70 93 45 40 41 77 37 108 70 93\n", + " 117 93 70 108 92 89 121 96 89 117 39 139 92 74 37 93 131 139\n", + " 101 41 127 96 48 101 92 70 9 102 74 100 92 45 93 92 13 45\n", + " 96 139 92 102 37 93 131 139 101 41 135 92 22 100 74 96 70 92\n", + " 8 96 92 29 108 29 93 74 96 70 101 41 127 96 48 92 74 92\n", + " 117 93 96 117 37 93 92 100 92 45 96 92 102 96 70 96 88 101\n", + " 41 97 96 92 31 6 70 139 45 39 139 88 92 100 70 39 92 74\n", + " 92 74 108 48 89 96 70 96 88 41 79 93 31 48 100 131 92 13\n", + " 93 27 100 37 108 131 92 70 93 117 96 70 4 41 127 96 48 101\n", + " 92 89 131 93 139 89 39 92 74 108 92 13 70 108 92 105 131 6\n", + " 37 6 101 41 135 92 29 100 89 96 70 92 48 96 37 100 48 96\n", + " 117 6 37 6 41 97 96 92 70 9 102 93 13 45 14 42 92 22\n", + " 93 45 89 48 108 42 92 29 108 70 4 41 97 108 92 45 96 29\n", + " 37 96 89 45 108 92 139 92 89 131 93 139 70 89 139 101 41 97\n", + " 96 48 108 45 93 24 92 100 92 89 96 131 92 29 108 29 96 70\n", + " 89 139 101 41 60 96 131 101 92 6 74 14 40 92 89 92 6 131\n", + " 96 92 89 108 80 93 70 86 41 60 131 93 88 100 101 92 74 108\n", + " 70 39 45 108 89 117 39 92 15 92 74 89 78 92 29 108 8 92\n", + " 70 96 74 48 6 41 7 13 92 127 96 117 108 45 108 74 92 139\n", + " 92 74 92 108 117 89 117 96 74 48 6 101 41 7 92 117 93 29\n", + " 93 37 39 92 139 92 15 92 60 93 70 96 8 108 45 40 41 81\n", + " 100 70 108 74 100 8 45 108 42 92 22 37 100 24 14 92 106 96\n", + " 70 39 100 41 87 100 8 93 70 92 29 37 93 70 93 89 117 100\n", + " 92 97 96 117 96 70 39 100]\n" + ] + } + ], + "source": [ + "# Проверяем работу функции - кодируем один из текстов и смотрим как он выглядит в кодированном виде\n", + "encode = to_matrix(data[:1], char2id, MAXLEN)\n", + "print(\"Исходный текст:\\n\", data[0])\n", + "print(\"Преобразованный текст:\\n\", encode[0])" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "nSrGA_gLLh3A" + }, + "source": [ + "### Вопрос 2\n", + "Пояснить, что хранится в переменной `encode`.\n", + "\n", + "Как будет выглядеть ваша фамилия в кодированном виде?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "eQ-s7rzHFu9T" + }, + "source": [ + "# Подготовка нейросети" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "c3qNOFx8Fwec" + }, + "source": [ + "![](https://raw.githubusercontent.com/tensorflow/text/master/docs/tutorials/images/text_generation_training.png)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "atZoEO6VFyQf" + }, + "source": [ + "Исходя из архитектуры нейросети на картинке, нужно задать 3 слоя:\n", + " - Embedding\n", + " - GRU\n", + " - Dense\n", + "\n", + "\n", + "Для этого воспользуемся pytorch, ссылки на подробную документацию каждого слоя:\n", + " - [nn.Embedding](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)\n", + " - [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html)\n", + " - [nn.Linear](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) " + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": { + "id": "3rAXL2-QFvM9" + }, + "outputs": [], + "source": [ + "num_embeddings = len(vocab) #количество эмбеддингов должно соответствовать длине словаря\n", + "embedding_dim = 32 #определяется размерность эмбеддинга\n", + "emb = nn.Embedding(num_embeddings, embedding_dim) # Определяем объект emb как слой эмбеддингов заданного размера" + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" }, + "id": "mGb6aUqfOmav", + "outputId": "ec17500b-0522-4c56-a6f9-0a5da11f7346" + }, + "outputs": [ { - "cell_type": "code", - "execution_count": null, - "metadata": { - "id": "H8CjiUvzHBn2" - }, - "outputs": [], - "source": [ - "#torch.save(model, \"gpt2_finetune.torch\")\n", - "#mod = torch.load(\"gpt2_finetune.torch\")" + "data": { + "text/plain": [ + "143" ] + }, + "execution_count": 34, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "\n", + "num_embeddings" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "esvotgUlMADX" + }, + "source": [ + "### Вопрос 3\n", + "Почему количество эмбеддингов должно соответствовать длине словаря?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "hHK3n4noF2OP" + }, + "source": [ + "В качестве примера пропустим через этот слой первые 5 букв первого текста." + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "GvwHFBOWFz-U", + "outputId": "0a58cf39-3151-48d5-846c-6f55d1dfc863" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер тензора: torch.Size([5, 32])\n", + "\n", + "tensor([[ 1.5029e+00, -1.7916e+00, 2.2026e+00, -2.2513e+00, -6.9742e-01,\n", + " 3.0790e-01, 6.8104e-01, 7.7460e-01, -6.1624e-01, 1.5153e+00,\n", + " -4.1424e-01, -3.7886e-01, 3.0690e-01, 2.3166e-04, -1.3926e-01,\n", + " -4.1106e-01, -3.6484e-01, 3.3451e-01, -3.3457e+00, -6.2611e-01,\n", + " 8.0940e-01, 8.7477e-01, -9.3242e-02, 1.0553e+00, 1.0860e+00,\n", + " -4.8333e-01, 1.1123e+00, 6.2818e-01, 2.5269e-01, 1.3213e+00,\n", + " 5.3855e-01, 4.6009e-01],\n", + " [ 5.7508e-01, 1.6589e+00, -1.1679e+00, -2.4309e+00, -3.9557e-01,\n", + " 3.8376e-01, -9.8238e-01, -1.1509e+00, 2.2251e+00, -4.6321e-01,\n", + " 6.5630e-01, -1.9887e+00, -6.1972e-01, -1.6304e-01, -9.7050e-01,\n", + " -2.5951e-01, 4.9236e-01, -1.9583e+00, 1.9546e+00, -1.0485e+00,\n", + " 1.2174e-01, 8.9455e-01, -2.3779e+00, 2.3129e+00, -2.7838e-01,\n", + " 9.1432e-01, -2.7290e+00, -1.1626e+00, -8.9565e-01, -8.5091e-03,\n", + " 8.8071e-01, -9.9323e-03],\n", + " [-8.4068e-01, -6.1268e-01, 6.7328e-01, -9.6503e-01, 6.8494e-01,\n", + " -8.4349e-01, 3.5604e-01, 1.7478e+00, -1.7844e-01, -7.7445e-01,\n", + " 1.3449e+00, 1.1115e+00, 1.1597e+00, 7.3386e-01, 9.6546e-01,\n", + " -1.7147e+00, -3.4931e-01, 1.7341e-01, 3.5583e-01, -2.5318e-01,\n", + " -4.7672e-01, -1.4090e-02, -5.9210e-01, 5.4945e-01, 1.6417e-01,\n", + " -4.4186e-01, 7.3914e-01, 1.8834e+00, 3.0256e-01, 6.1556e-01,\n", + " -9.7063e-01, 4.4972e-01],\n", + " [ 5.6335e-01, 1.9862e-01, 3.7290e-01, 9.5874e-01, 6.3197e-01,\n", + " 2.9606e-01, 1.6983e+00, -6.7355e-01, -3.7383e-01, -1.0147e+00,\n", + " -1.2620e-02, 6.6465e-01, 9.1266e-01, 1.2363e+00, 1.9966e+00,\n", + " -1.1470e+00, -5.4097e-01, 1.3002e+00, -1.4012e+00, -8.1303e-01,\n", + " -7.5828e-01, 2.8108e-01, 1.0428e+00, 4.5049e-01, -1.2042e-01,\n", + " -1.2361e+00, 2.9283e-01, -1.6573e+00, 3.8987e-01, -2.1059e-01,\n", + " 1.4592e-01, -2.3350e-01],\n", + " [ 7.5370e-01, -1.6429e+00, -8.4913e-01, 3.6310e-02, 1.4648e+00,\n", + " -9.0935e-01, -2.1241e-01, -3.0972e-01, 6.5774e-01, 6.8460e-01,\n", + " 4.4648e-01, 6.2579e-01, 7.1138e-01, 1.8680e+00, -1.3650e+00,\n", + " 1.2340e-02, -1.2517e-01, 3.1195e-01, 3.0871e-01, 5.0507e-01,\n", + " -1.2373e+00, -1.0363e+00, -4.4852e-01, -8.9384e-01, -4.5717e-01,\n", + " 1.0538e-01, 4.1036e-01, 2.9193e+00, -1.1410e+00, 8.8568e-01,\n", + " -3.3892e-01, -7.0943e-01]], grad_fn=)\n" + ] + } + ], + "source": [ + "# emb_out - 5 первых символов в виде эмбедингов\n", + "emb_out = emb(torch.tensor(encode[0][:5]))\n", + "print(f\"Размер тензора: {emb_out.shape}\\n\")\n", + "print(emb_out)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "-YOv6t-qMOQi" + }, + "source": [ + "### Вопрос 4\n", + "Пояснить, почему получен такой размер `emb_out`?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "nkS5ZQ8fF4XP" + }, + "source": [ + "# Создадим ячейку GRU" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "ZBfkiOYmM9yr" + }, + "source": [ + "### Вопрос 5\n", + "Обратиться к документации к [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html) и ответить на вопрос, за что отчечают параметры `input_size`, `hidden_size`, `num_layers`.\n", + "\n", + "В следующей ячейке задать значения для этих параметров" + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5bJ7fRAYFz71", + "outputId": "08fe5314-c7fb-4901-9947-4eabbd4c2326" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер output: torch.Size([5, 64])\n", + "Размер h_n: torch.Size([1, 64])\n" + ] + } + ], + "source": [ + "# Определяем ячейку GRU в переменной gru, предварительно задав рамерность скрытого состояния и количество рекуррентных слоев\n", + "input_size = emb.embedding_dim # вход в GRU должен соответствовать размеру эмбеддинга\n", + "hidden_size = 64 #\n", + "num_layers = 1 #\n", + "gru = nn.GRU(input_size, hidden_size, num_layers)\n", + "output, h_n = gru(emb_out)\n", + "print(\"Размер output:\", output.shape)\n", + "print(\"Размер h_n:\", h_n.shape)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "4W5Q3O45F6wh" + }, + "source": [ + "Выходом GRU является 2 тензора:\n", + " - output (используется для классификации)\n", + " - тензор скрытого состояния h_n (используается для последующей передачи во времени)\n", + "\n", + "Теперь используем output для предсказания следующей буквы, пропустив через линейный слой" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "p16NvYn2Fz4-", + "outputId": "a31d5f60-dfe0-4a7e-c078-ee7700750aa6" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер выходного слоя из нейросети: torch.Size([5, 143])\n" + ] + } + ], + "source": [ + "in_features = gru.hidden_size\n", + "out_features = len(vocab) #предсказываем букву из всего словаря\n", + "linear = nn.Linear(in_features, out_features) # Определяем линейный слой. Почему заданы такие входные и выходные параметры для него?\n", + "linear_out = linear(output) # output - выход GRU\n", + "print(\"Размер выходного слоя из нейросети: \", linear_out.shape)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "6no89JxCNwvX" + }, + "source": [ + "### Вопрос 6\n", + "Что содержится в векторе linear_out?\n", + "\n", + "Определить индекс символа, который наиболее вероятно выдаст ячейка GRU на первом шаге?" + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "Z2lThHhjOBI2", + "outputId": "50a18b7f-094d-41e1-a728-c47ef9561474" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "tensor([ 0.0909, -0.0186, -0.2154, -0.2624, -0.0282, -0.1714, -0.0423, 0.1505,\n", + " 0.0645, 0.0452, -0.0173, -0.0822, 0.1414, 0.1803, -0.2480, -0.1756,\n", + " -0.0447, -0.0136, 0.1097, -0.2245, 0.0189, -0.0559, 0.0215, -0.0040,\n", + " 0.0454, 0.2437, -0.2015, 0.0818, 0.2883, 0.2263, -0.0109, 0.1681,\n", + " -0.0642, -0.0497, 0.1583, -0.0795, -0.0376, 0.0674, -0.1307, 0.0640,\n", + " 0.0966, 0.0140, -0.1366, -0.1685, 0.0397, -0.1600, -0.0497, -0.2244,\n", + " -0.1075, -0.1048, 0.0275, -0.0144, -0.1456, 0.0394, -0.1426, -0.0605,\n", + " -0.0743, 0.1303, 0.0337, 0.1010, -0.0651, -0.1233, 0.0282, 0.2729,\n", + " 0.0485, -0.0911, 0.1994, 0.0610, 0.0911, 0.0940, -0.0973, 0.0747,\n", + " 0.0031, 0.1500, -0.0295, 0.0127, -0.2865, -0.0251, -0.1395, 0.1547,\n", + " 0.0830, 0.0782, -0.0181, 0.1317, -0.0537, 0.1293, -0.2458, 0.1477,\n", + " -0.0610, -0.0592, -0.2878, -0.1622, 0.1336, 0.0987, -0.0834, -0.0815,\n", + " -0.1764, 0.0202, -0.0097, 0.0176, -0.1874, 0.0716, -0.1070, -0.1364,\n", + " 0.1748, 0.1479, -0.0478, 0.0862, 0.0648, 0.1126, -0.0995, -0.1324,\n", + " 0.1023, -0.0247, 0.0439, 0.0212, -0.0608, 0.0402, 0.1468, 0.2311,\n", + " -0.1142, 0.2198, -0.1181, -0.2196, -0.0653, 0.0870, -0.3388, 0.1208,\n", + " 0.0851, 0.0590, 0.1963, 0.0710, 0.1099, 0.1648, 0.0260, -0.1451,\n", + " 0.0012, -0.0973, -0.1058, -0.0628, 0.0585, 0.1859, -0.0573],\n", + " grad_fn=)" + ] + }, + "execution_count": 29, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "linear_out[0]" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "NZnJy28VF894" + }, + "source": [ + "Теперь определим класс со всеми частями:" + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": { + "id": "1GinxRWgF9KG" + }, + "outputs": [], + "source": [ + "class CharGRULoop(nn.Module): # Описываем инициализатор класса.\n", + " def __init__(self, num_embeddings=52, embedding_dim=16, hidden_size=64, num_layers=1): # В методе __init__ определим архитектуру модели, создав необходимые слои\n", + " super(self.__class__, self).__init__()\n", + " self.emb = nn.Embedding(num_embeddings, embedding_dim)\n", + " self.gru = nn.GRU(embedding_dim, hidden_size, num_layers, batch_first=True)\n", + " self.hid_to_logits = nn.Linear(hidden_size, num_embeddings)\n", + "\n", + " def forward(self, x, hid_state): # Здесь описываем стурктуру сети - как сигнал должен по ней проходить\n", + " x = self.emb(x) # Проходим через эмбеддинг-слой\n", + " if hid_state is not None: # Проходим через GRU, сохраняя hidden state\n", + " h_seq, hid_state = self.gru(x, hid_state)\n", + " else:\n", + " h_seq, hid_state = self.gru(x)\n", + " next_logits = self.hid_to_logits(h_seq) # проходим через полносвязный слой\n", + " next_logp = F.log_softmax(next_logits, dim=-1) # Используем функцию softmax\n", + " return next_logp, hid_state" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "1aW5mneXF_cy" + }, + "source": [ + "Определим модель:" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": { + "id": "_U6Q0oosF_o7" + }, + "outputs": [], + "source": [ + "model = CharGRULoop(num_embeddings=len(vocab), embedding_dim=64, hidden_size=192, num_layers=2)\n", + "# Можно попробовать создать сеть с другими значениями параметров" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "nnS2cn8YGBPw" + }, + "source": [ + "Количество параметров:" + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "metadata": { + "id": "zp7I2GVIGCOw" + }, + "outputs": [], + "source": [ + "!pip -q install torchinfo" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "24-GKj6nGDc4", + "outputId": "8bc88d9d-0105-4ad6-ab6a-5a90c5d2a4bf" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "=================================================================\n", + "Layer (type:depth-idx) Param #\n", + "=================================================================\n", + "CharGRULoop --\n", + "├─Embedding: 1-1 9,152\n", + "├─GRU: 1-2 370,944\n", + "├─Linear: 1-3 27,599\n", + "=================================================================\n", + "Total params: 407,695\n", + "Trainable params: 407,695\n", + "Non-trainable params: 0\n", + "=================================================================" + ] + }, + "execution_count": 36, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "from torchinfo import summary\n", + "\n", + "summary(model)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "gIEsZBJbUNY5" + }, + "source": [ + "Каждый раз, когда вы вызываете модель (forward), вы передаете некоторый текст и внутреннее состояние. Модель возвращает прогноз для следующего символа и его нового состояния.\n", + "\n", + "![image.png]()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "afVs3q7tGFPO" + }, + "source": [ + "Функция для генерации последовательности символов (текста)" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": { + "id": "meZeWXwUGFss" + }, + "outputs": [], + "source": [ + "def generate_sample(model, char2id, id2char, seed_phrase=' ', strategy=\"greedy\", max_length=100, temperature=1.0):\n", + " \"\"\"\n", + " model - нейросеть\n", + " char2id - словарь преобразования букв в их индексы\n", + " id2char - словарь преобразования индексов в буквы\n", + " seed_phrase - начальная фраза для генерации\n", + " strategy - стратегия генерации (жадная \"greedy\" или сэмплирование \"sample\")\n", + " max_length - максимальная длина сгенирированного текста\n", + " temperature - ???\n", + " \"\"\"\n", + "\n", + " x_sequence = [char2id[token] for token in seed_phrase] # кодируем начальную фразу\n", + " x_sequence = torch.tensor([x_sequence], dtype=torch.int64) # создаем тензор\n", + " hid_state = None # задаем тензор скрытого состояния h_n, при такой подачи вектор заполнится нулями\n", + "\n", + " with torch.no_grad(): # отключаем подсчет градиентов, поскольку сеть уже обучена и не нужно проводить обратное распространение ошибки\n", + " for i in range(len(seed_phrase) - 1): # подаем номер буквы и hid_state в цикле\n", + " _, hid_state = model(x_sequence[:, i].unsqueeze(0), hid_state)\n", + "\n", + " # начинаем генерацию\n", + " for _ in range(max_length - len(seed_phrase)):\n", + "\n", + " logp_next, hid_state = model(x_sequence[:, -1].unsqueeze(0), hid_state) # подаем последнюю букву из фразы\n", + " p_next = F.softmax(logp_next / temperature, dim=-1).data.numpy()[0] # нормируем выходы модели на температуру и применяем софтмакс\n", + "\n", + " if strategy == \"greedy\": next_ix = p_next.argmax() #берем токен с максимальной вероятностью\n", + " elif strategy == \"sample\": next_ix = np.random.choice(len(id2char), p=p_next[0]) #получаем следующий токен сэмплированием с вероятностями\n", + " else: raise ValueError('Хулиган, не делай так! Выбери \"greedy\" или \"sample\"')\n", + "\n", + " if id2char[next_ix] == \"EOS\": break # если получили токен EOS, то прекращаем генерацию\n", + " else:\n", + " next_ix = torch.tensor([[next_ix]], dtype=torch.int64) # создаем тензор следующий буквы\n", + " x_sequence = torch.cat([x_sequence, next_ix], dim=1) # добавляем предсказанный токен в конец последовательности\n", + "\n", + " return ''.join([id2char[ix] for ix in x_sequence.data.numpy()[0]]) # возвращаем декодированную строку" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "IJohkcbJGG5O" + }, + "source": [ + "Попробуем что-нибудь сгенерировать:" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "b2hqsv33P2gW" + }, + "source": [ + "### Вопрос 7\n", + "Выполните следующую ячейку несколько раз с одной и той же SEED_PHRASE, запомните выводы модели и объясните результат - чем отличается стратегия greedy от sample?" + ] + }, + { + "cell_type": "code", + "execution_count": 43, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5bqp2xRjGIdW", + "outputId": "431d70ec-9bca-4765-aae6-3ae6e143fb11" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Я люблю машинное обучение!\n", + "ддZгàuгuuZsàCCCCОааа___IIшCCОаа!___IICйCCОаа!___IICйCCОаа!___IICйCCОаа!__\n", + "\n", + "Я люблю машинное обучение!\n", + "" + ] + }, + "metadata": {}, + "output_type": "display_data" } + ], + "source": [ + "EPOCH = 200 # количество эпох обучения\n", + "history_train = [] # список значений лосса трейна на каждой эпохи\n", + "history_test = [] # список значений лосса теста на каждой эпохи\n", + "model.to(device) # И модель, и данные должны находиться на одном устройстве.\n", + " # Поэтому при работе с GPU нужно следить и явно указывать, на каком устройстве проводится работа.\n", + "\n", + "\n", + "best_test_loss = float(\"inf\")\n", + "for i in range(EPOCH): #цикл по эпохам\n", + "\n", + " loss_test = 0\n", + " loss_train = 0\n", + "\n", + " for batch in dataloader_train: #цикл по тренировачным батчам\n", + "\n", + " optimizer.zero_grad() #обнуляем градиенты\n", + " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device) #делаем из батча тензор\n", + "\n", + " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None) #подаем батч в модель\n", + "\n", + " actual_next_tokens = batch_ix[:, 1:] # таргеры\n", + "\n", + " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long()) # считаем лосс на батче\n", + " loss_train += loss.item() # добавляем лосс с батча в суммарный лосс\n", + "\n", + " loss.backward() # делаем обратный проход\n", + " optimizer.step() # делаем шаг оптимизатором\n", + "\n", + " history_train.append(loss_train/len(dataloader_train)) # добавляем средний лосс за эпоху в список\n", + "\n", + " for batch in dataloader_test: #цикл по тестовым батчам\n", + " with torch.no_grad(): # отключаем подсчет градиентов\n", + "\n", + " batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device)\n", + " predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None)\n", + "\n", + " actual_next_tokens = batch_ix[:, 1:]\n", + "\n", + " loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long())\n", + " loss_test += loss.item()\n", + "\n", + " loss_test = loss_test/len(dataloader_test)\n", + " history_test.append(loss_test)\n", + "\n", + " if loss_test < best_test_loss: #сохраняем лучшую модель по лоссу на тесте\n", + " best_test_loss = loss_test\n", + " best_model = copy.deepcopy(model)\n", + " best_model.to(\"cpu\")\n", + "\n", + " if (i + 1) % 5 == 0: # выводим график лосса каждые 5 эпох\n", + " clear_output(True)\n", + " plt.plot(history_train, label='loss_train')\n", + " plt.plot(history_test, label='loss_test')\n", + " plt.grid()\n", + " plt.legend()\n", + " plt.show()\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "iWGz3oH3Rowq" + }, + "source": [ + "### Вопрос 8\n", + "Достаточно ли обучилась модель? Имеет ли смысл изменить количество эпох обучения?" + ] + }, + { + "cell_type": "code", + "execution_count": 51, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "k924KVVaGU4t", + "outputId": "01db571f-54df-421e-cdf5-6c6c4ce7bf72" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "perplexity (best model test): 7.181648032772434\n", + "perplexity (last epoch test): 7.421088521940808\n" + ] + } + ], + "source": [ + "print(\"perplexity (best model test): \", np.exp(best_test_loss))\n", + "print(\"perplexity (last epoch test): \", np.exp(loss_test))" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "5fwRbhzDGVxl", + "outputId": "230be0e7-f04c-4c63-8576-2e2971a82b00" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "CharGRULoop(\n", + " (emb): Embedding(143, 64)\n", + " (gru): GRU(64, 256, num_layers=3, batch_first=True)\n", + " (hid_to_logits): Linear(in_features=256, out_features=143, bias=True)\n", + ")" + ] + }, + "execution_count": 52, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "device = 'cpu' # Обучение обычно проводится на GPU, но чтобы не тратить его ресурсы, работу по генерации текста уже обученной моделью стоит перенести обратно на CPU\n", + "model.to(device)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "0PWo3arcGWvv" + }, + "source": [ + "Погенерируем текст. Сначала зададим стартовую фразу.\n", + "\n", + "Выполнив следующие ячейки по несколько раз, убедитесь, что правильно ответили на вопрос 7 \"Чем отличается стратегия greedy от sample?\"" + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "metadata": { + "id": "dtUW5hVBGX9p" + }, + "outputs": [], + "source": [ + "#Если вы не согласны, вы можете поменять стартовую фразу, но что думает об этом высказывание машина?\n", + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "Nr24uuQRGZqQ" + }, + "source": [ + "Sample strategy" + ] + }, + { + "cell_type": "code", + "execution_count": 56, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "bY_iYC82GY28", + "outputId": "1a41d952-882b-451a-b321-f2066f03f255" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "В вечерчят, может и ребких ряд,\n", + "Когда в тихает Наздним не рафстились взор,\n", + "Где боющей слус во знали цвю,\n", + "Еврожачи в пустыню твоей, прочей,\n", + "В Ажертрянный лес пропариду улещенье,\n", + "Истревняешь литее молви от меня за Eилей\n", + "В и ждох эти пыраматься спомнорой,\n", + "И вишел ее пеельчим на пытом.\n", + "\n", + "Зевители, моей пужко образ роды погоглавляек;\n", + "Скворный, сокружлен ускоре вином:\n", + "\n", + " EOS любится каз ним меня дороды!\n", + "Всях казы-тро ты сладо мною рошу.\n", + "Нет, и красота тебе прироща\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"sample\", max_length=MAXLEN))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "i6n4dUScGbk9" + }, + "outputs": [], + "source": [ + "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", + "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "gyB9g3KOGe8k" + }, + "source": [ + "Greedy strategy:\n" + ] + }, + { + "cell_type": "code", + "execution_count": 58, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "HuTB1fdlGd0b", + "outputId": "83440df4-700d-4c3b-935b-8e3aa5f65bcb" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "И в тебе под него не след не внемлет он мой под сон,\n", + "И в тебя с полей под сенью покой приветный страсть устались,\n", + "И в тебя в тебя с поле под сенью покой,\n", + "И с тобой страсть и страсть у него в поле молчаливой,\n", + "И с тобой в тебе с полей под страсть и страсть на волненье,\n", + "И в тебя в тебя с поле под страсть и страсть на восторга,\n", + "И с тебя с невольно прости страсть и страсть на восторга,\n", + "И с тебя с невольно прости страсть и страсть на восторга,\n", + "И с тебя с невольн\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"greedy\", max_length=MAXLEN))" + ] + }, + { + "cell_type": "code", + "execution_count": 59, + "metadata": { + "id": "_tKKZheZGfu8" + }, + "outputs": [], + "source": [ + "#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n", + "#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))" + ] + }, + { + "cell_type": "code", + "execution_count": 59, + "metadata": { + "id": "RpVEloyFScaa" + }, + "outputs": [], + "source": [ + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "jxpdQXl1GhyL" + }, + "source": [ + "# Эксперименты с температурой" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "LdKkJc5vGjIt" + }, + "source": [ + "В функции `generate_sample` есть параметр `temperature`.\n", + "\n", + "Основываясь на прошлом пункте, выберите стратегию, которая больше понравилась и запустите ячейки с разной температурой" + ] + }, + { + "cell_type": "code", + "execution_count": 60, + "metadata": { + "id": "h88cuY0HGfsa" + }, + "outputs": [], + "source": [ + "nice_strategy = \"sample\" #" + ] + }, + { + "cell_type": "code", + "execution_count": 61, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "9uZZRmP-GlS2", + "outputId": "46f77170-a06e-4e72-98ca-f30d76e0c5f2" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Теория автоматического управления - лучший предмет,\n", + "Нет.У дух преБЦя! убиием?> Скутxщ:: —\n", + "мбебле) был за цев чещу\n", + "Па. ТДа чевтовых: а домите,\n", + "Хтон живлчивые Посов, я , куке, лесь,\n", + "<пучалу> лябесимlим КлOE<жуе оRлки-пом,\n", + "Бедпятные пъе! сrакиса: ебя.\n", + ". нелаться, лены яхтну…\n", + "М зигранном дня, <судую,\n", + "Афием, П*\";c——\n", + "ДТрома, нуй, чтоко и; Дьбл\n", + "Еу! укнавнпиdусем.и.. ь,я\n", + "\n", + "Гдю Увер!ы\n", + "Дррикаявь, твое гофJ —!\n", + "Уе.ш. И, Бстоъ тиханью,\n", + "Лю??\n", + "Хласуя âлучит хожделz штон!…Л.\n", + "…»>\n", + "ожестгу<чиг\n", + "Ясь.…а хванни дупгухНвеннемляцы. —\n" + ] + } + ], + "source": [ + "print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=nice_strategy, max_length=MAXLEN, temperature=2.0))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "DwIORQ3OoiKN" + }, + "source": [ + "### Вопрос 9\n", + "Сделайте выводы как влияет изменение температуры на генерацию текста.\n", + "\n", + "Выберите оптимальное значение температуры" + ] + }, + { + "cell_type": "code", + "execution_count": 62, + "metadata": { + "id": "4DoOXClVohes" + }, + "outputs": [], + "source": [ + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "metadata": { + "id": "htAW_ABDGnc6" + }, + "outputs": [], + "source": [ + "# По завершению работы с рекуррентной сетью, очистим кэш\n", + "torch.cuda.empty_cache()" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "rlcgdw_gGpiO" + }, + "source": [ + "# Bonus track GPT" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "FND3cMDMGra3" + }, + "source": [ + "Дальше происходит магия, чтобы все вышло:\n", + " - здесь лучше перезапустить сеанс (Среда выполнения -> Перезапустить сеанс)" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "HEZqH-4rGo84", + "outputId": "881559c1-9659-4157-97fc-ccf9425169b3" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m297.3/297.3 kB\u001b[0m \u001b[31m4.3 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m23.7/23.7 MB\u001b[0m \u001b[31m43.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m823.6/823.6 kB\u001b[0m \u001b[31m46.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m14.1/14.1 MB\u001b[0m \u001b[31m62.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m731.7/731.7 MB\u001b[0m \u001b[31m1.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m410.6/410.6 MB\u001b[0m \u001b[31m1.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m121.6/121.6 MB\u001b[0m \u001b[31m7.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m56.5/56.5 MB\u001b[0m \u001b[31m11.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m124.2/124.2 MB\u001b[0m \u001b[31m8.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m196.0/196.0 MB\u001b[0m \u001b[31m6.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m166.0/166.0 MB\u001b[0m \u001b[31m7.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m99.1/99.1 kB\u001b[0m \u001b[31m13.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m21.1/21.1 MB\u001b[0m \u001b[31m58.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n", + "\u001b[?25h" + ] + } + ], + "source": [ + "!pip install -q transformers[torch]" + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "id": "5ccG2XtoGtDT" + }, + "outputs": [], + "source": [ + "import locale\n", + "import torch\n", + "import transformers\n", + "import numpy as np\n", + "\n", + "from warnings import simplefilter\n", + "from IPython.display import clear_output\n", + "from transformers import Trainer, TrainingArguments\n", + "from transformers import GPT2LMHeadModel, GPT2Tokenizer\n", + "from transformers import TextDataset, DataCollatorForLanguageModeling\n" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "id": "xerwrDTGGtAc" + }, + "outputs": [], + "source": [ + "# Задаем некоторые настроечные параметры касательно кодировки и отображения предупреждений\n", + "locale.getpreferredencoding = lambda: \"UTF-8\"\n", + "simplefilter(\"ignore\", category=FutureWarning)\n", + "transformers.logging.set_verbosity_error()" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "id": "ygm4wl7EGvLX" + }, + "outputs": [], + "source": [ + "\n", + "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n", + "\n", + "model_name = \"sberbank-ai/rugpt3small_based_on_gpt2\" # Опередлим, какой моделью будем пользоваться\n", + "tokenizer = GPT2Tokenizer.from_pretrained(model_name) # Определим токенайзер для нашего текста\n", + "model = GPT2LMHeadModel.from_pretrained(model_name).to(device) # Загрузим предобученную модель трансформера rugpt3small от Сбера\n", + "\n", + "clear_output()" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "jfAXAgtfGvIs", + "outputId": "a9f47a68-7a4a-4edc-be98-cbf539e277cb" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Теория автоматического управления - лучший предмет, который я знаю.\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n" + ] + } + ], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "out = model.generate(input_ids, do_sample=False, max_length=20)\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))[0]\n", + "\n", + "print(generated_text) #Так работает предобученный трансформер" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "By_ukdhOp_F8" + }, + "source": [ + "Давайте дообучим трансформер на нашем датасете - мы хотим генерировать стихи" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": { + "id": "YLIYVZ1AGxzV" + }, + "outputs": [], + "source": [ + "train_path = \"train_dataset.txt\"\n", + "\n", + "with open(\"poems.txt\", encoding=\"utf-8\") as file:\n", + " data = file.read().split(\"\\n\\n\")\n", + "\n", + "with open(train_path, mode=\"w\", encoding=\"utf-8\") as f:\n", + " f.write(\"\".join(data))" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": { + "id": "ulVcdoROGyy2" + }, + "outputs": [], + "source": [ + "train_dataset = TextDataset(tokenizer=tokenizer, file_path=train_path, block_size=128) # Создание датасета\n", + "data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False) # Создание даталодера (нарезает текст на оптимальные по длине куски)" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": { + "id": "nTkPLolOGzqH" + }, + "outputs": [], + "source": [ + "\n", + "training_args = TrainingArguments(\n", + " output_dir=\"./finetuned\",\n", + " overwrite_output_dir=True,\n", + " num_train_epochs=15,\n", + " per_device_train_batch_size=32,\n", + " per_device_eval_batch_size=32,\n", + " warmup_steps=10, # рекомендованные значения (warmup_steps нужен для \"разогрева\" сети, c его помощью learning rate постепенно увеличивается до заданного значения)\n", + " gradient_accumulation_steps=16, # рекомендованные значения\n", + ")\n", + "#(обычно мы хотим положить батч по-больше, чтобы сеть побыстрей сошлась, но мы ограничены памятью gpu, gradient_accumulation_steps накапливает (суммирует или усредняет) градиенты за прогон на 16 батчах )\n", + "\n", + "trainer = Trainer(\n", + " model=model,\n", + " args=training_args,\n", + " data_collator=data_collator,\n", + " train_dataset=train_dataset,\n", + " optimizers=(\n", + " torch.optim.AdamW(model.parameters(), lr=1e-5), # рекомендованные значения\n", + " None,\n", + " ),\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "MN4IUz0cG06R" + }, + "source": [ + "Эта ячейка займет около 15-20 минут" + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "MIDjczLBG1x4", + "outputId": "4cd93a79-50a4-4f67-dc0d-1736a9055395" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "{'train_runtime': 512.7748, 'train_samples_per_second': 43.499, 'train_steps_per_second': 0.059, 'train_loss': 4.064910634358724, 'epoch': 10.21}\n" + ] + } + ], + "source": [ + "output = trainer.train() # Дообучаем трансформер на наши тексты" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "jGSF1YRpHzUw", + "outputId": "76ecac12-dd33-4005-d1bd-4a6e27a0f74e" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "perplexity: 58.25970187428917\n" + ] + } + ], + "source": [ + "print('perplexity: ', np.exp(output.training_loss)) #расчет перплексии" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "CssQW8rLHzUx" + }, + "source": [ + "### Вопрос 10\n", + "Какое значение перплексии получилось у трансформера?\n", + "\n", + "Какое значение перплексии получалось у рекуррентной сети?\n", + "\n", + "Почему у рекуррентной сети значение было существенно ниже, но качество текстов хуже? Почему нельзя сравнивать значения для рекуррентной сети и трансформера?\n" + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ZEG2FYNsG4oy", + "outputId": "0bad01e8-fb2a-4a34-c1ba-39dd01017a66" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Теория автоматического управления - лучший предмет,\n", + "Когда в нем все подчинено закону. \n", + "\n", + "И только законы в нем\n", + "Ошибки и воры\n", + "Так искусно ведут против\n", + "Нимфы его дела;\n", + "Они как раз в ней с самого начала\n", + "Узрели: человек есть душа,\n", + "Коли вдруг он не становится ни грешным,\n", + "Ни преступником,\n", + "Ни преступником.\n", + "\n", + "Он как будто в ней живет,\n", + "И в ней дух живет,\n", + "В ней свет есть для всех он,\n", + "Она его питает,\n", + "Она о нем поет.\n", + "\n", + "Но для него ничего не значит\n", + "Свой день, свои жертвы,\n", + "Он не может быть свободен,\n", + "И он ни над кем не властен:\n", + "В нем весь ход земного рая\n", + "В нем его предел.\n", + "\n", + "Он хочет жить, он хочет умереть,\n", + "Готов он ко всему и не может\n", + "Предать себя сомненьем;\n", + "В нем человек в конце концов\n", + "Перестает жить и для себя.\n", + "Ведь он же человек,\n", + "Он ведь даже в своем законе\n", + "Омертвляет грех силою мысли.\n", + "\n", + "Но все напрасно: с нею человек живет:\n", + "И в нем живет она со своей душой.\n", + "Но\n" + ] + } + ], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "model.eval()\n", + "with torch.no_grad():\n", + " out = model.generate(\n", + " input_ids,\n", + " do_sample=True, # sample strategy\n", + " temperature=1.0,\n", + " max_length=256,\n", + " pad_token_id=512 # указываем id токена\n", + " )\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))[0]\n", + "print()\n", + "print(generated_text)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "kK91Afxmqsnr" + }, + "source": [ + "### Вопрос 11\n", + "Проверьте работу ячейки выше для разных стартовых фраз и разных параметров `temperature`, `max_length`, `do_sample` и объясните, за что отвечает каждый из параметров. Подберите (субъективно) лучшие" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "URWWyeN_G92m" + }, + "source": [ + "# Beam Search\n", + "До этого мы использовали обычный \"жадный\" поиск\n", + "\n", + "![](https://huggingface.co/blog/assets/02_how-to-generate/greedy_search.png)\n", + "\n", + "Для каждого слова следующим считали _наиболее вероятное_.\n", + "Но, возможно, пройдя по не самому вероятному слову, в итоге мы получим более вероятную __последовательность__ слов, чем при жадном алгоритме.\n", + "Такой подход называется Beam search.\n", + "\n", + "![](https://huggingface.co/blog/assets/02_how-to-generate/beam_search.png)\n", + "\n", + "[подробнее тут](https://huggingface.co/blog/how-to-generate)\n", + "\n", + "Для использования Beam search передадим в функцию генерации параметр `num_beams` который характеризует количество рассматриваемых \"альтернативных\" путей" + ] + }, + { + "cell_type": "code", + "execution_count": 105, + "metadata": { + "id": "f5qj2KVoG56d" + }, + "outputs": [], + "source": [ + "SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n", + "input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n", + "model.eval()\n", + "with torch.no_grad():\n", + " out = model.generate(\n", + " input_ids,\n", + " do_sample=False,\n", + " max_new_tokens=75,\n", + " no_repeat_ngram_size=3, # устанавливает вероятность 0 для повторяющихся n-gram (таким образом решается проблема зацикливания)\n", + " pad_token_id=512,\n", + " num_beams=5,\n", + " num_return_sequences=5, # количество возвращенных сгенерированных текстов отранжированных по вероятности после beam_search\n", + " top_p=0.9, #\n", + " top_k=20, #\n", + " temperature=2.0 #\n", + " )\n", + "\n", + "generated_text = list(map(tokenizer.decode, out))\n" + ] + }, + { + "cell_type": "code", + "execution_count": 106, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "af8foFo1f6Hj", + "outputId": "0f5328b9-201b-486a-b569-30ce7715278a" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Applicant 0\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, и другого.\n", + "\n", + "\n", + "\n", + "Applicant 1\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, что знаю я.\n", + "\n", + "\n", + "Applicant 2\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И то, и другое.\n", + "\n", + "\n", + "\n", + "Applicant 3\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И того, чего не знаю я\n", + "\n", + "\n", + "Applicant 4\n", + "Теория автоматического управления - лучший предмет,\n", + "Который я когда-либо читал.\n", + "\n", + "Я знаю, что это не так,\n", + "Но я не знаю, как это объяснить.\n", + "Я не знаю даже, как объяснить\n", + "То, что я знаю, и то, что не знаю.\n", + "И я знаю только то,\n", + "Что знаю я, но не знаю\n", + "И то, чего не знаю я\n", + "\n", + "\n" + ] + } + ], + "source": [ + "# Выведем _num_return_sequences_ сгенерированных текстов\n", + "for i, seq in enumerate(generated_text):\n", + " print(f\"Applicant {i}\", seq, \"\\n\", sep=\"\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "AWJBlaMSHzU0" + }, + "source": [ + " Дополнительно можно изучить смысл параметров top_p и top_k [по ссылке](https://huggingface.co/blog/how-to-generate)\n", + "\n", + "Опробуйте разные значения параметров, какая схема выборки получилась лучше?" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "NgxotZZrHBLI" + }, + "source": [ + "Сохранить модель при необходимости:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "H8CjiUvzHBn2" + }, + "outputs": [], + "source": [ + "#torch.save(model, \"gpt2_finetune.torch\")\n", + "#mod = torch.load(\"gpt2_finetune.torch\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "8Cn991FqHzU3" + }, + "source": [ + "### Вопрос 12\n", + "Вместо вывода добавьте лучший сгенерированый текст за лабораторную работу и напишите при какой архитектуре и при каких параметрах он получен:\n", + "\n", + "Например: tuned gpt3 with params:\n", + "\n", + "* do_sample=True,\n", + "* max_new_tokens=80,\n", + "* no_repeat_ngram_size=3,\n", + "* ...\n", + "\n", + "\n", + "В мире, где порядок стремится к хаосу,\n", + "\n", + "Теория управления - свет во тьме.\n", + "\n", + "Автоматы, системы, в них неспроста\n", + "\n", + "Скрыт закон, управляющий временем.\n", + "\n", + "\n", + "Регуляторы, обратные связи,\n", + "\n", + "В этом мире - как волшебный ключ.\n", + "\n", + "С их помощью мы можем, без отказа,\n", + "\n", + "Двигать системы, чьё движенье - дым.\n", + "\n", + "\n", + "\n", + "В каждом узле, в каждом переходе\n", + "\n", + "Скрыта струна, что звучит на удивление чисто.\n", + "\n", + "ТАУ нас учит, как в море перемен,\n", + "\n", + "Найти путь, где устойчивость - не миф, а быль." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "Lmhlmlk5lTD3" + }, + "source": [ + "# Контрольные вопросы\n", + "1. В чем особенность рекуррентных нейронных сетей?\n", + "1. Типы рекуррентных сетей - обычная RNN\n", + "1. Типы рекуррентных сетей - LSTM\n", + "1. Типы рекуррентных сетей - GRU\n", + "1. Что такое и как вычисляется перплексия\n", + "1. Что такое \"предобученная\" модель и для чего ее нужно \"дообучать\"?\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "id": "Ia7mf_pIlpKe" + }, + "outputs": [], + "source": [] + } + ], + "metadata": { + "accelerator": "GPU", + "colab": { + "gpuType": "T4", + "provenance": [], + "toc_visible": true + }, + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" }, - "nbformat": 4, - "nbformat_minor": 0 -} \ No newline at end of file + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.12" + } + }, + "nbformat": 4, + "nbformat_minor": 1 +}