Вы не можете выбрать более 25 тем Темы должны начинаться с буквы или цифры, могут содержать дефисы(-) и должны содержать не более 35 символов.

2425 строки
207 KiB
Plaintext

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

{
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "vOpSJBZfFKuo"
},
"source": [
"![](https://camo.githubusercontent.com/518a06d7ca808cd4ad8d5b6deb4ef15983d4649737618153432479f977935bba/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f79616e646578646174617363686f6f6c2f6e6c705f636f757273652f6d61737465722f7265736f75726365732f657870616e64696e675f6d696e645f6c6d5f6b6e5f332e706e67)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "ha8cW_h-FIND"
},
"source": [
"reference:\n",
"\n",
" - [nlp for you](https://lena-voita.github.io/nlp_course/language_modeling.html)\n",
"\n",
" - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course/tree/2023/week03_lm)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "H2QPNriQIvTw"
},
"source": [
"# Лабораторная работа №4. Использование нейронных сетей для генерации текста\n",
"В ходе работы мы будем обучать нейронные сети генерировать тексты, похожие на стихи поэтов.\n",
"\n",
"## Цель работы\n",
"Получить практические навыки решения задачи генерации текста.\n",
"\n",
"## Указания\n",
"1. Для работы рекомендуется использовать Google Colab и среду с GPU для ускорения расчетов. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\".\n",
"\n",
"2. Выполнять работу следует последовательно запуская ячейки, анализируя код и приведенные комментарии и разъяснения.\n",
"\n",
"3. В ходе работы будут встречаться вопросы, на которые нужно ответить, создав после него новую ячейку. Вопросы отмечены заголовками 3-го уровня.\n",
"Для ответа досточно 1-2 предложений. Но будьте готовы более подробно его пояснить при устной беседе.\n",
"\n",
"4. Обращайте внимание на комментарии `<your choice here>` - здесь вам нужно будет вставить значения параметров либо исходя из анализа кода\\выборки (где указано), либо попробовать разные варианты. Парамеры, приведенные тут по умолчанию, не обязательно правильные.\n",
"\n",
"## Варианты заданий\n",
"\n",
"Четные номера по журналу - Пушкин, нечетные - Маяковский.\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "96PukQZbFNwL"
},
"source": [
"# Загрузка библиотек"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {
"id": "nyb7MBAsFNhh"
},
"outputs": [],
"source": [
"import copy\n",
"import torch\n",
"import numpy as np\n",
"import torch.nn as nn\n",
"import torch.nn.functional as F\n",
"import matplotlib.pyplot as plt\n",
"\n",
"\n",
"from random import sample\n",
"from IPython.display import clear_output\n",
"from torch.utils.data import DataLoader, TensorDataset"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "eyO1tDFiGwFu"
},
"source": [
"При использовании Google Colab следует выбрать среду выполнения с аппаратным ускорителем GPU, что существенно ускорит расчеты. Для установки среды, использующей GPU в Google Colab нужно выбрать пункт меню \"Среда выполнения\" -> \"Сменить среду выполнения\" -> выбрать аппаратный ускоритель \"GPU\". При этом, следующая ячейка, проверяющая доступность CUDA (платформы, использующей графические ускорители), должна возвращать `True`"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "XtIrqKT4GSXf",
"outputId": "376ab52b-e0d9-4c48-a01a-0c1191d9fa5f"
},
"outputs": [
{
"data": {
"text/plain": [
"True"
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"torch.cuda.is_available()"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "vXAr_sdxFSKm"
},
"source": [
"# Загрузим данные\n",
"\n",
"В соответствии с вариантом"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "Krp456VbE7yP",
"outputId": "bd470eb1-d3e8-4059-a5cb-f24831c3d9dd"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"--2024-04-05 17:50:23-- http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n",
"Resolving uit.mpei.ru (uit.mpei.ru)... 193.233.68.149\n",
"Connecting to uit.mpei.ru (uit.mpei.ru)|193.233.68.149|:80... connected.\n",
"HTTP request sent, awaiting response... 200 OK\n",
"Length: 1048627 (1.0M) [text/plain]\n",
"Saving to: poems.txt\n",
"\n",
"poems.txt 100%[===================>] 1.00M 625KB/s in 1.6s \n",
"\n",
"2024-04-05 17:50:25 (625 KB/s) - poems.txt saved [1048627/1048627]\n",
"\n"
]
}
],
"source": [
"!wget -O poems.txt http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/pushkin.txt\n",
"\n",
"# Маяковский: http://uit.mpei.ru/git/main/TDA/raw/branch/master/assets/poems/mayakovskiy.txt\n"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "BFnX81iNFFEf",
"outputId": "f2efb98f-d09e-49d6-f8b4-2952ae48c075"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Количество стихов: 720\n",
"\n",
"Пример стиха:\n",
"\n",
"Возможно ль? вместо роз, Амуром насажденных,\n",
"Тюльпанов гордо наклоненных,\n",
"Душистых ландышей, ясминов и лилей,\n",
"Которых ты всегда любила\n",
"И прежде всякой день носила\n",
"На мраморной груди твоей —\n",
"Возможно ль, милая Климена,\n",
"Какая странная во вкусе перемена!..\n",
"Ты любишь обонять не утренний цветок,\n",
"А вредную траву зелену,\n",
"Искусством превращенну\n",
"В пушистый порошок! —\n",
"Пускай уже седой профессор Геттингена,\n",
"На старой кафедре согнувшися дугой,\n",
"Вперив в латинщину глубокой разум свой,\n",
"Раскашлявшись, табак толченый\n",
"Пихает в длинный нос иссохшею рукой;\n",
"Пускай младой драгун усатый\n",
"Поутру, сидя у окна,\n",
"С остатком утреннего сна,\n",
"Из трубки пенковой дым гонит сероватый;\n",
"Пускай красавица шестидесяти лет,\n",
"У Граций в отпуску, и у любви в отставке,\n",
"Которой держится вся прелесть на подставке,\n",
"Которой без морщин на теле места нет,\n",
"Злословит, молится, зевает\n",
"И с верным табаком печали забывает, —\n",
"А ты, прелестная!.. но если уж табак\n",
"Так нравится тебе – о пыл воображенья! —\n",
"Ах! если, превращенный в прах,\n",
"И в табакерке, в заточеньи,\n",
"Я в персты нежные твои попасться мог,\n",
"Тогда б в сердечном восхищеньи\n",
"Рассыпался на грудь под шелковый платок\n",
"И даже… может быть… Но что! мечта пустая.\n",
"Не будет этого никак.\n",
"Судьба завистливая, злая!\n",
"Ах, отчего я не табак!..\n",
"\n",
"\n"
]
}
],
"source": [
"# Загружаем текст из файла.\n",
"# Стихотворения в файле разделены токеном '</s>'\n",
"\n",
"with open(\"poems.txt\") as file:\n",
" data = file.read().split(\"</s>\\n\\n\")\n",
"print(f\"Количество стихов: {len(data)}\\n\", f\"Пример стиха:\\n\\n{data[10]}\", sep=\"\\n\")"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "urxR6VN2FbVl"
},
"source": [
"# Подготовка данных и сводные статистики"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "OhWos8xuFZZj",
"outputId": "635e93d6-6614-4c2c-c6c0-b0c7e70ea6ae"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Количество уникальных символов: 143\n",
"{0: 'PAD', 1: 'EOS', 2: 'a', 3: 'g', 4: ';', 5: 'R', 6: 'у', 7: 'И', 8: 'д', 9: 'ю', 10: 'V', 11: '?', 12: 'd', 13: 'з', 14: 'ы', 15: '–', 16: '(', 17: 'H', 18: 'Г', 19: ':', 20: 'm', 21: 'é', 22: 'ж', 23: 'c', 24: 'ц', 25: 'l', 26: 'Ф', 27: 'ф', 28: 'â', 29: 'п', 30: 'b', 31: 'г', 32: 'k', 33: 'B', 34: 'S', 35: \"'\", 36: 'z', 37: 'р', 38: 'ъ', 39: 'ь', 40: '!', 41: '\\n', 42: 'й', 43: 'Б', 44: '\"', 45: 'н', 46: '_', 47: 'P', 48: 'к', 49: 'F', 50: '»', 51: '*', 52: '—', 53: 'Ц', 54: 'L', 55: 'ê', 56: 'щ', 57: ')', 58: 's', 59: 'y', 60: 'С', 61: 'Ш', 62: 'Р', 63: 'э', 64: 'i', 65: 'x', 66: 'У', 67: 'è', 68: 'à', 69: 'p', 70: 'л', 71: 'T', 72: 'I', 73: 'û', 74: 'в', 75: '„', 76: 'Z', 77: 'П', 78: 'ё', 79: 'Л', 80: 'ш', 81: 'М', 82: '…', 83: '-', 84: 'З', 85: 'n', 86: '.', 87: 'В', 88: 'х', 89: 'с', 90: 'Ю', 91: 'C', 92: ' ', 93: 'е', 94: 'j', 95: 'Х', 96: 'а', 97: 'Н', 98: 'Д', 99: 'M', 100: 'и', 101: ',', 102: 'б', 103: '<', 104: '>', 105: 'А', 106: 'Т', 107: 'N', 108: 'о', 109: '«', 110: '\\xa0', 111: 'o', 112: 'Й', 113: 'Q', 114: 'U', 115: 'W', 116: 'ç', 117: 'т', 118: 'Е', 119: 'O', 120: 'О', 121: 'ч', 122: 'e', 123: 'u', 124: 'f', 125: 'D', 126: 'E', 127: 'К', 128: 'v', 129: 'Ж', 130: 'Щ', 131: 'м', 132: 'A', 133: 'Ч', 134: 'h', 135: 'Я', 136: 'ô', 137: 'J', 138: 't', 139: 'я', 140: 'r', 141: 'q', 142: 'Э'}\n"
]
}
],
"source": [
"# Составляем словарь уникальных токенов\n",
"vocab = [\"PAD\", \"EOS\",] + list(set(\"\".join(data))) #список уникальных символов.\n",
"\n",
"# Формируем два словаря, реализующие перевод символов в их индексы и обратно\n",
"id2char = dict(enumerate(vocab)) #словарь индексов в символы\n",
"char2id = {char: ind for ind, char in id2char.items()} #словарь символов в индексы\n",
"print(f\"Количество уникальных символов: {len(vocab)}\", id2char, sep=\"\\n\")"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "xeTO4fBQFfBS"
},
"source": [
"Рассмотрим длины текстов"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "J-u-IxOeFZXY",
"outputId": "3ac61929-c08f-447f-df37-0f65030d3a57"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Максимальная длина текста: 8948\n"
]
}
],
"source": [
"lengths = list(map(len, data))\n",
"print(\"Максимальная длина текста: \", max(lengths))"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 564
},
"id": "Ym7S8tmNFZUg",
"outputId": "67470c7b-ad81-4445-85d0-d3b1a4621e33"
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1400x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.rcParams[\"figure.figsize\"] = (14, 6)\n",
"plt.hist(lengths, bins=30, range=[0, 6000])\n",
"plt.xlabel(\"Длина текста в символах\")\n",
"plt.title(\"Гистограмма длин текстов\")\n",
"plt.grid()"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "JuD6onVvFZR8",
"outputId": "49d24414-289e-4775-ac16-2f33f8873ac1"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Средняя длина 808.9125\n",
"Медиана длины 453.5\n",
"Мода длины 221\n"
]
}
],
"source": [
"lengths = np.array(lengths)\n",
"print(\"Средняя длина\", np.mean(lengths))\n",
"print(\"Медиана длины\", np.median(lengths))\n",
"print(\"Мода длины\", np.bincount(lengths).argmax())"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "wjXxroS0IDXu"
},
"source": [
"### Вопрос 1\n",
"Где можно будет использовать знание о параметрах распределения длин в выборке?"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "zfkSHd-8FlE1"
},
"source": [
"Выберите длину для генерации"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {
"id": "y-Q7-EPuFZO5"
},
"outputs": [],
"source": [
"# Устанавливаем, сколько символов будет генерировать модель (максимальная длина генерируемого текста)\n",
"MAXLEN = 512 #<your choice here>"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "TSfv4n08Fpiv"
},
"source": [
"# Преобразование данных"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "vtelHtjyFq1N"
},
"source": [
"Создадим функцию для преобразования текста в вектора одинакового размера для подачи в нейросеть. В этой функции добавляется токен EOS - конец последовательности. Если текст короче заданной длины, то добавляется специальный токен PAD. Если текст больше заданной длины, то он обрезается."
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {
"id": "Hf9iaFRKJUGq"
},
"outputs": [],
"source": [
"line_ix = [char2id[c] for c in data[5][:512]]"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {
"id": "2emYDlcVJnwi"
},
"outputs": [],
"source": [
"data_ix = np.zeros([len(data[5]), 512], 'int64')\n",
"data_ix[5, :len(line_ix)] = line_ix"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "QA5lQz2eJ8Oq",
"outputId": "e5df533b-ff5e-494a-d6ae-b2e8e4ffd442"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[0 0 0 ... 0 0 0]\n"
]
}
],
"source": [
"data_ix= np.transpose(data_ix)\n",
"print(data_ix[5])"
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {
"id": "YYGc7vo2FoTw"
},
"outputs": [],
"source": [
"def to_matrix(data, char2id, max_len=None, dtype='int64', batch_first = True):\n",
"\n",
" max_len = max_len if max_len else max(map(len, data))\n",
" data = [text[:max_len] + \" EOS\" for text in data]\n",
" data_ix = np.zeros([len(data), max_len], dtype)\n",
"\n",
" for i in range(len(data)):\n",
" line_ix = [char2id[c] for c in data[i][:max_len]]\n",
" data_ix[i, :len(line_ix)] = line_ix\n",
"\n",
" if not batch_first: # convert [batch, time] into [time, batch]\n",
" data_ix = np.transpose(data_ix)\n",
"\n",
" return data_ix"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "DbkCcqotFoRP",
"outputId": "97e86d8c-26f4-407a-c587-58d0df5867cd"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Исходный текст:\n",
" Так и мне узнать случилось,\n",
"Что за птица Купидон;\n",
"Сердце страстное пленилось;\n",
"Признаюсь – и я влюблен!\n",
"Пролетело счастья время,\n",
"Как, любви не зная бремя,\n",
"Я живал да попевал,\n",
"Как в театре и на балах,\n",
"На гуляньях иль в воксалах\n",
"Легким зефиром летал;\n",
"Как, смеясь во зло Амуру,\n",
"Я писал карикатуру\n",
"На любезный женской пол;\n",
"Но напрасно я смеялся,\n",
"Наконец и сам попался,\n",
"Сам, увы! с ума сошел.\n",
"Смехи, вольность – всё под лавку\n",
"Из Катонов я в отставку,\n",
"И теперь я – Селадон!\n",
"Миловидной жрицы Тальи\n",
"Видел прелести Натальи,\n",
"И уж в сердце – Купидон!\n",
"\n",
"Так, Наталья! признаюся,\n",
"Я тобою полонен,\n",
"В первый раз еще, стыжуся,\n",
"В женски прелести влюблен.\n",
"Целый день, как ни верчуся\n",
"Лишь тобою занят я;\n",
"Ночь придет – и лишь тебя\n",
"Вижу я в пустом мечтаньи,\n",
"Вижу, в легком одеяньи\n",
"Будто милая со мной;\n",
"Робко, сладостно дыханье,\n",
"Белой груди колебанье,\n",
"Снег затмивший белизной,\n",
"И полуотверсты очи,\n",
"Скромный мрак безмолвной ночи —\n",
"Дух в восторг приводят мой!..\n",
"Я один в беседке с нею,\n",
"Вижу… девственну лилею,\n",
"Трепещу, томлюсь, немею…\n",
"И проснулся… вижу мрак\n",
"Вкруг постели одинокой!\n",
"Испускаю вздох глубокой,\n",
"Сон ленивый, томноокой\n",
"Отлетает на крылах.\n",
"Страсть сильнее становится\n",
"И, любовью утомясь,\n",
"Я слабею всякой час.\n",
"Всё к чему-то ум стремится,\n",
"А к чему? – никто из нас\n",
"Дамам в слух того не скажет,\n",
"А уж так и сяк размажет.\n",
"Я – по-свойски объяснюсь.\n",
"\n",
"Все любовники желают\n",
"И того, чего не знают;\n",
"Это свойство их – дивлюсь!\n",
"Завернувшись балахоном,\n",
"С хватской шапкой на бекрень\n",
"Я желал бы Филимоном\n",
"Под вечер, как всюду тень,\n",
"Взяв Анюты нежну руку,\n",
"Изъяснять любовну муку,\n",
"Говорить: она моя!\n",
"Я желал бы, чтоб Назорой\n",
"Ты старалася меня\n",
"Удержать умильным взором.\n",
"Иль седым Опекуном\n",
"Легкой, миленькой Розины,\n",
"Старым пасынком судьбины,\n",
"В епанче и с париком,\n",
"Дерзкой пламенной рукою\n",
"Белоснежну, полну грудь…\n",
"Я желал бы… да ногою\n",
"Моря не перешагнуть.\n",
"И, хоть по уши влюбленный,\n",
"Но с тобою разлученный,\n",
"Всей надежды я лишен.\n",
"\n",
"Но, Наталья! ты не знаешь\n",
"Кто твой нежный Селадон,\n",
"Ты еще не понимаешь,\n",
"Отчего не смеет он\n",
"И надеяться? – Наталья!\n",
"Выслушай еще меня:\n",
"\n",
"Не владетель я Сераля,\n",
"Не арап, не турок я.\n",
"За учтивого китайца,\n",
"Грубого американца\n",
"Почитать меня нельзя,\n",
"Не представь и немчурою,\n",
"С колпаком на волосах,\n",
"С кружкой, пивом налитою,\n",
"И с цыгаркою в зубах.\n",
"Не представь кавалергарда\n",
"В каске, с длинным палашом.\n",
"Не люблю я бранный гром:\n",
"Шпага, сабля, алебарда\n",
"Не тягчат моей руки\n",
"За Адамовы грехи.\n",
"\n",
"– Кто же ты, болтун влюбленный?\n",
"Взглянь на стены возвышенны,\n",
"Где безмолвья вечный мрак;\n",
"Взглянь на окны загражденны,\n",
"На лампады там зажженны…\n",
"Знай, Наталья! – я… монах!\n",
"\n",
"\n",
"Преобразованный текст:\n",
" [106 96 48 92 100 92 131 45 93 92 6 13 45 96 117 39 92 89\n",
" 70 6 121 100 70 108 89 39 101 41 133 117 108 92 13 96 92 29\n",
" 117 100 24 96 92 127 6 29 100 8 108 45 4 41 60 93 37 8\n",
" 24 93 92 89 117 37 96 89 117 45 108 93 92 29 70 93 45 100\n",
" 70 108 89 39 4 41 77 37 100 13 45 96 9 89 39 92 15 92\n",
" 100 92 139 92 74 70 9 102 70 93 45 40 41 77 37 108 70 93\n",
" 117 93 70 108 92 89 121 96 89 117 39 139 92 74 37 93 131 139\n",
" 101 41 127 96 48 101 92 70 9 102 74 100 92 45 93 92 13 45\n",
" 96 139 92 102 37 93 131 139 101 41 135 92 22 100 74 96 70 92\n",
" 8 96 92 29 108 29 93 74 96 70 101 41 127 96 48 92 74 92\n",
" 117 93 96 117 37 93 92 100 92 45 96 92 102 96 70 96 88 101\n",
" 41 97 96 92 31 6 70 139 45 39 139 88 92 100 70 39 92 74\n",
" 92 74 108 48 89 96 70 96 88 41 79 93 31 48 100 131 92 13\n",
" 93 27 100 37 108 131 92 70 93 117 96 70 4 41 127 96 48 101\n",
" 92 89 131 93 139 89 39 92 74 108 92 13 70 108 92 105 131 6\n",
" 37 6 101 41 135 92 29 100 89 96 70 92 48 96 37 100 48 96\n",
" 117 6 37 6 41 97 96 92 70 9 102 93 13 45 14 42 92 22\n",
" 93 45 89 48 108 42 92 29 108 70 4 41 97 108 92 45 96 29\n",
" 37 96 89 45 108 92 139 92 89 131 93 139 70 89 139 101 41 97\n",
" 96 48 108 45 93 24 92 100 92 89 96 131 92 29 108 29 96 70\n",
" 89 139 101 41 60 96 131 101 92 6 74 14 40 92 89 92 6 131\n",
" 96 92 89 108 80 93 70 86 41 60 131 93 88 100 101 92 74 108\n",
" 70 39 45 108 89 117 39 92 15 92 74 89 78 92 29 108 8 92\n",
" 70 96 74 48 6 41 7 13 92 127 96 117 108 45 108 74 92 139\n",
" 92 74 92 108 117 89 117 96 74 48 6 101 41 7 92 117 93 29\n",
" 93 37 39 92 139 92 15 92 60 93 70 96 8 108 45 40 41 81\n",
" 100 70 108 74 100 8 45 108 42 92 22 37 100 24 14 92 106 96\n",
" 70 39 100 41 87 100 8 93 70 92 29 37 93 70 93 89 117 100\n",
" 92 97 96 117 96 70 39 100]\n"
]
}
],
"source": [
"# Проверяем работу функции - кодируем один из текстов и смотрим как он выглядит в кодированном виде\n",
"encode = to_matrix(data[:1], char2id, MAXLEN)\n",
"print(\"Исходный текст:\\n\", data[0])\n",
"print(\"Преобразованный текст:\\n\", encode[0])"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "nSrGA_gLLh3A"
},
"source": [
"### Вопрос 2\n",
"Пояснить, что хранится в переменной `encode`.\n",
"\n",
"Как будет выглядеть ваша фамилия в кодированном виде?"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "eQ-s7rzHFu9T"
},
"source": [
"# Подготовка нейросети"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "c3qNOFx8Fwec"
},
"source": [
"![](https://raw.githubusercontent.com/tensorflow/text/master/docs/tutorials/images/text_generation_training.png)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "atZoEO6VFyQf"
},
"source": [
"Исходя из архитектуры нейросети на картинке, нужно задать 3 слоя:\n",
" - Embedding\n",
" - GRU\n",
" - Dense\n",
"\n",
"\n",
"Для этого воспользуемся pytorch, ссылки на подробную документацию каждого слоя:\n",
" - [nn.Embedding](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)\n",
" - [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html)\n",
" - [nn.Linear](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) "
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {
"id": "3rAXL2-QFvM9"
},
"outputs": [],
"source": [
"num_embeddings = len(vocab) #количество эмбеддингов должно соответствовать длине словаря\n",
"embedding_dim = 32 #определяется размерность эмбеддинга\n",
"emb = nn.Embedding(num_embeddings, embedding_dim) # Определяем объект emb как слой эмбеддингов заданного размера"
]
},
{
"cell_type": "code",
"execution_count": 34,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "mGb6aUqfOmav",
"outputId": "ec17500b-0522-4c56-a6f9-0a5da11f7346"
},
"outputs": [
{
"data": {
"text/plain": [
"143"
]
},
"execution_count": 34,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"\n",
"num_embeddings"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "esvotgUlMADX"
},
"source": [
"### Вопрос 3\n",
"Почему количество эмбеддингов должно соответствовать длине словаря?"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "hHK3n4noF2OP"
},
"source": [
"В качестве примера пропустим через этот слой первые 5 букв первого текста."
]
},
{
"cell_type": "code",
"execution_count": 23,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "GvwHFBOWFz-U",
"outputId": "0a58cf39-3151-48d5-846c-6f55d1dfc863"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер тензора: torch.Size([5, 32])\n",
"\n",
"tensor([[ 1.5029e+00, -1.7916e+00, 2.2026e+00, -2.2513e+00, -6.9742e-01,\n",
" 3.0790e-01, 6.8104e-01, 7.7460e-01, -6.1624e-01, 1.5153e+00,\n",
" -4.1424e-01, -3.7886e-01, 3.0690e-01, 2.3166e-04, -1.3926e-01,\n",
" -4.1106e-01, -3.6484e-01, 3.3451e-01, -3.3457e+00, -6.2611e-01,\n",
" 8.0940e-01, 8.7477e-01, -9.3242e-02, 1.0553e+00, 1.0860e+00,\n",
" -4.8333e-01, 1.1123e+00, 6.2818e-01, 2.5269e-01, 1.3213e+00,\n",
" 5.3855e-01, 4.6009e-01],\n",
" [ 5.7508e-01, 1.6589e+00, -1.1679e+00, -2.4309e+00, -3.9557e-01,\n",
" 3.8376e-01, -9.8238e-01, -1.1509e+00, 2.2251e+00, -4.6321e-01,\n",
" 6.5630e-01, -1.9887e+00, -6.1972e-01, -1.6304e-01, -9.7050e-01,\n",
" -2.5951e-01, 4.9236e-01, -1.9583e+00, 1.9546e+00, -1.0485e+00,\n",
" 1.2174e-01, 8.9455e-01, -2.3779e+00, 2.3129e+00, -2.7838e-01,\n",
" 9.1432e-01, -2.7290e+00, -1.1626e+00, -8.9565e-01, -8.5091e-03,\n",
" 8.8071e-01, -9.9323e-03],\n",
" [-8.4068e-01, -6.1268e-01, 6.7328e-01, -9.6503e-01, 6.8494e-01,\n",
" -8.4349e-01, 3.5604e-01, 1.7478e+00, -1.7844e-01, -7.7445e-01,\n",
" 1.3449e+00, 1.1115e+00, 1.1597e+00, 7.3386e-01, 9.6546e-01,\n",
" -1.7147e+00, -3.4931e-01, 1.7341e-01, 3.5583e-01, -2.5318e-01,\n",
" -4.7672e-01, -1.4090e-02, -5.9210e-01, 5.4945e-01, 1.6417e-01,\n",
" -4.4186e-01, 7.3914e-01, 1.8834e+00, 3.0256e-01, 6.1556e-01,\n",
" -9.7063e-01, 4.4972e-01],\n",
" [ 5.6335e-01, 1.9862e-01, 3.7290e-01, 9.5874e-01, 6.3197e-01,\n",
" 2.9606e-01, 1.6983e+00, -6.7355e-01, -3.7383e-01, -1.0147e+00,\n",
" -1.2620e-02, 6.6465e-01, 9.1266e-01, 1.2363e+00, 1.9966e+00,\n",
" -1.1470e+00, -5.4097e-01, 1.3002e+00, -1.4012e+00, -8.1303e-01,\n",
" -7.5828e-01, 2.8108e-01, 1.0428e+00, 4.5049e-01, -1.2042e-01,\n",
" -1.2361e+00, 2.9283e-01, -1.6573e+00, 3.8987e-01, -2.1059e-01,\n",
" 1.4592e-01, -2.3350e-01],\n",
" [ 7.5370e-01, -1.6429e+00, -8.4913e-01, 3.6310e-02, 1.4648e+00,\n",
" -9.0935e-01, -2.1241e-01, -3.0972e-01, 6.5774e-01, 6.8460e-01,\n",
" 4.4648e-01, 6.2579e-01, 7.1138e-01, 1.8680e+00, -1.3650e+00,\n",
" 1.2340e-02, -1.2517e-01, 3.1195e-01, 3.0871e-01, 5.0507e-01,\n",
" -1.2373e+00, -1.0363e+00, -4.4852e-01, -8.9384e-01, -4.5717e-01,\n",
" 1.0538e-01, 4.1036e-01, 2.9193e+00, -1.1410e+00, 8.8568e-01,\n",
" -3.3892e-01, -7.0943e-01]], grad_fn=<EmbeddingBackward0>)\n"
]
}
],
"source": [
"# emb_out - 5 первых символов в виде эмбедингов\n",
"emb_out = emb(torch.tensor(encode[0][:5]))\n",
"print(f\"Размер тензора: {emb_out.shape}\\n\")\n",
"print(emb_out)\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "-YOv6t-qMOQi"
},
"source": [
"### Вопрос 4\n",
"Пояснить, почему получен такой размер `emb_out`?"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "nkS5ZQ8fF4XP"
},
"source": [
"# Создадим ячейку GRU"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "ZBfkiOYmM9yr"
},
"source": [
"### Вопрос 5\n",
"Обратиться к документации к [nn.GRU](https://pytorch.org/docs/stable/generated/torch.nn.GRU.html) и ответить на вопрос, за что отчечают параметры `input_size`, `hidden_size`, `num_layers`.\n",
"\n",
"В следующей ячейке задать значения для этих параметров"
]
},
{
"cell_type": "code",
"execution_count": 25,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "5bJ7fRAYFz71",
"outputId": "08fe5314-c7fb-4901-9947-4eabbd4c2326"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер output: torch.Size([5, 64])\n",
"Размер h_n: torch.Size([1, 64])\n"
]
}
],
"source": [
"# Определяем ячейку GRU в переменной gru, предварительно задав рамерность скрытого состояния и количество рекуррентных слоев\n",
"input_size = emb.embedding_dim # вход в GRU должен соответствовать размеру эмбеддинга\n",
"hidden_size = 64 #<your choice here>\n",
"num_layers = 1 #<your choice here>\n",
"gru = nn.GRU(input_size, hidden_size, num_layers)\n",
"output, h_n = gru(emb_out)\n",
"print(\"Размер output:\", output.shape)\n",
"print(\"Размер h_n:\", h_n.shape)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "4W5Q3O45F6wh"
},
"source": [
"Выходом GRU является 2 тензора:\n",
" - output (используется для классификации)\n",
" - тензор скрытого состояния h_n (используается для последующей передачи во времени)\n",
"\n",
"Теперь используем output для предсказания следующей буквы, пропустив через линейный слой"
]
},
{
"cell_type": "code",
"execution_count": 26,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "p16NvYn2Fz4-",
"outputId": "a31d5f60-dfe0-4a7e-c078-ee7700750aa6"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер выходного слоя из нейросети: torch.Size([5, 143])\n"
]
}
],
"source": [
"in_features = gru.hidden_size\n",
"out_features = len(vocab) #предсказываем букву из всего словаря\n",
"linear = nn.Linear(in_features, out_features) # Определяем линейный слой. Почему заданы такие входные и выходные параметры для него?\n",
"linear_out = linear(output) # output - выход GRU\n",
"print(\"Размер выходного слоя из нейросети: \", linear_out.shape)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "6no89JxCNwvX"
},
"source": [
"### Вопрос 6\n",
"Что содержится в векторе linear_out?\n",
"\n",
"Определить индекс символа, который наиболее вероятно выдаст ячейка GRU на первом шаге?"
]
},
{
"cell_type": "code",
"execution_count": 29,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "Z2lThHhjOBI2",
"outputId": "50a18b7f-094d-41e1-a728-c47ef9561474"
},
"outputs": [
{
"data": {
"text/plain": [
"tensor([ 0.0909, -0.0186, -0.2154, -0.2624, -0.0282, -0.1714, -0.0423, 0.1505,\n",
" 0.0645, 0.0452, -0.0173, -0.0822, 0.1414, 0.1803, -0.2480, -0.1756,\n",
" -0.0447, -0.0136, 0.1097, -0.2245, 0.0189, -0.0559, 0.0215, -0.0040,\n",
" 0.0454, 0.2437, -0.2015, 0.0818, 0.2883, 0.2263, -0.0109, 0.1681,\n",
" -0.0642, -0.0497, 0.1583, -0.0795, -0.0376, 0.0674, -0.1307, 0.0640,\n",
" 0.0966, 0.0140, -0.1366, -0.1685, 0.0397, -0.1600, -0.0497, -0.2244,\n",
" -0.1075, -0.1048, 0.0275, -0.0144, -0.1456, 0.0394, -0.1426, -0.0605,\n",
" -0.0743, 0.1303, 0.0337, 0.1010, -0.0651, -0.1233, 0.0282, 0.2729,\n",
" 0.0485, -0.0911, 0.1994, 0.0610, 0.0911, 0.0940, -0.0973, 0.0747,\n",
" 0.0031, 0.1500, -0.0295, 0.0127, -0.2865, -0.0251, -0.1395, 0.1547,\n",
" 0.0830, 0.0782, -0.0181, 0.1317, -0.0537, 0.1293, -0.2458, 0.1477,\n",
" -0.0610, -0.0592, -0.2878, -0.1622, 0.1336, 0.0987, -0.0834, -0.0815,\n",
" -0.1764, 0.0202, -0.0097, 0.0176, -0.1874, 0.0716, -0.1070, -0.1364,\n",
" 0.1748, 0.1479, -0.0478, 0.0862, 0.0648, 0.1126, -0.0995, -0.1324,\n",
" 0.1023, -0.0247, 0.0439, 0.0212, -0.0608, 0.0402, 0.1468, 0.2311,\n",
" -0.1142, 0.2198, -0.1181, -0.2196, -0.0653, 0.0870, -0.3388, 0.1208,\n",
" 0.0851, 0.0590, 0.1963, 0.0710, 0.1099, 0.1648, 0.0260, -0.1451,\n",
" 0.0012, -0.0973, -0.1058, -0.0628, 0.0585, 0.1859, -0.0573],\n",
" grad_fn=<SelectBackward0>)"
]
},
"execution_count": 29,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"linear_out[0]"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "NZnJy28VF894"
},
"source": [
"Теперь определим класс со всеми частями:"
]
},
{
"cell_type": "code",
"execution_count": 30,
"metadata": {
"id": "1GinxRWgF9KG"
},
"outputs": [],
"source": [
"class CharGRULoop(nn.Module): # Описываем инициализатор класса.\n",
" def __init__(self, num_embeddings=52, embedding_dim=16, hidden_size=64, num_layers=1): # В методе __init__ определим архитектуру модели, создав необходимые слои\n",
" super(self.__class__, self).__init__()\n",
" self.emb = nn.Embedding(num_embeddings, embedding_dim)\n",
" self.gru = nn.GRU(embedding_dim, hidden_size, num_layers, batch_first=True)\n",
" self.hid_to_logits = nn.Linear(hidden_size, num_embeddings)\n",
"\n",
" def forward(self, x, hid_state): # Здесь описываем стурктуру сети - как сигнал должен по ней проходить\n",
" x = self.emb(x) # Проходим через эмбеддинг-слой\n",
" if hid_state is not None: # Проходим через GRU, сохраняя hidden state\n",
" h_seq, hid_state = self.gru(x, hid_state)\n",
" else:\n",
" h_seq, hid_state = self.gru(x)\n",
" next_logits = self.hid_to_logits(h_seq) # проходим через полносвязный слой\n",
" next_logp = F.log_softmax(next_logits, dim=-1) # Используем функцию softmax\n",
" return next_logp, hid_state"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "1aW5mneXF_cy"
},
"source": [
"Определим модель:"
]
},
{
"cell_type": "code",
"execution_count": 35,
"metadata": {
"id": "_U6Q0oosF_o7"
},
"outputs": [],
"source": [
"model = CharGRULoop(num_embeddings=len(vocab), embedding_dim=64, hidden_size=192, num_layers=2)\n",
"#<your choice here> Можно попробовать создать сеть с другими значениями параметров"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "nnS2cn8YGBPw"
},
"source": [
"Количество параметров:"
]
},
{
"cell_type": "code",
"execution_count": 32,
"metadata": {
"id": "zp7I2GVIGCOw"
},
"outputs": [],
"source": [
"!pip -q install torchinfo"
]
},
{
"cell_type": "code",
"execution_count": 36,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "24-GKj6nGDc4",
"outputId": "8bc88d9d-0105-4ad6-ab6a-5a90c5d2a4bf"
},
"outputs": [
{
"data": {
"text/plain": [
"=================================================================\n",
"Layer (type:depth-idx) Param #\n",
"=================================================================\n",
"CharGRULoop --\n",
"├─Embedding: 1-1 9,152\n",
"├─GRU: 1-2 370,944\n",
"├─Linear: 1-3 27,599\n",
"=================================================================\n",
"Total params: 407,695\n",
"Trainable params: 407,695\n",
"Non-trainable params: 0\n",
"================================================================="
]
},
"execution_count": 36,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from torchinfo import summary\n",
"\n",
"summary(model)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "gIEsZBJbUNY5"
},
"source": [
"Каждый раз, когда вы вызываете модель (forward), вы передаете некоторый текст и внутреннее состояние. Модель возвращает прогноз для следующего символа и его нового состояния.\n",
"\n",
"![image.png]()"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "afVs3q7tGFPO"
},
"source": [
"Функция для генерации последовательности символов (текста)"
]
},
{
"cell_type": "code",
"execution_count": 39,
"metadata": {
"id": "meZeWXwUGFss"
},
"outputs": [],
"source": [
"def generate_sample(model, char2id, id2char, seed_phrase=' ', strategy=\"greedy\", max_length=100, temperature=1.0):\n",
" \"\"\"\n",
" model - нейросеть\n",
" char2id - словарь преобразования букв в их индексы\n",
" id2char - словарь преобразования индексов в буквы\n",
" seed_phrase - начальная фраза для генерации\n",
" strategy - стратегия генерации (жадная \"greedy\" или сэмплирование \"sample\")\n",
" max_length - максимальная длина сгенирированного текста\n",
" temperature - ???\n",
" \"\"\"\n",
"\n",
" x_sequence = [char2id[token] for token in seed_phrase] # кодируем начальную фразу\n",
" x_sequence = torch.tensor([x_sequence], dtype=torch.int64) # создаем тензор\n",
" hid_state = None # задаем тензор скрытого состояния h_n, при такой подачи вектор заполнится нулями\n",
"\n",
" with torch.no_grad(): # отключаем подсчет градиентов, поскольку сеть уже обучена и не нужно проводить обратное распространение ошибки\n",
" for i in range(len(seed_phrase) - 1): # подаем номер буквы и hid_state в цикле\n",
" _, hid_state = model(x_sequence[:, i].unsqueeze(0), hid_state)\n",
"\n",
" # начинаем генерацию\n",
" for _ in range(max_length - len(seed_phrase)):\n",
"\n",
" logp_next, hid_state = model(x_sequence[:, -1].unsqueeze(0), hid_state) # подаем последнюю букву из фразы\n",
" p_next = F.softmax(logp_next / temperature, dim=-1).data.numpy()[0] # нормируем выходы модели на температуру и применяем софтмакс\n",
"\n",
" if strategy == \"greedy\": next_ix = p_next.argmax() #берем токен с максимальной вероятностью\n",
" elif strategy == \"sample\": next_ix = np.random.choice(len(id2char), p=p_next[0]) #получаем следующий токен сэмплированием с вероятностями\n",
" else: raise ValueError('Хулиган, не делай так! Выбери \"greedy\" или \"sample\"')\n",
"\n",
" if id2char[next_ix] == \"EOS\": break # если получили токен EOS, то прекращаем генерацию\n",
" else:\n",
" next_ix = torch.tensor([[next_ix]], dtype=torch.int64) # создаем тензор следующий буквы\n",
" x_sequence = torch.cat([x_sequence, next_ix], dim=1) # добавляем предсказанный токен в конец последовательности\n",
"\n",
" return ''.join([id2char[ix] for ix in x_sequence.data.numpy()[0]]) # возвращаем декодированную строку"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "IJohkcbJGG5O"
},
"source": [
"Попробуем что-нибудь сгенерировать:"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "b2hqsv33P2gW"
},
"source": [
"### Вопрос 7\n",
"Выполните следующую ячейку несколько раз с одной и той же SEED_PHRASE, запомните выводы модели и объясните результат - чем отличается стратегия greedy от sample?"
]
},
{
"cell_type": "code",
"execution_count": 43,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "5bqp2xRjGIdW",
"outputId": "431d70ec-9bca-4765-aae6-3ae6e143fb11"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Я люблю машинное обучение!\n",
"ддZгàuгuuZsàCCCCОааа___IIшCCОаа!___IICйCCОаа!___IICйCCОаа!___IICйCCОаа!__\n",
"\n",
"Я люблю машинное обучение!\n",
"<eâSайб«.<К»èôOг:cq<ыэôuqьW!Пто'ryS«щаâЖmХàrûЯзVЛОZhJripиDUhLСасм…шп-ЙpCà\n"
]
}
],
"source": [
"SEED_PHRASE = 'Я люблю машинное обучение!\\n' # Ну или что-то другое\n",
"print(generate_sample(model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"greedy\", max_length=100))\n",
"print()\n",
"print(generate_sample(model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"sample\", max_length=100))\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "zXrGUveMGKGV"
},
"source": [
"Разделим данные на тренировачные и тестовые, подготовим Dataloader для подачи в нейросеть"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {
"id": "KNmsiFeXGLI4"
},
"outputs": [],
"source": [
"from sklearn.model_selection import train_test_split\n",
"\n",
"batch = 128 # Тексты, для уменьшения накладных расходов, будем подавать на вход модели \"батчами\" - блоками по 128 документов\n",
"\n",
"train, test = train_test_split(data, test_size=0.2, random_state=42, shuffle=True)\n",
"\n",
"dataset_train = TensorDataset(torch.tensor(to_matrix(train, char2id, max_len=MAXLEN)))\n",
"dataloader_train = DataLoader(dataset_train, batch_size=batch, shuffle=True)\n",
"\n",
"dataset_test = TensorDataset(torch.tensor(to_matrix(test, char2id, max_len=MAXLEN)))\n",
"dataloader_test = DataLoader(dataset_test, batch_size=batch, shuffle=False)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "kIOckRO1GMc6"
},
"source": [
"Переопределим модель, зададим оптимизатор, лосс-функцию"
]
},
{
"cell_type": "code",
"execution_count": 50,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "1biBu39NGNbP",
"outputId": "036d1a20-4a71-4153-e467-c1f477c868fe"
},
"outputs": [
{
"data": {
"text/plain": [
"=================================================================\n",
"Layer (type:depth-idx) Param #\n",
"=================================================================\n",
"CharGRULoop --\n",
"├─Embedding: 1-1 9,152\n",
"├─GRU: 1-2 1,036,800\n",
"├─Linear: 1-3 36,751\n",
"=================================================================\n",
"Total params: 1,082,703\n",
"Trainable params: 1,082,703\n",
"Non-trainable params: 0\n",
"================================================================="
]
},
"execution_count": 50,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"model = CharGRULoop(num_embeddings=len(vocab), embedding_dim=64, hidden_size=256, num_layers=3)\n",
"optimizer = torch.optim.Adam(model.parameters(), lr=0.001)\n",
"loss_fn = nn.NLLLoss(ignore_index=char2id[\"PAD\"])\n",
"# Функция потерь - negative log likelihood loss (NLL Loss) - используеся для задачи многоклассовой классификации в ситуации, когда имеются логарифмы вероятностей каждого класса\n",
"# NLL Loss эквивалентен CrossEntropyLoss, но применяется к логарифмам вероятностей - у нас на выходе линейного слоя как раз исопользуется функция softmax\n",
"\n",
"summary(model)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "2nwqarvRGPY0"
},
"source": [
"Необученная модель не может делать адекватные предсказания. Ее перплексия («коэффициент неопределённости») приблизительно равна размеру словаря. Это говорит о полной неопределенности модели при генерации текста."
]
},
{
"cell_type": "code",
"execution_count": 46,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "A1bX1uqvU5hn",
"outputId": "0fe2cb45-a766-4960-9994-f7276e38ce06"
},
"outputs": [
{
"data": {
"text/plain": [
"['Буря мглою небо кроет,\\nВихри снежные крутя:\\nТо, как зверь, она завоет,\\nТо заплачет, как дитя,\\nТо по кровле обветшалой\\nВдруг соломой зашумит,\\nТо, как путник запоздалый,\\nК нам в окошко застучит.\\n\\nНаша ветхая лачужка\\nИ печальна, и темна.\\nЧто же ты, моя старушка,\\nПриумолкла у окна?\\nИли бури завываньем\\nТы, мой друг, утомлена,\\nИли дремлешь под жужжаньем\\nСвоего веретена?\\n\\nВыпьем, добрая подружка\\nБедной юности моей,\\nВыпьем с горя; где же кружка?\\nСердцу будет веселей.\\nСпой мне песню, как синица\\nТихо за морем жила;\\nСпой мне песню, как девица\\nЗа водой поутру шла.\\n\\nБуря мглою небо кроет,\\nВихри снежные крутя;\\nТо, как зверь, она завоет.\\nТо заплачет, как дитя.\\nВыпьем, добрая подружка\\nБедной юности моей,\\nВыпьем с горя; где же кружка?\\nСердцу будет веселей.\\n\\n']"
]
},
"execution_count": 46,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"train[:1]"
]
},
{
"cell_type": "code",
"execution_count": 47,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "1XcNzyHyGQTj",
"outputId": "14ff67ea-76c1-45ff-cb18-532d2aa0af6a"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"perplexity: 141.7220001220703\n"
]
}
],
"source": [
"example = torch.tensor(to_matrix(train[:1], char2id, max_len=MAXLEN)) # Возьмем первый документ и попробуем сгененировать этот же текст начиная с первой буквы\n",
"\n",
"train_example = example[:, :-1]\n",
"target_example = example[:, 1:]\n",
"\n",
"next_logp, hid_state = model(train_example, hid_state=None)\n",
"\n",
"print('perplexity: ', torch.exp(loss_fn(next_logp.permute(0, 2, 1), target_example)).item())"
]
},
{
"cell_type": "code",
"execution_count": 48,
"metadata": {
"id": "P51iPqsVGReq"
},
"outputs": [],
"source": [
"device = torch.device(\"cuda\") if torch.cuda.is_available() else torch.device(\"cpu\")\n",
"torch.cuda.empty_cache()"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "KiORWHsRGSiK"
},
"source": [
"Обучение. Эта ячейка займет 5-8 минут"
]
},
{
"cell_type": "code",
"execution_count": 49,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 522
},
"id": "naMiQGHHGTfS",
"outputId": "1c564592-0e54-4479-ccdf-260377e254dd"
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1400x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"EPOCH = 200 # количество эпох обучения\n",
"history_train = [] # список значений лосса трейна на каждой эпохи\n",
"history_test = [] # список значений лосса теста на каждой эпохи\n",
"model.to(device) # И модель, и данные должны находиться на одном устройстве.\n",
" # Поэтому при работе с GPU нужно следить и явно указывать, на каком устройстве проводится работа.\n",
"\n",
"\n",
"best_test_loss = float(\"inf\")\n",
"for i in range(EPOCH): #цикл по эпохам\n",
"\n",
" loss_test = 0\n",
" loss_train = 0\n",
"\n",
" for batch in dataloader_train: #цикл по тренировачным батчам\n",
"\n",
" optimizer.zero_grad() #обнуляем градиенты\n",
" batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device) #делаем из батча тензор\n",
"\n",
" predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None) #подаем батч в модель\n",
"\n",
" actual_next_tokens = batch_ix[:, 1:] # таргеры\n",
"\n",
" loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long()) # считаем лосс на батче\n",
" loss_train += loss.item() # добавляем лосс с батча в суммарный лосс\n",
"\n",
" loss.backward() # делаем обратный проход\n",
" optimizer.step() # делаем шаг оптимизатором\n",
"\n",
" history_train.append(loss_train/len(dataloader_train)) # добавляем средний лосс за эпоху в список\n",
"\n",
" for batch in dataloader_test: #цикл по тестовым батчам\n",
" with torch.no_grad(): # отключаем подсчет градиентов\n",
"\n",
" batch_ix = torch.tensor(batch[0], dtype=torch.int64).to(device)\n",
" predictions_logp, _ = model(batch_ix[:, :-1], hid_state=None)\n",
"\n",
" actual_next_tokens = batch_ix[:, 1:]\n",
"\n",
" loss = loss_fn(predictions_logp.permute(0, 2, 1), actual_next_tokens.long())\n",
" loss_test += loss.item()\n",
"\n",
" loss_test = loss_test/len(dataloader_test)\n",
" history_test.append(loss_test)\n",
"\n",
" if loss_test < best_test_loss: #сохраняем лучшую модель по лоссу на тесте\n",
" best_test_loss = loss_test\n",
" best_model = copy.deepcopy(model)\n",
" best_model.to(\"cpu\")\n",
"\n",
" if (i + 1) % 5 == 0: # выводим график лосса каждые 5 эпох\n",
" clear_output(True)\n",
" plt.plot(history_train, label='loss_train')\n",
" plt.plot(history_test, label='loss_test')\n",
" plt.grid()\n",
" plt.legend()\n",
" plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "iWGz3oH3Rowq"
},
"source": [
"### Вопрос 8\n",
"Достаточно ли обучилась модель? Имеет ли смысл изменить количество эпох обучения?"
]
},
{
"cell_type": "code",
"execution_count": 51,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "k924KVVaGU4t",
"outputId": "01db571f-54df-421e-cdf5-6c6c4ce7bf72"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"perplexity (best model test): 7.181648032772434\n",
"perplexity (last epoch test): 7.421088521940808\n"
]
}
],
"source": [
"print(\"perplexity (best model test): \", np.exp(best_test_loss))\n",
"print(\"perplexity (last epoch test): \", np.exp(loss_test))"
]
},
{
"cell_type": "code",
"execution_count": 52,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "5fwRbhzDGVxl",
"outputId": "230be0e7-f04c-4c63-8576-2e2971a82b00"
},
"outputs": [
{
"data": {
"text/plain": [
"CharGRULoop(\n",
" (emb): Embedding(143, 64)\n",
" (gru): GRU(64, 256, num_layers=3, batch_first=True)\n",
" (hid_to_logits): Linear(in_features=256, out_features=143, bias=True)\n",
")"
]
},
"execution_count": 52,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"device = 'cpu' # Обучение обычно проводится на GPU, но чтобы не тратить его ресурсы, работу по генерации текста уже обученной моделью стоит перенести обратно на CPU\n",
"model.to(device)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "0PWo3arcGWvv"
},
"source": [
"Погенерируем текст. Сначала зададим стартовую фразу.\n",
"\n",
"Выполнив следующие ячейки по несколько раз, убедитесь, что правильно ответили на вопрос 7 \"Чем отличается стратегия greedy от sample?\""
]
},
{
"cell_type": "code",
"execution_count": 53,
"metadata": {
"id": "dtUW5hVBGX9p"
},
"outputs": [],
"source": [
"#Если вы не согласны, вы можете поменять стартовую фразу, но что думает об этом высказывание машина?\n",
"SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "Nr24uuQRGZqQ"
},
"source": [
"Sample strategy"
]
},
{
"cell_type": "code",
"execution_count": 56,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "bY_iYC82GY28",
"outputId": "1a41d952-882b-451a-b321-f2066f03f255"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Теория автоматического управления - лучший предмет,\n",
"В вечерчят, может и ребких ряд,\n",
"Когда в тихает Наздним не рафстились взор,\n",
"Где боющей слус во знали цвю,\n",
"Еврожачи в пустыню твоей, прочей,\n",
"В Ажертрянный лес пропариду улещенье,\n",
"Истревняешь литее молви от меня за Eилей\n",
"В и ждох эти пыраматься спомнорой,\n",
"И вишел ее пеельчим на пытом.\n",
"\n",
"Зевители, моей пужко образ роды погоглавляек;\n",
"Скворный, сокружлен ускоре вином:\n",
"\n",
" EOS любится каз ним меня дороды!\n",
"Всях казы-тро ты сладо мною рошу.\n",
"Нет, и красота тебе прироща\n"
]
}
],
"source": [
"print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"sample\", max_length=MAXLEN))"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "i6n4dUScGbk9"
},
"outputs": [],
"source": [
"#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n",
"#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "gyB9g3KOGe8k"
},
"source": [
"Greedy strategy:\n"
]
},
{
"cell_type": "code",
"execution_count": 58,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "HuTB1fdlGd0b",
"outputId": "83440df4-700d-4c3b-935b-8e3aa5f65bcb"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Теория автоматического управления - лучший предмет,\n",
"И в тебе под него не след не внемлет он мой под сон,\n",
"И в тебя с полей под сенью покой приветный страсть устались,\n",
"И в тебя в тебя с поле под сенью покой,\n",
"И с тобой страсть и страсть у него в поле молчаливой,\n",
"И с тобой в тебе с полей под страсть и страсть на волненье,\n",
"И в тебя в тебя с поле под страсть и страсть на восторга,\n",
"И с тебя с невольно прости страсть и страсть на восторга,\n",
"И с тебя с невольно прости страсть и страсть на восторга,\n",
"И с тебя с невольн\n"
]
}
],
"source": [
"print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=\"greedy\", max_length=MAXLEN))"
]
},
{
"cell_type": "code",
"execution_count": 59,
"metadata": {
"id": "_tKKZheZGfu8"
},
"outputs": [],
"source": [
"#prompt = \"<не сдерживайте себя, сгенерируйте что-нибудь про соседа>\"\n",
"#print(generate_sample(model, char2id, id2char, seed_phrase=prompt, strategy=\"sample\", max_length=256))"
]
},
{
"cell_type": "code",
"execution_count": 59,
"metadata": {
"id": "RpVEloyFScaa"
},
"outputs": [],
"source": [
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "jxpdQXl1GhyL"
},
"source": [
"# Эксперименты с температурой"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "LdKkJc5vGjIt"
},
"source": [
"В функции `generate_sample` есть параметр `temperature`.\n",
"\n",
"Основываясь на прошлом пункте, выберите стратегию, которая больше понравилась и запустите ячейки с разной температурой"
]
},
{
"cell_type": "code",
"execution_count": 60,
"metadata": {
"id": "h88cuY0HGfsa"
},
"outputs": [],
"source": [
"nice_strategy = \"sample\" #<your choice here>"
]
},
{
"cell_type": "code",
"execution_count": 61,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "9uZZRmP-GlS2",
"outputId": "46f77170-a06e-4e72-98ca-f30d76e0c5f2"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Теория автоматического управления - лучший предмет,\n",
"Нет.У дух преБЦя! убиием?> Скутxщ:: —\n",
"мбебле) был за цев чещу\n",
"Па. ТДа чевтовых: а домите,\n",
"Хтон живлчивые Посов, я , куке, лесь,\n",
"<пучалу> лябесимlим КлOE<жуе оRлки-пом,\n",
"Бедпятные пъе! сrакиса: ебя.\n",
". нелаться, лены яхтну…\n",
"М зигранном дня, <судую,\n",
"Афием, П*\";c——\n",
"ДТрома, нуй, чтоко и; Дьбл\n",
"Еу! укнавнпиdусем.и.. ь,я\n",
"\n",
"Гдю Увер!ы\n",
"Дррикаявь, твое гофJ —!\n",
"Уе.ш. И, Бстоъ тиханью,\n",
"Лю??\n",
"Хласуя âлучит хожделz штон!…Л.\n",
"…»>\n",
"ожестгу<чиг\n",
"Ясь.…а хванни дупгухНвеннемляцы. —\n"
]
}
],
"source": [
"print(generate_sample(best_model, char2id, id2char, seed_phrase=SEED_PHRASE, strategy=nice_strategy, max_length=MAXLEN, temperature=2.0))"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "DwIORQ3OoiKN"
},
"source": [
"### Вопрос 9\n",
"Сделайте выводы как влияет изменение температуры на генерацию текста.\n",
"\n",
"Выберите оптимальное значение температуры"
]
},
{
"cell_type": "code",
"execution_count": 62,
"metadata": {
"id": "4DoOXClVohes"
},
"outputs": [],
"source": [
"\n"
]
},
{
"cell_type": "code",
"execution_count": 63,
"metadata": {
"id": "htAW_ABDGnc6"
},
"outputs": [],
"source": [
"# По завершению работы с рекуррентной сетью, очистим кэш\n",
"torch.cuda.empty_cache()"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "rlcgdw_gGpiO"
},
"source": [
"# Bonus track GPT"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "FND3cMDMGra3"
},
"source": [
"Дальше происходит магия, чтобы все вышло:\n",
" - здесь лучше перезапустить сеанс (Среда выполнения -> Перезапустить сеанс)"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "HEZqH-4rGo84",
"outputId": "881559c1-9659-4157-97fc-ccf9425169b3"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m297.3/297.3 kB\u001b[0m \u001b[31m4.3 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m23.7/23.7 MB\u001b[0m \u001b[31m43.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m823.6/823.6 kB\u001b[0m \u001b[31m46.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m14.1/14.1 MB\u001b[0m \u001b[31m62.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m731.7/731.7 MB\u001b[0m \u001b[31m1.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m410.6/410.6 MB\u001b[0m \u001b[31m1.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m121.6/121.6 MB\u001b[0m \u001b[31m7.9 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m56.5/56.5 MB\u001b[0m \u001b[31m11.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m124.2/124.2 MB\u001b[0m \u001b[31m8.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m196.0/196.0 MB\u001b[0m \u001b[31m6.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m166.0/166.0 MB\u001b[0m \u001b[31m7.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m99.1/99.1 kB\u001b[0m \u001b[31m13.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m21.1/21.1 MB\u001b[0m \u001b[31m58.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
"\u001b[?25h"
]
}
],
"source": [
"!pip install -q transformers[torch]"
]
},
{
"cell_type": "code",
"execution_count": 23,
"metadata": {
"id": "5ccG2XtoGtDT"
},
"outputs": [],
"source": [
"import locale\n",
"import torch\n",
"import transformers\n",
"import numpy as np\n",
"\n",
"from warnings import simplefilter\n",
"from IPython.display import clear_output\n",
"from transformers import Trainer, TrainingArguments\n",
"from transformers import GPT2LMHeadModel, GPT2Tokenizer\n",
"from transformers import TextDataset, DataCollatorForLanguageModeling\n"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {
"id": "xerwrDTGGtAc"
},
"outputs": [],
"source": [
"# Задаем некоторые настроечные параметры касательно кодировки и отображения предупреждений\n",
"locale.getpreferredencoding = lambda: \"UTF-8\"\n",
"simplefilter(\"ignore\", category=FutureWarning)\n",
"transformers.logging.set_verbosity_error()"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {
"id": "ygm4wl7EGvLX"
},
"outputs": [],
"source": [
"\n",
"device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
"\n",
"model_name = \"sberbank-ai/rugpt3small_based_on_gpt2\" # Опередлим, какой моделью будем пользоваться\n",
"tokenizer = GPT2Tokenizer.from_pretrained(model_name) # Определим токенайзер для нашего текста\n",
"model = GPT2LMHeadModel.from_pretrained(model_name).to(device) # Загрузим предобученную модель трансформера rugpt3small от Сбера\n",
"\n",
"clear_output()"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "jfAXAgtfGvIs",
"outputId": "a9f47a68-7a4a-4edc-be98-cbf539e277cb"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Теория автоматического управления - лучший предмет, который я знаю.\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"\n"
]
}
],
"source": [
"SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n",
"input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n",
"out = model.generate(input_ids, do_sample=False, max_length=20)\n",
"\n",
"generated_text = list(map(tokenizer.decode, out))[0]\n",
"\n",
"print(generated_text) #Так работает предобученный трансформер"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "By_ukdhOp_F8"
},
"source": [
"Давайте дообучим трансформер на нашем датасете - мы хотим генерировать стихи"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {
"id": "YLIYVZ1AGxzV"
},
"outputs": [],
"source": [
"train_path = \"train_dataset.txt\"\n",
"\n",
"with open(\"poems.txt\", encoding=\"utf-8\") as file:\n",
" data = file.read().split(\"</s>\\n\\n\")\n",
"\n",
"with open(train_path, mode=\"w\", encoding=\"utf-8\") as f:\n",
" f.write(\"\".join(data))"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {
"id": "ulVcdoROGyy2"
},
"outputs": [],
"source": [
"train_dataset = TextDataset(tokenizer=tokenizer, file_path=train_path, block_size=128) # Создание датасета\n",
"data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False) # Создание даталодера (нарезает текст на оптимальные по длине куски)"
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {
"id": "nTkPLolOGzqH"
},
"outputs": [],
"source": [
"\n",
"training_args = TrainingArguments(\n",
" output_dir=\"./finetuned\",\n",
" overwrite_output_dir=True,\n",
" num_train_epochs=15,\n",
" per_device_train_batch_size=32,\n",
" per_device_eval_batch_size=32,\n",
" warmup_steps=10, # рекомендованные значения (warmup_steps нужен для \"разогрева\" сети, c его помощью learning rate постепенно увеличивается до заданного значения)\n",
" gradient_accumulation_steps=16, # рекомендованные значения\n",
")\n",
"#(обычно мы хотим положить батч по-больше, чтобы сеть побыстрей сошлась, но мы ограничены памятью gpu, gradient_accumulation_steps накапливает (суммирует или усредняет) градиенты за прогон на 16 батчах )\n",
"\n",
"trainer = Trainer(\n",
" model=model,\n",
" args=training_args,\n",
" data_collator=data_collator,\n",
" train_dataset=train_dataset,\n",
" optimizers=(\n",
" torch.optim.AdamW(model.parameters(), lr=1e-5), # рекомендованные значения\n",
" None,\n",
" ),\n",
")"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "MN4IUz0cG06R"
},
"source": [
"Эта ячейка займет около 15-20 минут"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "MIDjczLBG1x4",
"outputId": "4cd93a79-50a4-4f67-dc0d-1736a9055395"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"{'train_runtime': 512.7748, 'train_samples_per_second': 43.499, 'train_steps_per_second': 0.059, 'train_loss': 4.064910634358724, 'epoch': 10.21}\n"
]
}
],
"source": [
"output = trainer.train() # Дообучаем трансформер на наши тексты"
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "jGSF1YRpHzUw",
"outputId": "76ecac12-dd33-4005-d1bd-4a6e27a0f74e"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"perplexity: 58.25970187428917\n"
]
}
],
"source": [
"print('perplexity: ', np.exp(output.training_loss)) #расчет перплексии"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "CssQW8rLHzUx"
},
"source": [
"### Вопрос 10\n",
"Какое значение перплексии получилось у трансформера?\n",
"\n",
"Какое значение перплексии получалось у рекуррентной сети?\n",
"\n",
"Почему у рекуррентной сети значение было существенно ниже, но качество текстов хуже? Почему нельзя сравнивать значения для рекуррентной сети и трансформера?\n"
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "ZEG2FYNsG4oy",
"outputId": "0bad01e8-fb2a-4a34-c1ba-39dd01017a66"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Теория автоматического управления - лучший предмет,\n",
"Когда в нем все подчинено закону. \n",
"\n",
"И только законы в нем\n",
"Ошибки и воры\n",
"Так искусно ведут против\n",
"Нимфы его дела;\n",
"Они как раз в ней с самого начала\n",
"Узрели: человек есть душа,\n",
"Коли вдруг он не становится ни грешным,\n",
"Ни преступником,\n",
"Ни преступником.\n",
"\n",
"Он как будто в ней живет,\n",
"И в ней дух живет,\n",
"В ней свет есть для всех он,\n",
"Она его питает,\n",
"Она о нем поет.\n",
"\n",
"Но для него ничего не значит\n",
"Свой день, свои жертвы,\n",
"Он не может быть свободен,\n",
"И он ни над кем не властен:\n",
"В нем весь ход земного рая\n",
"В нем его предел.\n",
"\n",
"Он хочет жить, он хочет умереть,\n",
"Готов он ко всему и не может\n",
"Предать себя сомненьем;\n",
"В нем человек в конце концов\n",
"Перестает жить и для себя.\n",
"Ведь он же человек,\n",
"Он ведь даже в своем законе\n",
"Омертвляет грех силою мысли.\n",
"\n",
"Но все напрасно: с нею человек живет:\n",
"И в нем живет она со своей душой.\n",
"Но\n"
]
}
],
"source": [
"SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n",
"input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n",
"model.eval()\n",
"with torch.no_grad():\n",
" out = model.generate(\n",
" input_ids,\n",
" do_sample=True, # sample strategy\n",
" temperature=1.0,\n",
" max_length=256,\n",
" pad_token_id=512 # указываем id <PAD> токена\n",
" )\n",
"\n",
"generated_text = list(map(tokenizer.decode, out))[0]\n",
"print()\n",
"print(generated_text)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "kK91Afxmqsnr"
},
"source": [
"### Вопрос 11\n",
"Проверьте работу ячейки выше для разных стартовых фраз и разных параметров `temperature`, `max_length`, `do_sample` и объясните, за что отвечает каждый из параметров. Подберите (субъективно) лучшие"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "URWWyeN_G92m"
},
"source": [
"# Beam Search\n",
"До этого мы использовали обычный \"жадный\" поиск\n",
"\n",
"![](https://huggingface.co/blog/assets/02_how-to-generate/greedy_search.png)\n",
"\n",
"Для каждого слова следующим считали _наиболее вероятное_.\n",
"Но, возможно, пройдя по не самому вероятному слову, в итоге мы получим более вероятную __последовательность__ слов, чем при жадном алгоритме.\n",
"Такой подход называется Beam search.\n",
"\n",
"![](https://huggingface.co/blog/assets/02_how-to-generate/beam_search.png)\n",
"\n",
"[подробнее тут](https://huggingface.co/blog/how-to-generate)\n",
"\n",
"Для использования Beam search передадим в функцию генерации параметр `num_beams` который характеризует количество рассматриваемых \"альтернативных\" путей"
]
},
{
"cell_type": "code",
"execution_count": 105,
"metadata": {
"id": "f5qj2KVoG56d"
},
"outputs": [],
"source": [
"SEED_PHRASE = 'Теория автоматического управления - лучший предмет,'\n",
"input_ids = tokenizer.encode(SEED_PHRASE, return_tensors=\"pt\").to(device)\n",
"model.eval()\n",
"with torch.no_grad():\n",
" out = model.generate(\n",
" input_ids,\n",
" do_sample=False,\n",
" max_new_tokens=75,\n",
" no_repeat_ngram_size=3, # устанавливает вероятность 0 для повторяющихся n-gram (таким образом решается проблема зацикливания)\n",
" pad_token_id=512,\n",
" num_beams=5,\n",
" num_return_sequences=5, # количество возвращенных сгенерированных текстов отранжированных по вероятности после beam_search\n",
" top_p=0.9, #<your choice here>\n",
" top_k=20, #<your choice here>\n",
" temperature=2.0 #<your choice here>\n",
" )\n",
"\n",
"generated_text = list(map(tokenizer.decode, out))\n"
]
},
{
"cell_type": "code",
"execution_count": 106,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "af8foFo1f6Hj",
"outputId": "0f5328b9-201b-486a-b569-30ce7715278a"
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Applicant 0\n",
"Теория автоматического управления - лучший предмет,\n",
"Который я когда-либо читал.\n",
"\n",
"Я знаю, что это не так,\n",
"Но я не знаю, как это объяснить.\n",
"Я не знаю даже, как объяснить\n",
"То, что я знаю, и то, что не знаю.\n",
"И я знаю только то,\n",
"Что знаю я, но не знаю\n",
"И того, и другого.\n",
"\n",
"\n",
"\n",
"Applicant 1\n",
"Теория автоматического управления - лучший предмет,\n",
"Который я когда-либо читал.\n",
"\n",
"Я знаю, что это не так,\n",
"Но я не знаю, как это объяснить.\n",
"Я не знаю даже, как объяснить\n",
"То, что я знаю, и то, что не знаю.\n",
"И я знаю только то,\n",
"Что знаю я, но не знаю\n",
"И того, что знаю я.\n",
"\n",
"\n",
"Applicant 2\n",
"Теория автоматического управления - лучший предмет,\n",
"Который я когда-либо читал.\n",
"\n",
"Я знаю, что это не так,\n",
"Но я не знаю, как это объяснить.\n",
"Я не знаю даже, как объяснить\n",
"То, что я знаю, и то, что не знаю.\n",
"И я знаю только то,\n",
"Что знаю я, но не знаю\n",
"И то, и другое.\n",
"\n",
"\n",
"\n",
"Applicant 3\n",
"Теория автоматического управления - лучший предмет,\n",
"Который я когда-либо читал.\n",
"\n",
"Я знаю, что это не так,\n",
"Но я не знаю, как это объяснить.\n",
"Я не знаю даже, как объяснить\n",
"То, что я знаю, и то, что не знаю.\n",
"И я знаю только то,\n",
"Что знаю я, но не знаю\n",
"И того, чего не знаю я\n",
"\n",
"\n",
"Applicant 4\n",
"Теория автоматического управления - лучший предмет,\n",
"Который я когда-либо читал.\n",
"\n",
"Я знаю, что это не так,\n",
"Но я не знаю, как это объяснить.\n",
"Я не знаю даже, как объяснить\n",
"То, что я знаю, и то, что не знаю.\n",
"И я знаю только то,\n",
"Что знаю я, но не знаю\n",
"И то, чего не знаю я\n",
"\n",
"\n"
]
}
],
"source": [
"# Выведем _num_return_sequences_ сгенерированных текстов\n",
"for i, seq in enumerate(generated_text):\n",
" print(f\"Applicant {i}\", seq, \"\\n\", sep=\"\\n\")"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "AWJBlaMSHzU0"
},
"source": [
" Дополнительно можно изучить смысл параметров top_p и top_k [по ссылке](https://huggingface.co/blog/how-to-generate)\n",
"\n",
"Опробуйте разные значения параметров, какая схема выборки получилась лучше?"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "NgxotZZrHBLI"
},
"source": [
"Сохранить модель при необходимости:"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "H8CjiUvzHBn2"
},
"outputs": [],
"source": [
"#torch.save(model, \"gpt2_finetune.torch\")\n",
"#mod = torch.load(\"gpt2_finetune.torch\")"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "8Cn991FqHzU3"
},
"source": [
"### Вопрос 12\n",
"Вместо вывода добавьте лучший сгенерированый текст за лабораторную работу и напишите при какой архитектуре и при каких параметрах он получен:\n",
"\n",
"Например: tuned gpt3 with params:\n",
"\n",
"* do_sample=True,\n",
"* max_new_tokens=80,\n",
"* no_repeat_ngram_size=3,\n",
"* ...\n",
"\n",
"\n",
"В мире, где порядок стремится к хаосу,\n",
"\n",
"Теория управления - свет во тьме.\n",
"\n",
"Автоматы, системы, в них неспроста\n",
"\n",
"Скрыт закон, управляющий временем.\n",
"\n",
"\n",
"Регуляторы, обратные связи,\n",
"\n",
"В этом мире - как волшебный ключ.\n",
"\n",
"С их помощью мы можем, без отказа,\n",
"\n",
"Двигать системы, чьё движенье - дым.\n",
"\n",
"\n",
"\n",
"В каждом узле, в каждом переходе\n",
"\n",
"Скрыта струна, что звучит на удивление чисто.\n",
"\n",
"ТАУ нас учит, как в море перемен,\n",
"\n",
"Найти путь, где устойчивость - не миф, а быль."
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "Lmhlmlk5lTD3"
},
"source": [
"# Контрольные вопросы\n",
"1. В чем особенность рекуррентных нейронных сетей?\n",
"1. Типы рекуррентных сетей - обычная RNN\n",
"1. Типы рекуррентных сетей - LSTM\n",
"1. Типы рекуррентных сетей - GRU\n",
"1. Что такое и как вычисляется перплексия\n",
"1. Что такое \"предобученная\" модель и для чего ее нужно \"дообучать\"?\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "Ia7mf_pIlpKe"
},
"outputs": [],
"source": []
}
],
"metadata": {
"accelerator": "GPU",
"colab": {
"gpuType": "T4",
"provenance": [],
"toc_visible": true
},
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.12"
}
},
"nbformat": 4,
"nbformat_minor": 1
}