'lab4'

2025-12-11 10:10:28 +03:00
--- a/labworks/LW4/images/1.png
+++ b/labworks/LW4/images/1.png
--- a/labworks/LW4/lab4.ipynb
+++ b/labworks/LW4/lab4.ipynb
@@ -0,0 +1,461 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": [],
+      "gpuType": "T4"
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "accelerator": "GPU"
+  },
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 1) В среде Google Colab создали новый блокнот (notebook). Импортировали необходимые для работы библиотеки и модули. Настроили блокнот для работы с аппаратным ускорителем GPU."
+      ],
+      "metadata": {
+        "id": "gz18QPRz03Ec"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from google.colab import drive\n",
+        "drive.mount('/content/drive')"
+      ],
+      "metadata": {
+        "id": "kn5Tz1FjvRgl"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# импорт модулей\n",
+        "import os\n",
+        "os.chdir('/content/drive/MyDrive/Colab Notebooks/is_lab4')\n",
+        "\n",
+        "from tensorflow import keras\n",
+        "from tensorflow.keras import layers\n",
+        "from tensorflow.keras.models import Sequential\n",
+        "import matplotlib.pyplot as plt\n",
+        "import numpy as np\n"
+      ],
+      "metadata": {
+        "id": "mr9IszuQ1ANG"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import tensorflow as tf\n",
+        "device_name = tf.test.gpu_device_name()\n",
+        "if device_name != '/device:GPU:0':\n",
+        "  raise SystemError('GPU device not found')\n",
+        "print('Found GPU at: {}'.format(device_name))"
+      ],
+      "metadata": {
+        "id": "o63-lKG_RuNc"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 2) Загрузили набор данных IMDb, содержащий оцифрованные отзывы на фильмы, размеченные на два класса: позитивные и негативные. При загрузке набора данных параметр seed выбрали равным значению (4k – 1)=23, где k=6 – номер бригады. Вывели размеры полученных обучающих и тестовых массивов данных."
+      ],
+      "metadata": {
+        "id": "FFRtE0TN1AiA"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# загрузка датасета\n",
+        "from keras.datasets import imdb\n",
+        "\n",
+        "vocabulary_size = 5000\n",
+        "index_from = 3\n",
+        "\n",
+        "(X_train, y_train), (X_test, y_test) = imdb.load_data(\n",
+        "    path=\"imdb.npz\",\n",
+        "    num_words=vocabulary_size,\n",
+        "    skip_top=0,\n",
+        "    maxlen=None,\n",
+        "    seed=23,\n",
+        "    start_char=1,\n",
+        "    oov_char=2,\n",
+        "    index_from=index_from\n",
+        "    )\n",
+        "\n",
+        "# вывод размерностей\n",
+        "print('Shape of X train:', X_train.shape)\n",
+        "print('Shape of y train:', y_train.shape)\n",
+        "print('Shape of X test:', X_test.shape)\n",
+        "print('Shape of y test:', y_test.shape)"
+      ],
+      "metadata": {
+        "id": "Ixw5Sp0_1A-w"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 3) Вывели один отзыв из обучающего множества в виде списка индексов слов. Преобразовали список индексов в текст и вывели отзыв в виде текста. Вывели длину отзыва. Вывели метку класса данного отзыва и название класса (1 – Positive, 0 – Negative)."
+      ],
+      "metadata": {
+        "id": "aCo_lUXl1BPV"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# создание словаря для перевода индексов в слова\n",
+        "# заргузка словаря \"слово:индекс\"\n",
+        "word_to_id = imdb.get_word_index()\n",
+        "# уточнение словаря\n",
+        "word_to_id = {key:(value + index_from) for key,value in word_to_id.items()}\n",
+        "word_to_id[\"<PAD>\"] = 0\n",
+        "word_to_id[\"<START>\"] = 1\n",
+        "word_to_id[\"<UNK>\"] = 2\n",
+        "word_to_id[\"<UNUSED>\"] = 3\n",
+        "# создание обратного словаря \"индекс:слово\"\n",
+        "id_to_word = {value:key for key,value in word_to_id.items()}"
+      ],
+      "metadata": {
+        "id": "9W3RklPcZyH0"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "print(X_train[23])\n",
+        "print('len:',len(X_train[23]))"
+      ],
+      "metadata": {
+        "id": "Nu-Bs1jnaYhB"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "review_as_text = ' '.join(id_to_word[id] for id in X_train[23])\n",
+        "print(review_as_text)\n",
+        "print('len:',len(review_as_text))"
+      ],
+      "metadata": {
+        "id": "JhTwTurtZ6Sp"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 4) Вывели максимальную и минимальную длину отзыва в обучающем множестве."
+      ],
+      "metadata": {
+        "id": "4hclnNaD1BuB"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "print('MAX Len: ',len(max(X_train, key=len)))\n",
+        "print('MIN Len: ',len(min(X_train, key=len)))"
+      ],
+      "metadata": {
+        "id": "xJH87ISq1B9h"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 5) Провели предобработку данных. Выбрали единую длину, к которой будут приведены все отзывы. Короткие отзывы дополнили спецсимволами, а длинные обрезали до выбранной длины."
+      ],
+      "metadata": {
+        "id": "7x99O8ig1CLh"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# предобработка данных\n",
+        "from tensorflow.keras.utils import pad_sequences\n",
+        "max_words = 500\n",
+        "X_train = pad_sequences(X_train, maxlen=max_words, value=0, padding='pre', truncating='post')\n",
+        "X_test = pad_sequences(X_test, maxlen=max_words, value=0, padding='pre', truncating='post')"
+      ],
+      "metadata": {
+        "id": "lrF-B2aScR4t"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 6) Повторили пункт 4."
+      ],
+      "metadata": {
+        "id": "HL2_LVga1C3l"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "print('MAX Len: ',len(max(X_train, key=len)))\n",
+        "print('MIN Len: ',len(min(X_train, key=len)))"
+      ],
+      "metadata": {
+        "id": "81Cgq8dn9uL6"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 7) Повторили пункт 3. Сделали вывод о том, как отзыв преобразовался после предобработки."
+      ],
+      "metadata": {
+        "id": "KzrVY1SR1DZh"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "print(X_train[23])\n",
+        "print('len:',len(X_train[23]))"
+      ],
+      "metadata": {
+        "id": "vudlgqoCbjU1"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "review_as_text = ' '.join(id_to_word[id] for id in X_train[23])\n",
+        "print(review_as_text)\n",
+        "print('len:',len(review_as_text))"
+      ],
+      "metadata": {
+        "id": "dbfkWjDI1Dp7"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "#### После обработки в начало отзыва добавилось необходимое количество токенов <PAD>, чтобы отзыв был длинной в 500 индексов."
+      ],
+      "metadata": {
+        "id": "mJNRXo5TdPAE"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 8) Вывели предобработанные массивы обучающих и тестовых данных и их размерности."
+      ],
+      "metadata": {
+        "id": "YgiVGr5_1D3u"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# вывод данных\n",
+        "print('X train: \\n',X_train)\n",
+        "print('X train: \\n',X_test)\n",
+        "\n",
+        "# вывод размерностей\n",
+        "print('Shape of X train:', X_train.shape)\n",
+        "print('Shape of X test:', X_test.shape)"
+      ],
+      "metadata": {
+        "id": "7MqcG_wl1EHI"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 9) Реализовали модель рекуррентной нейронной сети, состоящей из слоев Embedding, LSTM, Dropout, Dense, и обучили ее на обучающих данных с выделением части обучающих данных в качестве валидационных. Вывели информацию об архитектуре нейронной сети. Добились качества обучения по метрике accuracy не менее 0.8."
+      ],
+      "metadata": {
+        "id": "amaspXGW1EVy"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "embed_dim = 32\n",
+        "lstm_units = 64\n",
+        "\n",
+        "model = Sequential()\n",
+        "model.add(layers.Embedding(input_dim=vocabulary_size, output_dim=embed_dim, input_length=max_words, input_shape=(max_words,)))\n",
+        "model.add(layers.LSTM(lstm_units))\n",
+        "model.add(layers.Dropout(0.5))\n",
+        "model.add(layers.Dense(1, activation='sigmoid'))\n",
+        "\n",
+        "model.summary()"
+      ],
+      "metadata": {
+        "id": "ktWEeqWd1EyF"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# компилируем и обучаем модель\n",
+        "batch_size = 64\n",
+        "epochs = 3\n",
+        "model.compile(loss=\"binary_crossentropy\", optimizer=\"adam\", metrics=[\"accuracy\"])\n",
+        "model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.2)"
+      ],
+      "metadata": {
+        "id": "CuPqKpX0kQfP"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "test_loss, test_acc = model.evaluate(X_test, y_test)\n",
+        "print(f\"\\nTest accuracy: {test_acc}\")"
+      ],
+      "metadata": {
+        "id": "hJIWinxymQjb"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 10) Оценили качество обучения на тестовых данных:\n",
+        "### - вывели значение метрики качества классификации на тестовых данных\n",
+        "### - вывели отчет о качестве классификации тестовой выборки  \n",
+        "### - построили ROC-кривую по результату обработки тестовой выборки и вычислили площадь под ROC-кривой (AUC ROC)"
+      ],
+      "metadata": {
+        "id": "mgrihPd61E8w"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#значение метрики качества классификации на тестовых данных\n",
+        "print(f\"\\nTest accuracy: {test_acc}\")"
+      ],
+      "metadata": {
+        "id": "Rya5ABT8msha"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#отчет о качестве классификации тестовой выборки\n",
+        "y_score = model.predict(X_test)\n",
+        "y_pred = [1 if y_score[i,0]>=0.5 else 0 for i in range(len(y_score))]\n",
+        "\n",
+        "from sklearn.metrics import classification_report\n",
+        "print(classification_report(y_test, y_pred, labels = [0, 1], target_names=['Negative', 'Positive']))"
+      ],
+      "metadata": {
+        "id": "2kHjcmnCmv0Y"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#построение ROC-кривой и AUC ROC\n",
+        "from sklearn.metrics import roc_curve, auc\n",
+        "\n",
+        "fpr, tpr, thresholds = roc_curve(y_test, y_score)\n",
+        "plt.plot(fpr, tpr)\n",
+        "plt.grid()\n",
+        "plt.xlabel('False Positive Rate')\n",
+        "plt.ylabel('True Positive Rate')\n",
+        "plt.title('ROC')\n",
+        "plt.show()\n",
+        "print('AUC ROC:', auc(fpr, tpr))"
+      ],
+      "metadata": {
+        "id": "Kp4AQRbcmwAx"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### 11) Сделали выводы по результатам применения рекуррентной нейронной сети для решения задачи определения тональности текста.  "
+      ],
+      "metadata": {
+        "id": "MsM3ew3d1FYq"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Таблица1:"
+      ],
+      "metadata": {
+        "id": "xxFO4CXbIG88"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "| Модель   | Количество настраиваемых параметров | Количество эпох обучения | Качество классификации тестовой выборки |\n",
+        "|----------|-------------------------------------|---------------------------|-----------------------------------------|\n",
+        "| Рекуррентная | 184 897                              | 3                        | accuracy:0.8389     ; loss:0.3970     ; AUC ROC:0.9009                                   |\n"
+      ],
+      "metadata": {
+        "id": "xvoivjuNFlEf"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "#### По результатам применения рекуррентной нейронной сети можно сделать вывод, что модель хорошо справилась с задачей определения тональности текста. Показатель accuracy = 0.8389, выше порога 0.8. Значение AUC ROC = 0.9009 (> 0.9) говорит о высокой способности модели различать два класса (положительные и отрицательные отзывы)."
+      ],
+      "metadata": {
+        "id": "YctF8h_sIB-P"
+      }
+    }
+  ]
+}
--- a/labworks/LW4/lab4_full.ipynb
+++ b/labworks/LW4/lab4_full.ipynb
--- a/labworks/LW4/report.md
+++ b/labworks/LW4/report.md
@@ -0,0 +1,333 @@
+# Отчёт по лабораторной работе №4
+
+**Касимов Азамат, Немыкин Никита — А-01-22**
+
+---
+## Задание 1
+
+### 1) В среде Google Colab создали новый блокнот (notebook). Импортировали необходимые для работы библиотеки и модули. Настроили блокнот для работы с аппаратным ускорителем GPU.
+
+```python
+# импорт модулей
+import os
+os.chdir('/content/drive/MyDrive/Colab Notebooks/is_lab4')
+
+from tensorflow import keras
+from tensorflow.keras import layers
+from tensorflow.keras.models import Sequential
+import matplotlib.pyplot as plt
+import numpy as np
+```
+```python
+import tensorflow as tf
+device_name = tf.test.gpu_device_name()
+if device_name != '/device:GPU:0':
+  raise SystemError('GPU device not found')
+print('Found GPU at: {}'.format(device_name))
+```
+```
+Found GPU at: /device:GPU:0
+```
+
+### 2) Загрузили набор данных IMDb, содержащий оцифрованные отзывы на фильмы, размеченные на два класса: позитивные и негативные. При загрузке набора данных параметр seed выбрали равным значению (4k – 1)=23, где k=6 – номер бригады. Вывели размеры полученных обучающих и тестовых массивов данных.
+
+```python
+# загрузка датасета
+from keras.datasets import imdb
+
+vocabulary_size = 5000
+index_from = 3
+
+(X_train, y_train), (X_test, y_test) = imdb.load_data(
+    path="imdb.npz",
+    num_words=vocabulary_size,
+    skip_top=0,
+    maxlen=None,
+    seed=23,
+    start_char=1,
+    oov_char=2,
+    index_from=index_from
+    )
+
+# вывод размерностей
+print('Shape of X train:', X_train.shape)
+print('Shape of y train:', y_train.shape)
+print('Shape of X test:', X_test.shape)
+print('Shape of y test:', y_test.shape)
+```
+```
+Shape of X train: (25000,)
+Shape of y train: (25000,)
+Shape of X test: (25000,)
+Shape of y test: (25000,)
+```
+
+### 3) Вывели один отзыв из обучающего множества в виде списка индексов слов. Преобразовали список индексов в текст и вывели отзыв в виде текста. Вывели длину отзыва. Вывели метку класса данного отзыва и название класса (1 – Positive, 0 – Negative).
+
+```python
+# создание словаря для перевода индексов в слова
+# заргузка словаря "слово:индекс"
+word_to_id = imdb.get_word_index()
+# уточнение словаря
+word_to_id = {key:(value + index_from) for key,value in word_to_id.items()}
+word_to_id["<PAD>"] = 0
+word_to_id["<START>"] = 1
+word_to_id["<UNK>"] = 2
+word_to_id["<UNUSED>"] = 3
+# создание обратного словаря "индекс:слово"
+id_to_word = {value:key for key,value in word_to_id.items()}
+```
+```python
+print(X_train[21])
+print('len:',len(X_train[21]))
+```
+```
+[1, 14, 20, 9, 290, 149, 48, 25, 358, 2, 120, 318, 302, 50, 26, 49, 221, 2057, 10, 10, 1212, 39, 15, 45, 801, 2, 2, 363, 2396, 7, 2, 209, 2327, 283, 8, 4, 425, 10, 10, 45, 24, 290, 3613, 972, 4, 65, 198, 40, 3462, 1224, 2, 23, 6, 4457, 225, 24, 76, 50, 8, 895, 19, 45, 164, 204, 5, 24, 55, 318, 38, 92, 140, 11, 18, 4, 65, 33, 32, 43, 168, 33, 4, 302, 10, 10, 17, 47, 77, 1046, 12, 188, 6, 117, 2, 33, 4, 130, 2, 4, 2, 7, 87, 3709, 2199, 7, 35, 2504, 5, 33, 211, 320, 2504, 132, 190, 48, 25, 2754, 4, 1273, 2, 45, 6, 1682, 8, 2, 42, 24, 8, 2, 10, 10, 32, 11, 32, 45, 6, 542, 3709, 22, 290, 319, 18, 15, 1288, 5, 15, 584]
+len: 146
+```
+```python
+review_as_text = ' '.join(id_to_word[id] for id in X_train[26])
+print(review_as_text)
+print('len:',len(review_as_text))
+```
+```
+<START> this movie is worth watching if you enjoy <UNK> over special effects there are some interesting visuals br br aside from that it's typical <UNK> <UNK> hollywood fare of <UNK> without substance true to the title br br it's not worth picking apart the story that's like performing brain <UNK> on a dinosaur there's not much there to begin with it's nothing original and not very special so don't go in for the story at all just look at the effects br br as has been mentioned it got a little <UNK> at the end <UNK> the <UNK> of great fx treatment of an invisible and at times half invisible man however if you ignore the standard <UNK> it's a sight to <UNK> or not to <UNK> br br all in all it's a decent fx film worth seeing for that purpose and that alone
+len: 763
+```
+
+
+### 4) Вывели максимальную и минимальную длину отзыва в обучающем множестве.
+
+```python
+print('MAX Len: ',len(max(X_train, key=len)))
+print('MIN Len: ',len(min(X_train, key=len)))
+```
+```
+MAX Len:  2494
+MIN Len:  11
+```
+
+### 5) Провели предобработку данных. Выбрали единую длину, к которой будут приведены все отзывы. Короткие отзывы дополнили спецсимволами, а длинные обрезали до выбранной длины.
+
+```python
+# предобработка данных
+from tensorflow.keras.utils import pad_sequences
+max_words = 500
+X_train = pad_sequences(X_train, maxlen=max_words, value=0, padding='pre', truncating='post')
+X_test = pad_sequences(X_test, maxlen=max_words, value=0, padding='pre', truncating='post')
+```
+
+### 6) Повторили пункт 4.
+
+```python
+print('MAX Len: ',len(max(X_train, key=len)))
+print('MIN Len: ',len(min(X_train, key=len)))
+```
+```
+MAX Len:  500
+MIN Len:  500
+```
+
+### 7) Повторили пункт 3. Сделали вывод о том, как отзыв преобразовался после предобработки.
+```python
+print(X_train[23])
+print('len:',len(X_train[23]))
+```
+```
+[   0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    1   14   20    9  290  149   48   25  358    2
+  120  318  302   50   26   49  221 2057   10   10 1212   39   15   45
+  801    2    2  363 2396    7    2  209 2327  283    8    4  425   10
+   10   45   24  290 3613  972    4   65  198   40 3462 1224    2   23
+    6 4457  225   24   76   50    8  895   19   45  164  204    5   24
+   55  318   38   92  140   11   18    4   65   33   32   43  168   33
+    4  302   10   10   17   47   77 1046   12  188    6  117    2   33
+    4  130    2    4    2    7   87 3709 2199    7   35 2504    5   33
+  211  320 2504  132  190   48   25 2754    4 1273    2   45    6 1682
+    8    2   42   24    8    2   10   10   32   11   32   45    6  542
+ 3709   22  290  319   18   15 1288    5   15  584]
+len: 500
+```
+
+```python
+review_as_text = ' '.join(id_to_word[id] for id in X_train[23])
+print(review_as_text)
+print('len:',len(review_as_text))
+```
+```
+<PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <PAD> <START> this movie is worth watching if you enjoy <UNK> over special effects there are some interesting visuals br br aside from that it's typical <UNK> <UNK> hollywood fare of <UNK> without substance true to the title br br it's not worth picking apart the story that's like performing brain <UNK> on a dinosaur there's not much there to begin with it's nothing original and not very special so don't go in for the story at all just look at the effects br br as has been mentioned it got a little <UNK> at the end <UNK> the <UNK> of great fx treatment of an invisible and at times half invisible man however if you ignore the standard <UNK> it's a sight to <UNK> or not to <UNK> br br all in all it's a decent fx film worth seeing for that purpose and that alone
+len: 2887
+```
+#### После обработки в начало отзыва добавилось необходимое количество токенов <PAD>, чтобы отзыв был длинной в 500 индексов.
+
+
+### 8) Вывели предобработанные массивы обучающих и тестовых данных и их размерности.
+
+```python
+# вывод данных
+print('X train: \n',X_train)
+print('X train: \n',X_test)
+
+# вывод размерностей
+print('Shape of X train:', X_train.shape)
+print('Shape of X test:', X_test.shape)
+```
+```
+X train: 
+ [[   0    0    0 ...    6   52  106]
+ [   0    0    0 ...   87   22  231]
+ [   0    0    0 ...    6  158  158]
+ ...
+ [   0    0    0 ... 1005    4 1630]
+ [   0    0    0 ...    9    6  991]
+ [   0    0    0 ...    7   32   58]]
+X train: 
+ [[   0    0    0 ...    4    2    2]
+ [   0    0    0 ...    6    2  123]
+ [   0    0    0 ...    2   11  831]
+ ...
+ [   1   14  402 ...  819   45  131]
+ [   0    0    0 ...   17 1540    2]
+ [   1   17    6 ... 1026  362   37]]
+Shape of X train: (25000, 500)
+Shape of X test: (25000, 500)
+```
+
+### 9) Реализовали модель рекуррентной нейронной сети, состоящей из слоев Embedding, LSTM, Dropout, Dense, и обучили ее на обучающих данных с выделением части обучающих данных в качестве валидационных. Вывели информацию об архитектуре нейронной сети. Добились качества обучения по метрике accuracy не менее 0.8.
+
+```python
+embed_dim = 32
+lstm_units = 64
+
+model = Sequential()
+model.add(layers.Embedding(input_dim=vocabulary_size, output_dim=embed_dim, input_length=max_words, input_shape=(max_words,)))
+model.add(layers.LSTM(lstm_units))
+model.add(layers.Dropout(0.5))
+model.add(layers.Dense(1, activation='sigmoid'))
+
+model.summary()
+```
+
+**Model: "sequential"**
+| Layer (type)            | Output Shape    | Param # |
+| ----------------------- | --------------- | ------: |
+| embedding_4 (Embedding) | (None, 500, 32) | 160,000 |
+| lstm_4 (LSTM)           | (None, 64)      |  24,832 |
+| dropout_4 (Dropout)     | (None, 64)      |       0 |
+| dense_4 (Dense)         | (None, 1)       |      65 |
+
+**Total params:** 184,897 (722.25 KB) 
+**Trainable params:** 184,897 (722.25 KB)
+**Non-trainable params:** 0 (0.00 B)
+
+```python
+# компилируем и обучаем модель
+batch_size = 64
+epochs = 3
+model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
+model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.2)
+```
+```
+Epoch 1/3
+313/313 ━━━━━━━━━━━━━━━━━━━━ 12s 23ms/step - accuracy: 0.6705 - loss: 0.5794 - val_accuracy: 0.6740 - val_loss: 1.3409
+Epoch 2/3
+313/313 ━━━━━━━━━━━━━━━━━━━━ 6s 19ms/step - accuracy: 0.6394 - loss: 0.8250 - val_accuracy: 0.7424 - val_loss: 0.5590
+Epoch 3/3
+313/313 ━━━━━━━━━━━━━━━━━━━━ 7s 22ms/step - accuracy: 0.7780 - loss: 0.4830 - val_accuracy: 0.8268 - val_loss: 0.4142
+<keras.src.callbacks.history.History at 0x784aa347c710>
+```
+```python
+test_loss, test_acc = model.evaluate(X_test, y_test)
+print(f"\nTest accuracy: {test_acc}")
+```
+```
+782/782 ━━━━━━━━━━━━━━━━━━━━ 7s 8ms/step - accuracy: 0.8389 - loss: 0.3970
+
+Test accuracy: 0.8352800011634827
+```
+
+### 10) Оценили качество обучения на тестовых данных:
+### - вывели значение метрики качества классификации на тестовых данных
+### - вывели отчет о качестве классификации тестовой выборки  
+### - построили ROC-кривую по результату обработки тестовой выборки и вычислили площадь под ROC-кривой (AUC ROC)
+
+```python
+#значение метрики качества классификации на тестовых данных
+print(f"\nTest accuracy: {test_acc}")
+```
+```
+Test accuracy: 0.8352800011634827
+```
+
+```python
+#отчет о качестве классификации тестовой выборки
+y_score = model.predict(X_test)
+y_pred = [1 if y_score[i,0]>=0.5 else 0 for i in range(len(y_score))]
+
+from sklearn.metrics import classification_report
+print(classification_report(y_test, y_pred, labels = [0, 1], target_names=['Negative', 'Positive']))
+```
+```
+              precision    recall  f1-score   support
+
+    Negative       0.86      0.80      0.83     12500
+    Positive       0.81      0.87      0.84     12500
+
+    accuracy                           0.84     25000
+   macro avg       0.84      0.84      0.84     25000
+weighted avg       0.84      0.84      0.84     25000
+```
+
+```python
+#построение ROC-кривой и AUC ROC
+from sklearn.metrics import roc_curve, auc
+
+fpr, tpr, thresholds = roc_curve(y_test, y_score)
+plt.plot(fpr, tpr)
+plt.grid()
+plt.xlabel('False Positive Rate')
+plt.ylabel('True Positive Rate')
+plt.title('ROC')
+plt.show()
+print('AUC ROC:', auc(fpr, tpr))
+```
+![picture](images/1.png)
+```
+AUC ROC: 0.9009091648
+```
+
+### 11) Сделали выводы по результатам применения рекуррентной нейронной сети для решения задачи определения тональности текста. 
+
+Таблица1:
+
+| Модель   | Количество настраиваемых параметров | Количество эпох обучения | Качество классификации тестовой выборки |
+|----------|-------------------------------------|---------------------------|-----------------------------------------|
+| Рекуррентная | 184 897                              | 3                        | accuracy:0.8389     ; loss:0.3970     ; AUC ROC:0.9009                                   |
+
+
+#### По результатам применения рекуррентной нейронной сети можно сделать вывод, что модель хорошо справилась с задачей определения тональности текста. Показатель accuracy = 0.8389 превышает требуемый порог 0.8. 
+#### Значение AUC ROC = 0.9009 (> 0.9) - высокая способность модели различать два класса (положительные и отрицательные отзывы).