fix: Не удается привязать аргумент к параметру "Path", так как он имеет значение NULL.

добавить ipynb-версию блокнота research по указанию преподавателя
добавить README к research, обновить общий README (расположение файлов requirements), вынести документацию по использованию Jupyter в отдельный файл
2025-11-22 15:01:08 +03:00 · 2025-11-02 03:10:53 +03:00 · 2025-11-02 03:06:28 +03:00 · 2025-11-02 02:41:30 +03:00 · 2025-11-02 02:41:30 +03:00 · 2025-11-02 02:41:29 +03:00
--- a/.editorconfig
+++ b/.editorconfig
@@ -0,0 +1,10 @@
+root = true
+
+[*]
+charset = utf-8
+insert_final_newline = true
+trim_trailing_whitespace = true
+
+[*.py]
+indent_size = 4
+indent_style = space
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,10 @@
+### Python
+*.pyc
+
+### Jupyter
+.ipynb_checkpoints/
+*.ipynb
+
 ### Project
 # virtual environments
 .venv/
--- a/README.md
+++ b/README.md
@@ -1,3 +1,70 @@
 # Лабораторный проект по курсу "Интеллектуальные информационные системы"

 **Выполняет**: **Сыропятов В.В.** (А-01м-24)
+
+## Данные
+
+Используемый датасет: [Car price prediction(used cars)
+](https://www.kaggle.com/datasets/vijayaadithyanvg/car-price-predictionused-cars/data) &mdash;
+продажа подержанных автомобилей на рынке в Индии.
+
+## Установка
+
+### Общий порядок
+
+**Внимание**: Здесь описан только общий порядок установки. Определённые части проекта могут требовать установки по отдельным инструкциям.
+
+1. Проект разработан для Python 3.10&ndash;3.12. Установите совместимую версию Python ([Download Python](https://www.python.org/downloads/)).
+
+2. Скопируйте/склонируйте репозиторий в выделенную директорию и перейдите в неё.
+
+   ```sh
+   tar -xzf iis-project.tar.xz
+   cd iis-project
+   ```
+
+3. Создайте виртуальное окружение Python.
+
+   ```sh
+   python -m venv .venv
+   ```
+
+   Активируйте созданное виртуальное окружение Python.
+
+   * **Linux**:
+
+     ```sh
+     source .venv/bin/activate
+     ```
+
+   * **Windows**:
+
+     ```ps
+     .\.venv\Scripts\activate
+     ```
+
+4. Установите зависимости для необходимых частей проекта. См. **Зависимости**.
+
+5. **При необходимости** скачайте данные. Каноническое расположение для данных проекта: `data/`.
+
+### Зависимости
+
+#### Общие зависимости
+
+Зависимости &mdash; пакеты Python &mdash; записаны в файле `requirements/requirements.txt` (см. **Пакеты Python**).
+
+#### Пакеты Python
+
+Установка/обновление пакетов Python в активное окружение из файла `requirements/requirements.txt`:
+
+```sh
+pip install -U -r requirements/requirements.txt
+```
+
+## Разведочный анализ данных (EDA)
+
+См. `eda/README.md`.
+
+## Исследование и настройка предсказательной модели
+
+См. `research/README.md`.
--- a/_mlflow_config_common.ps1
+++ b/_mlflow_config_common.ps1
@@ -0,0 +1,2 @@
+$BACKEND_STORE_DB_PATH = "./mlflow/mlruns.sqlite"
+$BACKEND_URI = "sqlite:///$BACKEND_STORE_DB_PATH"
--- a/_mlflow_config_common.sh
+++ b/_mlflow_config_common.sh
@@ -0,0 +1,4 @@
+set -eu
+
+BACKEND_STORE_DB_PATH="${BACKEND_STORE_DB_PATH:-./mlflow/mlruns.sqlite}"
+BACKEND_URI="sqlite:///$BACKEND_STORE_DB_PATH"
--- a/data/.gitignore
+++ b/data/.gitignore
@@ -0,0 +1,2 @@
+*
+!.gitignore
--- a/docs/jupyter.md
+++ b/docs/jupyter.md
@@ -0,0 +1,143 @@
+# Использование среды Jupyter
+
+Для исследовательских задач в проекте используется среда [Jupyter](https://jupyter.org/). Т.к. блокноты хранятся в текстовом формате под контролем версий, нужно также дополнение [Jupytext](https://jupytext.readthedocs.io/en/latest/) (как минимум для ручной конвертации блокнотов; см. ниже).
+
+Опционально можно использовать дополнение [papermill](https://papermill.readthedocs.io/en/latest/) для простого параметризованного исполнения блокнотов.
+
+## Установка
+
+### Общий порядок
+
+**Внимание**: Оптимальный порядок установки и конфигурации Jupyter для работы с проектом неоднозначен. См. обоснование выбранного здесь порядка работы с блокнотами Jupyter и возможные альтернативные варианты в статье [Использование Jupyter с виртуальными окружениями Python](https://asrelo.hashnode.dev/using-jupyter-with-python-virtual-environments-ru).
+
+1. Jupyter и дополнения должны быть установлены в систему, а **не** в виртуальное окружение. При необходимости деактивируйте виртуальное окружение.
+
+   ```sh
+   deactivate
+   ```
+
+2. [Установите Jupyter](https://jupyter.org/install) и Jupytext в систему (**не** в виртуальное окружение).
+
+   ```sh
+   pip install -U notebook jupytext
+   ```
+
+   Полная инструкция по установке Jupytext: [Installation &#8212; Jupytext  documentation](https://jupytext.readthedocs.io/en/latest/install.html).
+
+3. **Опционально**, установите papermill в систему (**не** в виртуальное окружение).
+
+   ```sh
+   pip install -U papermill
+   ```
+
+   Полная инструкция по установке: [Installation - papermill 2.4.0 documentation](https://papermill.readthedocs.io/en/stable/installation.html).
+
+4. Активируйте **виртуальное окружение** повторно.
+
+5. Установите ядро Jupyter, связанное с данным виртуальным окружением, в директорию этого виртуального окружения. Укажите следующее имя ядра: `python3_venv`.
+
+   ```sh
+   python -m ipykernel --sys-prefix --name python3_venv
+   ```
+
+6. **Опционально**, **заранее** сохраните в переменную окружения `JUPYTER_PATH` путь к данным Jupyter в виртуальном окружении `<path>` &mdash; см. п. 1 в инструкции по использованию.
+
+   * Windows (PowerShell):
+
+     ```ps
+     [System.Environment]::SetEnvironmentVariable('JUPYTER_PATH', "<path>;$env:JUPYTER_PATH", 'User')
+     ```
+
+   * Windows (cmd):
+
+     ```bat
+     setx JUPYTER_PATH "<path>;%PATH%;JUPYTER_PATH"
+     ```
+
+   * UNIX (sh):
+
+     ```sh
+     echo 'export JUPYTER_PATH="<path>:$JUPYTER_PATH"' >> ~/.profile
+     ```
+
+**Внимание**: На данном этапе могут отсутствовать пригодные для прямого использования блокноты `.ipynb` (например, если проект развёртывается с нуля). Об использовании спаренных блокнотов и конвертации форматов см. [Использование Jupytext](#использование-jupytext).
+
+### Зависимости
+
+*Используемые при работе с Jupyter зависимости &mdash; пакеты Python &mdash; на данный момент включены в общие зависимости (см. выше), дополнительных действий не требуется.*
+
+## Работа с блокнотами Jupyter
+
+### Jupyter
+
+1. **Если** при выполнении инструкции по установке Вы **не** сохранили в переменную окружения JUPYTER_PATH путь к данным Jupyter в виртуальном окружении, этот путь нужно добавить в переменную окружения сейчас.
+
+   Добавьте в переменную окружения `JUPYTER_PATH` абсолютный путь (далее обозначаемый `<path>`) `$VIRTUAL_ENV/share/jupyter`, где следует заменить `$VIRTUAL_ENV` на путь к директории, где развёрнуто виртуальное окружение. Для инструментов [`venv`](https://docs.python.org/3/library/venv.html), [`virtualenv`](https://virtualenv.pypa.io/en/stable/) можно просто в активном виртуальном окружении использовать подстановку переменной окружения `VIRTUAL_ENV` (активное виртуальное окружение не повлияет на дальнейшие шаги).
+
+   * Windows (PowerShell):
+
+     ```ps
+     $env:JUPYTER_PATH = "<path>;$env:JUPYTER_PATH"
+     ```
+
+   * Windows (cmd):
+
+     ```bat
+     set "JUPYTER_PATH=<path>;%JUPYTER_PATH%"
+     ```
+
+   * UNIX (sh):
+
+     ```sh
+     export JUPYTER_PATH="<path>:$JUPYTER_PATH"
+     ```
+
+2. Запустите глобальный установленное приложение Jupyter (**не** из виртуального окружения).
+
+   * Например, запустите Jupyter Notebook:
+
+     ```sh
+     jupyter notebook
+     ```
+
+     Веб-приложение Notebook должно открыться в веб-браузере автоматически. Если этого не произошло, найдите в сообщениях сервера Jupyter строку примерно следующего содержания:
+
+         [I 08:58:24.417 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/
+
+     Откройте веб-браузер и перейдите по ссылке, выведенной в конце указанного сообщения.
+
+   См. также [документацию Jupyter](https://docs.jupyter.org/en/stable/running.html).
+
+2. Используйте приложение для навигации по файловой системе (в частности, по каталогу `eda/`), редактирования и исполнения кода в блокнотах.
+
+3. Если приложение Jupyter запрашивает **выбор ядра** Jupyter (**kernel**) или Вы сталкиваетесь с необъяснимыми **ошибками импортов**, выберите для текущего блокнота ядро с именем `python3_venv`.
+
+   * **Jupyter Notebook**: Может понадобиться выбор вручную; кнопка для выбора ядра для открытого блокнота находится в верхнем правом углу веб-страницы.
+
+### Расширение Jupyter для Visual Studio Code
+
+1. Запустите Visual Studio Code.
+
+2. Откройте корневую директорию проекта в VS Code (*File* -> *Open Folder...*).
+
+3. Если Вы открыли директорию проекта и VS Code запрашивает выбор автоматически обнаруженного виртуального окружения, согласитесь.
+
+3. **Если** VS Code запрашивает выбор автоматически обнаруженного виртуального окружения, согласитесь.
+
+   **Иначе** [укажите](https://code.visualstudio.com/docs/python/environments#_working-with-python-interpreters) своё виртуальное окружение самостоятельно.
+
+4. Используйте VS Code с расширением Jupyter для навигации по файловой системе (в частности, по каталогу `eda/`), редактирования и исполнения кода в блокнотах. **Не забывайте** при открытии любого блокнота проверять, что выбрано корректное ядро Jupyter (принадлежащее корректному виртуальному окружению). (Кнопка для выбора ядра для открытого блокнота находится в верхнем правом углу области содержимого вкладки; по умолчанию Вы увидите название выбранного виртуального окружения; если ядро не выбрано, на кнопке написано *Select Kernel*.)
+
+### Использование Jupytext
+
+Описанные ниже команды `jupytext` используют глобальной установленный экземпляр Jupytext (однако его можно запускать и изнутри виртуального окружения).
+
+Для автоматической синхронизации связанных блокнотов (включая создание блокнотов отсутствующих, но ожидаемых форматов):
+
+```sh
+jupytext --sync eda/cars_eda.py
+```
+
+Jupytext довольно удобно работает в оригинальной среде Jupyter, синхронизируя изменения связанных файлов на лету при работе в Jupyter, **ориентируясь на метки времени на файлах**. См. документацию [Jupytext](https://jupytext.readthedocs.io/en/latest/index.html).
+
+**Внимание**: С расширением Jupyter для Visual Studio Code Jupytext **не работает напрямую**. Для использования блокнотов `.ipynb` с расширением Jupyter для VS Code нужно синхронизировать текстовый файл под контролем версий и файл `.ipynb` вручную указанными выше командами. Однако заметьте, что это же расширение может исполнять блокнот в текстовом формате самостоятельно, посредством автоматизированного ведения временного блокнота; и оно даже автоматически создаёт/подхватывает локальное ядро Jupyter в виртуальном окружении.
--- a/eda/.editorconfig
+++ b/eda/.editorconfig
@@ -0,0 +1,5 @@
+[*.py]
+insert_final_newline = unset
+trim_trailing_whitespace = unset
+indent_size = unset
+indent_style = unset
--- a/eda/README.md
+++ b/eda/README.md
@@ -0,0 +1,43 @@
+# Разведочный анализ данных (EDA)
+
+## Блокноты Jupyter
+
+* `cars_eda` &mdash; Очистка и первичный анализ данных о подержанных автомобилях.
+
+  Использует CSV-файл сырых данных из [датасета](https://www.kaggle.com/datasets/vijayaadithyanvg/car-price-predictionused-cars/data). Каноническое расположение файла данных: `data/cars.csv`.
+
+  Создаёт файлы очищенных данных (по умолчанию &mdash; CSV) и аугментированных данных (по умолчанию &mdash; pickle). Канонические расположения: соответственно `data/cars.clean.<ext>` и `data/cars.aug.<ext>`, с заменой `<ext>` на расширение в зависимости от формата: `csv` для CSV, `pickle` для pickle.
+
+  **Выводы по исследованию**:
+
+  * Выполнена очистка датасета: удалены несколько аномальных объектов, переименованы некоторые ошибочно названные признаки. (Пропущенных значений в датасете нет.)
+
+  * Датасет дополнен (аугментирован) потенциально полезными синтетическими признаками: отношение цены с пробегом к изначальной цене, возраст (предполагаемый на основе года выпуска автомобиля и распределения этих годов выпуска в датасете), логарифмы количественных величин. Аугментированная версия сохраняется отдельно.
+
+  * Предварительно подтверждена возможность определения рыночной цены автомобиля с пробегом по использованным признакам, **в особенности** по следующим: исходная цена, возраст и пробег автомобиля, тип продающего лица (дилер или частное лицо), топливо (автомобили на дизельном топливе редко бывают дешёвыми).
+
+    * Цена продажи с пробегом сильно линейно коррелирует с изначальной ценой.
+
+    * Интересно, что возраст автомобиля является заметно лучшим предиктором снижения стоимости, чем пробег, при этом корреляция между возрастом и пробегом существенная, но не определяющая.
+
+    * Существует огромная разница в ценах у дилеров и частных лиц (у частных лиц дешевле в разы).
+
+    * Существует слабая, но заметная прямая корреляция между изначальной ценой автомобиля и пробегом к дате последующей продажи.
+
+    * Датасет не очень однороден (у него есть "тяжёлый центр"), и с малым количеством объектов это может создать проблемы с устойчивостью предсказания цен. Рекомендуется применение робастных методов ограниченной сложности; однако прямая линейная регрессия для предсказания цены проодажи может всё-таки оказаться не лучшим методом.
+
+  Графические артефакты исследования сохранены в директории `./cars_eda_figures/`.
+
+## Установка
+
+Для EDA необходимы общие зависимости, см. [Общие зависимости](../README.md#общие-зависимости) в `README.md`.
+
+Для EDA используется среда [Jupyter](https://jupyter.org/). См. об установке и использовании Jupyter в проекте в `docs/jupyter.md`.
+
+### Зависимости
+
+Дополнительные зависимости, необходимые для EDA, &mdash; пакеты Python &mdash; записаны в файле `requirements/requirements-eda.txt` (см. **Пакеты Python**). См. об установке пакетов Python в **Пакеты Python** в `README.md`.
+
+## Работа с блокнотами Jupyter
+
+См. об установке и использовании Jupyter в проекте в `docs/jupyter.md`.
--- a/eda/cars_eda.py
+++ b/eda/cars_eda.py
@@ -0,0 +1,717 @@
+# ---
+# jupyter:
+#   jupytext:
+#     formats: ipynb,py:percent
+#     text_representation:
+#       extension: .py
+#       format_name: percent
+#       format_version: '1.3'
+#       jupytext_version: 1.17.3
+#   kernelspec:
+#     display_name: python3_venv
+#     language: python
+#     name: python3_venv
+# ---
+
+# %% [markdown]
+# # Очистка и первичный анализ данных о подержанных автомобилях
+
+# %% [markdown]
+# **ОСТОРОЖНО**: Исполнение этого блокнота может тихо (пере)записать (и по умолчанию (пере)записывает) файлы очищенных/аугментированных
+# данных. См. ниже параметры блокнота для papermill. 
+
+# %% [markdown]
+# Блокнот использует файл сырых данных датасета о подержанных автомобилях ([источник](https://www.kaggle.com/datasets/vijayaadithyanvg/car-price-predictionused-cars)). Блокнот записывает очищенные и аугментированные данные. См. ниже параметры блокнота для papermill.
+
+# %%
+from typing import Optional
+
+# %% [markdown]
+# Параметры блокнота для papermill:
+
+# %% [markdown]
+# (Ячейка с параметрами блокнота для papermill требует осторожного обращения; её содержимое парсится как текст очень простым парсером.)
+
+# %% tags=["parameters"]
+data_path: Optional[str] = None
+# Полный путь к файлу (CSV) с исходным датасетом. Если не установлен, ищется файл в `data/<data_relpath>`.
+data_relpath: str = 'cars.csv'
+# Путь к файлу (CSV) с исходным датасетом относительно директории данных `data`. Игнорируется, если установлен data_path.
+
+data_clean_csv: bool = True
+# Сохранить ли очищенный датасет как CSV.
+data_clean_csv_path: Optional[str] = None
+# Полный путь к файлу (CSV) для сохранения очищенного датасета. Если не установлен, используется `data/<data_clean_csv_relpath>`.
+data_clean_csv_relpath: str = 'cars.clean.csv'
+# Путь к файлу (CSV) для сохранения очищенного датасета относительно директории данных `data`. Игнорируется, если установлен data_clean_csv_path.
+
+data_clean_pickle: bool = False
+# Сохранить ли очищенный датасет как pandas.DataFrame через pickle.
+data_clean_pickle_path: Optional[str] = None
+# Полный путь к файлу (pickle) для сохранения очищенного датасета. Если не установлен, используется `data/<data_clean_pickle_relpath>`.
+data_clean_pickle_relpath: str = 'cars.clean.pickle'
+# Путь к файлу (pickle) для сохранения очищенного датасета относительно директории данных `data`. Игнорируется, если установлен data_clean_pickle_path.
+
+data_aug_csv: bool = False
+# Сохранить ли аугментированный датасет как CSV.
+data_aug_csv_path: Optional[str] = None
+# Полный путь к файлу (CSV) для сохранения аугментированного датасета. Если не установлен, используется `data/<data_aug_csv_relpath>`.
+data_aug_csv_relpath: str = 'cars.aug.csv'
+# Путь к файлу (CSV) для сохранения аугментированного датасета относительно директории данных `data`. Игнорируется, если установлен data_aug_csv_path.
+
+data_aug_pickle: bool = True
+# Сохранить ли очищенный датасет как pandas.DataFrame через pickle.
+data_aug_pickle_path: Optional[str] = None
+# Полный путь к файлу (pickle) для сохранения очищенного датасета. Если не установлен, используется `data/<data_aug_pickle_relpath>`.
+data_aug_pickle_relpath: str = 'cars.aug.pickle'
+# Путь к файлу (pickle) для сохранения очищенного датасета относительно директории данных `data`. Игнорируется, если установлен data_aug_pickle_path.
+
+# %%
+# #%matplotlib ipympl
+
+# %%
+import os.path
+import pathlib
+import re
+import sys
+
+# %%
+import bokeh.io
+import bokeh.models
+import bokeh.plotting
+import bokeh.transform
+import matplotlib.pyplot
+import matplotlib.ticker
+import numpy
+import pandas
+import seaborn
+
+# %%
+BASE_PATH = pathlib.Path('..')
+
+# %%
+CODE_PATH = BASE_PATH
+sys.path.insert(0, str(CODE_PATH.resolve()))
+
+# %%
+import iis_project.plotting_utils
+
+# %%
+bokeh.io.output_notebook()
+
+# %%
+DATA_PATH = (
+    pathlib.Path(os.path.dirname(data_path))
+    if data_path is not None
+    else (BASE_PATH / 'data')
+)
+
+# %% [markdown] jp-MarkdownHeadingCollapsed=true
+# ## Загрузка и обзор данных
+
+# %%
+df_orig = pandas.read_csv(data_path if data_path is not None else (DATA_PATH / data_relpath))
+
+df_orig = df_orig.rename(columns=lambda s: re.sub(r'\s', '_', s.lower().replace(' ', '_')))
+
+# %% [markdown]
+# Обзор строк сырого датасета:
+
+# %%
+df_orig.head(0x10)
+
+# %% [markdown]
+# Размер сырого датасета:
+
+# %%
+len(df_orig)
+
+# %% [markdown]
+# Количество непустых значений и тип каждого столбца:
+
+# %%
+df_orig.info()
+
+# %% [markdown]
+# ## Первичный поиск аномалий и очистка данных
+
+# %% [markdown]
+# Подтверждение, что в датасете нет пустых значений:
+
+# %%
+all((len(s) == len(df_orig)) for _, s in df_orig.items())
+
+# %%
+quantitative_columns_orig = ['selling_price', 'present_price', 'driven_kms', 'year']
+categorical_columns_orig = ['car_name', 'fuel_type', 'selling_type', 'transmission', 'owner']
+
+# %%
+for column in filter(lambda s: s not in ('car_name',), categorical_columns_orig):
+    # XXX: по идее, переименования категорий стоило бы делать после преобразования к типу категории,
+    # Series.cat.rename_categories. Однако... оно просто не работает.
+    if pandas.api.types.is_object_dtype(df_orig[column].dtype):
+        df_orig[column] = df_orig[column].map(
+            lambda s: ' '.join(map(lambda s2: s2.lower(), s.split()))
+        )
+    df_orig[column] = df_orig[column].astype('category')
+
+
+# %%
+def normalize_car_name(s):
+    return ' '.join(map(lambda s: s.lower(), s.split()))
+
+
+# %% [markdown]
+# Нормализация текстовых названий моделей автомобилей:
+
+# %%
+df_orig['car_name'] = df_orig['car_name'].apply(normalize_car_name)
+
+# %% [markdown]
+# Первичные статистики по количественным признакам:
+
+# %%
+df_orig[list(quantitative_columns_orig)].describe()
+
+# %% [markdown]
+# Категориальные признаки:
+
+# %%
+categorical_values_for_columns_orig = {
+    column: series.unique()
+    for column, series in df_orig[list(categorical_columns_orig)].items()
+}
+
+for column, values in categorical_values_for_columns_orig.items():
+    if len(values) <= 0x10:
+        values_str = ', '.join(map(repr, values))
+    else:
+        values_str = f'({len(values)} values)'
+    print(f'{column!r}: {values_str}')
+
+# %% [markdown] raw_mimetype=""
+# Просмотр распределений по отдельным признакам на предмет аномалий:
+
+# %%
+_fig, _axis = matplotlib.pyplot.subplots(2, 1, squeeze=True)
+for i, (column, series) in enumerate(df_orig[['selling_price', 'present_price']].items()):
+    _ax = _axis[i]
+    _ax.set_title(str(column))
+    #_ax.set_xscale('symlog')
+    _ax.set_yscale('log')
+    _ax.grid(True)
+    _ = _ax.hist(series, bins=iis_project.plotting_utils.suggest_bins_num(len(series)))
+_fig.tight_layout()
+
+# %% [markdown]
+# Есть 1 объект, вероятно, аномальный по `present_price`, но это неоднозначно.
+
+# %%
+for column, series in df_orig[['driven_kms']].items():
+    _fig, _ax = matplotlib.pyplot.subplots()
+    _ax.set_title(str(column))
+    #_ax.set_xscale('symlog')
+    _ax.set_yscale('log')
+    _ax.grid(True)
+    _ = _ax.hist(series, bins=iis_project.plotting_utils.suggest_bins_num(len(series)))
+
+# %% [markdown]
+# Есть 1 аномальный объект по `driven_kms` (аномально большой пробег).
+
+# %%
+for column, series in df_orig[['year']].items():
+    _fig, _ax = matplotlib.pyplot.subplots()
+    _ax.set_title(str(column))
+    _ax.set_yscale('log')
+    _ax.grid(True)
+    _ = _ax.hist(series, bins=iis_project.plotting_utils.suggest_bins_num(len(series)))
+
+# %%
+for column, series in df_orig[
+    list(filter(lambda s: s not in ('car_name',), categorical_columns_orig))
+].items():
+    _fig, _ax = matplotlib.pyplot.subplots()
+    _ax.set_title(str(column))
+    _ax.set_yscale('log')
+    _ax.grid(True)
+    value_counts = series.value_counts()
+    _ = _ax.bar(tuple(map(str, value_counts.index)), value_counts)
+
+# %% [markdown]
+# Есть 2 исключительных объекта по топливу `fuel_type` (автомобиль на природном газе
+# (CNG)) &mdash; и 1 исключительный объект по типу владельца `owner` (3).
+
+# %% [markdown]
+# Внимательное рассмотрение аномальных объектов:
+
+# %%
+labels_to_drop_from_orig = []
+
+# %%
+df_orig.loc[df_orig['owner'].isin((3,))]
+
+# %% [markdown]
+# Объект, исключительный по `owner` (3), исключается из датасета, не в последнюю очередь
+# из-за неясности смысла значений `owner`.
+
+# %%
+labels_to_drop_from_orig.extend(df_orig.loc[df_orig['owner'].isin((3,))].index)
+
+# %%
+df_orig.loc[(df_orig['present_price'] >= 60.) | (df_orig['driven_kms'] >= 400000) | (df_orig['fuel_type'].isin(('CNG',)))]
+
+# %% [markdown]
+# Аномально большой пробег у автомобиля #196 ещё и является очень круглым числом. Этот объект
+# исключается из датасета как вероятно недостоверный.
+#
+# 2 автомобиля на природном газе решено пока не исключать, т.к. с учётом и так малого размера
+# датасета возможность хоть как-то предсказывать цены для автомобилей на природном газе сочтена
+# сравнительно ценной.
+#
+# Автомобиль с исключительно высокой `present_price` не показывает других аномалий (у него и `selling_price` высокая в датасете), поэтому он оставлен.
+
+# %%
+labels_to_drop_from_orig.extend((196,))
+
+# %%
+df_clean = df_orig.drop(labels_to_drop_from_orig)
+
+# %%
+#bokeh_source_df_clean = bokeh.models.ColumnDataSource(df_clean)
+
+# %% [markdown]
+# По названиям и распределениям признаков `selling_price` и `present_price` есть большое подозрение,
+# что это изначальная цена и цена продажи с пробегом, но перепутанные местами.
+
+# %% [raw] raw_mimetype=""
+# present_price_ratio = df_clean['selling_price'] / df_clean['present_price']
+#
+# _fig, _ax = matplotlib.pyplot.subplots()
+# _ = _ax.set_xlabel('driven_kms')
+# _ = _ax.set_ylabel('selling_price / present_price')
+# _ax.set_xscale('log')
+# _ax.grid(True)
+# _ = _ax.scatter(df_clean['driven_kms'], present_price_ratio, alpha=0.5)
+# _ = _ax.set_ylim((0., None))
+
+# %%
+_src = bokeh.models.ColumnDataSource({
+    **dict(df_clean[['car_name', 'driven_kms', 'year', 'selling_price', 'present_price']].items()),
+    'present_price_ratio': (df_clean['selling_price'] / df_clean['present_price']),
+})
+_fig = bokeh.plotting.figure(
+    x_axis_type='log',
+    x_axis_label='driven_kms', y_axis_label='selling_price / present_price',
+)
+_ = _fig.scatter(
+    'driven_kms', 'present_price_ratio',
+    source=_src,
+    size=12., alpha=0.5,
+)
+_fig.y_range.start = 0
+_fig.add_tools(
+    bokeh.models.HoverTool(
+        tooltips=[
+            ('present price', '@present_price'),
+            ('selling price ', '@selling_price'),
+            ('name', '@car_name'),
+            ('year', '@year',),
+            ('index', '$index',)
+        ],
+    ),
+)
+bokeh.plotting.show(_fig)
+
+# %% [markdown]
+# Указанное выше подозрение подтверждается, `selling_price` и `present_price` нужно поменять местами.
+
+# %%
+df_clean[['selling_price', 'present_price']] = df_clean[['present_price', 'selling_price']]
+
+# %% [markdown] jp-MarkdownHeadingCollapsed=true
+# ## Сохранение очищенных данных
+
+# %%
+if data_clean_csv:
+    df_clean.to_csv(
+        (
+            data_clean_csv_path
+            if data_clean_csv_path is not None
+            else (DATA_PATH / data_clean_csv_relpath)
+        ),
+        index=False,
+    )
+
+# %%
+if data_clean_pickle:
+    import pickle
+    with open(
+        (
+            data_clean_pickle_path
+            if data_clean_pickle_path is not None
+            else (DATA_PATH / data_clean_pickle_relpath)
+        ),
+        'wb',
+    ) as out_file:
+        pickle.dump(df_clean, out_file)
+
+# %%
+df = df_clean.copy(deep=False)
+
+# %% [markdown]
+# TODO: Разделить блокнот на два &mdash; очистка данных и анализ.
+
+# %% [markdown]
+# ## Анализ и аугментация данных
+
+# %%
+quantitative_columns = ['selling_price', 'present_price', 'driven_kms', 'year']
+categorical_columns = ['car_name', 'fuel_type', 'selling_type', 'transmission', 'owner']
+
+# %% [markdown]
+# Количество объектов:
+
+# %%
+len(df)
+
+# %% [markdown]
+# Количество непустых значений и тип каждого столбца:
+
+# %%
+df.info()
+
+# %% [markdown]
+# Добавим синтетический признак возраста. Для отсчёта предполагается актуальность датасета на 2019 год;
+# учитывая, что год в датасете задан целым числом, это даёт возраст минимум 1 год для каждого объекта.
+
+# %%
+df['age'] = ((max(df['year']) + 1) - df['year']).astype(float)
+quantitative_columns.append('age')
+
+# %% [markdown]
+# Вообще говоря, отношение `present_price / selling_price` может быть полезно при изучении данных
+# или обучении моделей. Добавим такой признак `present_price_ratio`:
+
+# %%
+df['present_price_ratio'] = df['present_price'] / df['selling_price']
+quantitative_columns.append('present_price_ratio')
+
+# %% [markdown]
+# Добавим некоторые потенциально полезные синтетические признаки - логарифмы некоторых количественных признаков:
+
+# %%
+for column in ('selling_price', 'present_price', 'driven_kms'):
+    df[f'log_{column}'] = numpy.log10(df[column])
+
+df['log_age'] = numpy.log10(numpy.maximum(1., df['age']))
+
+# %%
+bokeh_source_df = bokeh.models.ColumnDataSource(df)
+
+# %% [markdown]
+# Первичные статистики по количественным признакам:
+
+# %%
+df[list(quantitative_columns)].describe()
+
+# %% [markdown]
+# Категориальные признаки:
+
+# %%
+categorical_values_for_columns = {
+    column: series.unique()
+    for column, series in df[list(categorical_columns)].items()
+}
+
+for column, values in categorical_values_for_columns.items():
+    if len(values) <= 0x10:
+        values_str = ', '.join(map(repr, values))
+    else:
+        values_str = f'({len(values)} values)'
+    print(f'{column!r}: {values_str}')
+
+# %% [markdown]
+# Матрица корреляций количественных признаков:
+
+# %%
+df_corr = df[[
+    'present_price', 'log_present_price',
+    'selling_price', 'log_selling_price',
+    'present_price_ratio',
+    'driven_kms', 'log_driven_kms',
+    'age', 'log_age',
+]].corr('pearson', min_periods=2)
+
+# %% [markdown]
+# Из неочевидных выводов по матрице корреляций, существует слабая, но заметная прямая корреляция
+# между изначальной ценой автомобиля и пробегом к дате последующей продажи.
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_im = _ax.imshow(df_corr.to_numpy(), cmap='RdBu', vmin=-1., vmax=+1., origin='upper')
+_ax.tick_params(top=True, labeltop=True, bottom=False, labelbottom=False)
+_ = _ax.set_xticks(range(len(df_corr.columns)), labels=df_corr.columns, rotation=90.)
+_ = _ax.set_yticks(range(len(df_corr.index)), labels=df_corr.index)
+if len(df_corr.columns) <= 10:
+    for i in range(len(df_corr.index)):
+        for j in range(len(df_corr.columns)):
+            if i == j:
+                continue
+            val = df_corr.iloc[(i, j)]
+            _ = _ax.text(
+                j, i, '{:+.2f}'.format(val),
+                ha='center', va='center',
+                color=('white' if abs(val) >= 0.5 else 'black'),
+                fontsize='small',
+            )
+else:
+    _ = _fig.colorbar(_im)
+
+# %% [markdown]
+# Совместное распределение изначальной цены продажи и цены с пробегом:
+
+# %% [raw] raw_mimetype=""
+# _fig, _ax = matplotlib.pyplot.subplots()
+# _ = _ax.set_xlabel('selling_price')
+# _ = _ax.set_ylabel('present_price')
+# _ax.grid(True)
+# _ = seaborn.histplot(
+#     x=df['selling_price'], y=df['present_price'],
+#     bins=tuple(
+#         numpy.geomspace(
+#             min(series), max(series),
+#             (iis_project.plotting_utils.suggest_bins_num(len(series)) + 1),
+#         )
+#         for _, series in df[['selling_price', 'present_price']].items()
+#     ),
+#     #thresh=None, palette='Blues',
+#     cbar=True,
+#     #hue_norm=matplotlib.colors.LogNorm(0, 64),
+#     ax=_ax,
+# )
+# _ax.set_xscale('log')
+# _ax.set_yscale('log')
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_xlabel('selling_price')
+_ = _ax.set_ylabel('present_price')
+_ax.set_xscale('log')
+_ax.set_yscale('log')
+_ax.grid(True)
+_scatter = _ax.scatter(
+    df['selling_price'], df['present_price'], c=df['selling_type'].cat.codes,
+    alpha=0.5,
+)
+_ = _ax.legend(
+    *_scatter.legend_elements(
+        fmt=matplotlib.ticker.FuncFormatter(lambda i, _: df['selling_type'].cat.categories[int(i)]),
+    ),
+)
+
+# %% [markdown]
+# Существует очень сильное разделение по ценам при продаже подержанных автомобилей дилерами
+# и частными лицами; частные лица обычно продают автомобили намного дешевле, чем дилеры (хотя этот
+# вывод не учитывает возможное влияние других переменных).
+
+# %% [markdown]
+# Совместные распределения отношения цены с пробегом к изначальной, пробега, года выпуска:
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_xlabel('driven_kms')
+_ = _ax.set_ylabel('present_price_ratio')
+_ax.grid(True)
+_ = seaborn.histplot(
+    x=df['driven_kms'], y=df['present_price_ratio'],
+    bins=(
+        numpy.geomspace(
+            min(df['driven_kms']), max(df['driven_kms']),
+            (iis_project.plotting_utils.suggest_bins_num(len(df['driven_kms'])) + 1),
+        ),
+        iis_project.plotting_utils.suggest_bins_num(len(df['present_price_ratio'])),
+    ),
+    #thresh=None, palette='Blues',
+    cbar=True,
+    #hue_norm=matplotlib.colors.LogNorm(0, 64),
+    ax=_ax,
+)
+_ax.set_xscale('log')
+_ = _ax.set_ylim((0., None))
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_xlabel('age')
+_ = _ax.set_ylabel('present_price / selling_price')
+_ax.grid(True)
+_ = seaborn.histplot(
+    x=df['age'], y=df['present_price_ratio'],
+    bins=(
+        iis_project.plotting_utils.suggest_bins_num(len(df['age'])),
+        iis_project.plotting_utils.suggest_bins_num(len(df['present_price_ratio'])),
+    ),
+    #thresh=None, palette='Blues',
+    cbar=True,
+    #hue_norm=matplotlib.colors.LogNorm(0, 64),
+    ax=_ax,
+)
+#_ax.set_xscale('log')
+_ = _ax.set_ylim((0., None))
+
+# %% [raw] raw_mimetype=""
+# _fig, _ax = matplotlib.pyplot.subplots()
+# _ = _ax.set_xlabel('age')
+# _ = _ax.set_ylabel('driven_kms')
+# _ax.grid(True)
+# _ = seaborn.histplot(
+#     x=df['age'], y=df['driven_kms'],
+#     bins=(
+#         iis_project.plotting_utils.suggest_bins_num(len(df['age'])),
+#         numpy.geomspace(
+#             min(df['driven_kms']), max(df['driven_kms']),
+#             (iis_project.plotting_utils.suggest_bins_num(len(df['driven_kms'])) + 1),
+#         ),
+#     ),
+#     #thresh=None, palette='Blues',
+#     cbar=True,
+#     #hue_norm=matplotlib.colors.LogNorm(0, 64),
+#     ax=_ax,
+# )
+# #_ax.set_xscale('log')
+# _ax.set_yscale('log')
+
+# %%
+_fig = bokeh.plotting.figure(
+    x_axis_type='linear', y_axis_type='log',
+    x_axis_label='age', y_axis_label='driven_kms',
+)
+_mapper = bokeh.models.LinearColorMapper(
+    palette='Viridis256',
+    low=min(0., df['present_price_ratio'].min()), high=max(1., df['present_price_ratio'].max()),
+)
+_ = _fig.scatter(
+    'age', 'driven_kms',
+    color=bokeh.transform.transform('present_price_ratio', _mapper),
+    source=bokeh_source_df,
+    size=12., alpha=0.75,
+)
+_fig.add_tools(
+    bokeh.models.HoverTool(
+        tooltips=[
+            ('present price', '@present_price'),
+            ('selling price ', '@selling_price'),
+            ('year', '@year',),
+            ('index', '$index',),
+        ],
+    ),
+)
+_fig.add_layout(bokeh.models.ColorBar(color_mapper=_mapper), 'right')
+bokeh.plotting.show(_fig)
+
+# %% [markdown]
+# В частности, существует сильная связь между и возрастом автомобиля и отношением цены с пробегом
+# к изначальной. Довольно много объектов, но далеко не все, сосредоточены около одной точки
+# в пространстве данных.
+
+# %% [markdown]
+# Распределения цен с пробегом по категориям:
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_yscale('log')
+_ax.grid(True)
+_ = df.boxplot('present_price', by='fuel_type', ax=_ax, patch_artist=False)
+#_ax.set_ylim((0, None))
+
+# %% [markdown]
+# Автомобили на дизеле дороже автомобилей на бензине, а также реже продаются
+# за крайне низкие цены.
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_yscale('log')
+_ax.grid(True)
+_ = df.boxplot('present_price', by='selling_type', ax=_ax, patch_artist=False)
+#_ax.set_ylim((0, None))
+
+# %% [markdown]
+# Частные лица обычно продают автомобили намного дешевле, чем дилеры (хотя этот вывод не учитывает
+# возможное влияние других переменных). Отмечены множество автомобилей, продаваемых дилерами
+# по особо высоким ценам.
+
+# %% [markdown]
+# Проверка возможной систематической разницы в пробеге между категориями:
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_yscale('log')
+_ax.grid(True)
+_ = df.boxplot('driven_kms', by='fuel_type', ax=_ax, patch_artist=False)
+#_ax.set_ylim((0, None))
+
+# %%
+_fig, _ax = matplotlib.pyplot.subplots()
+_ = _ax.set_yscale('log')
+_ax.grid(True)
+_ = df.boxplot('driven_kms', by='selling_type', ax=_ax, patch_artist=False)
+#_ax.set_ylim((0, None))
+
+# %% [markdown]
+# Большой систематической разницы в пробеге между категориями нет.
+
+# %% [markdown]
+# ## Сохранение аугментированных данных
+
+# %%
+if data_aug_csv:
+    df.to_csv(
+        (data_aug_csv_path if data_aug_csv_path is not None else (DATA_PATH / data_aug_csv_relpath)),
+        index=False,
+    )
+
+# %%
+if data_aug_pickle:
+    import pickle
+    with open(
+        (
+            data_aug_pickle_path
+            if data_aug_pickle_path is not None
+            else (DATA_PATH / data_aug_pickle_relpath)
+        ),
+        'wb',
+    ) as out_file:
+        pickle.dump(df, out_file)
+
+# %% [markdown]
+# ## Выводы по исследованию
+
+# %% [markdown]
+# Выполнена очистка датасета: удалены несколько аномальных объектов, переименованы некоторые
+# ошибочно названные признаки. (Пропущенных значений в датасете нет.)
+
+# %% [markdown]
+# Датасет дополнен (аугментирован) потенциально полезными синтетическими признаками:
+# отношение цены с пробегом к изначальной цене, возраст (предполагаемый на основе года выпуска
+# автомобиля и распределения этих годов выпуска в датасете), логарифмы количественных величин.
+# Аугментированная версия сохраняется отдельно.
+
+# %% [markdown]
+# Предварительно подтверждена возможность определения рыночной цены автомобиля с пробегом
+# по использованным признакам, **в особенности** по следующим: исходная цена, возраст и пробег
+# автомобиля, тип продающего лица (дилер или частное лицо), топливо (автомобили на дизельном
+# топливе редко бывают дешёвыми).
+#
+# * Цена продажи с пробегом сильно линейно коррелирует с изначальной ценой.
+#
+# * Интересно, что возраст автомобиля является заметно лучшим предиктором снижения стоимости,
+#   чем пробег, при этом корреляция между возрастом и пробегом существенная, но не определяющая.
+#
+# * Существует огромная разница в ценах у дилеров и частных лиц (у частных лиц дешевле в разы).
+#
+# * Существует слабая, но заметная прямая корреляция между изначальной ценой автомобиля и пробегом
+#   к дате последующей продажи.
+#
+# * Датасет не очень однороден (у него есть "тяжёлый центр"), и с малым количеством объектов
+#   это может создать проблемы с устойчивостью предсказания цен. Рекомендуется применение
+#   робастных методов ограниченной сложности; однако прямая линейная регрессия для предсказания
+#   цены проодажи может всё-таки оказаться не лучшим методом.
--- a/eda/cars_eda_figures/README.txt
+++ b/eda/cars_eda_figures/README.txt
@@ -0,0 +1 @@
+Эта директория существует по указанию преподавателя.
--- a/eda/cars_eda_figures/boxplots_mileage_by_fuel_type.png
+++ b/eda/cars_eda_figures/boxplots_mileage_by_fuel_type.png
--- a/eda/cars_eda_figures/boxplots_mileage_by_seller_type.png
+++ b/eda/cars_eda_figures/boxplots_mileage_by_seller_type.png
--- a/eda/cars_eda_figures/boxplots_present_price_by_fuel_type.png
+++ b/eda/cars_eda_figures/boxplots_present_price_by_fuel_type.png
--- a/eda/cars_eda_figures/boxplots_present_price_by_seller_type.png
+++ b/eda/cars_eda_figures/boxplots_present_price_by_seller_type.png
--- a/eda/cars_eda_figures/joint_hist_age_and_present_price_ratio.png
+++ b/eda/cars_eda_figures/joint_hist_age_and_present_price_ratio.png
--- a/eda/cars_eda_figures/joint_hist_mileage_and_present_price_ratio.png
+++ b/eda/cars_eda_figures/joint_hist_mileage_and_present_price_ratio.png
--- a/eda/cars_eda_figures/quantitative_features_corr_matrix.png
+++ b/eda/cars_eda_figures/quantitative_features_corr_matrix.png
--- a/eda/cars_eda_figures/scatter_age_vs_mileage_colored_by_present_price_ratio.png
+++ b/eda/cars_eda_figures/scatter_age_vs_mileage_colored_by_present_price_ratio.png
--- a/eda/cars_eda_figures/scatter_mileage_vs_inv_present_price_ratio_speculative.png
+++ b/eda/cars_eda_figures/scatter_mileage_vs_inv_present_price_ratio_speculative.png
--- a/eda/cars_eda_figures/scatter_selling_vs_present_price_by_seller_type.png
+++ b/eda/cars_eda_figures/scatter_selling_vs_present_price_by_seller_type.png
--- a/gc_mlflow.ps1
+++ b/gc_mlflow.ps1
@@ -0,0 +1,5 @@
+$ErrorActionPreference = "Stop"
+
+. $PSScriptRoot\_mlflow_config_common.ps1
+
+& mlflow gc --backend-store-uri="$BACKEND_URI" @args
--- a/gc_mlflow.sh
+++ b/gc_mlflow.sh
@@ -0,0 +1,7 @@
+#!/bin/sh
+
+set -eu
+
+. _mlflow_config_common.sh
+
+& mlflow gc --backend-store-uri="$BACKEND_URI" "$@"
--- a/iis_project/init.py
+++ b/iis_project/init.py
--- a/iis_project/common.py
+++ b/iis_project/common.py
@@ -0,0 +1,19 @@
+from collections.abc import Iterable, Iterator
+
+class _ZipSentinel:
+    pass
+
+_ZIP_SENTINEL: _ZipSentinel = _ZipSentinel()
+
+def zip_n(*iterables: Iterable, n: int) -> Iterator[tuple]:
+    n = max(n, 0)
+    if len(iterables) == 0:
+        for i in range(n):
+            yield ()
+        return
+    iterators = list(map(iter, iterables))
+    for i in range(n):
+        tup = tuple(next(it, _ZIP_SENTINEL) for it in iterators)
+        if any(isinstance(v, _ZipSentinel) for v in tup):
+            raise ValueError(f"at least one of iterables was exhausted in {i + 1} < {n} iterations")
+        yield tup
--- a/iis_project/mlxtend_utils/init.py
+++ b/iis_project/mlxtend_utils/init.py
--- a/iis_project/mlxtend_utils/feature_selection.py
+++ b/iis_project/mlxtend_utils/feature_selection.py
@@ -0,0 +1,3 @@
+SEQUENTIAL_FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE = [
+    'k_features', 'forward', 'floating', 'scoring', 'cv', 'fixed_features', 'feature_groups',
+]
--- a/iis_project/plotting_utils.py
+++ b/iis_project/plotting_utils.py
@@ -0,0 +1,27 @@
+from math import ceil
+from typing import Optional
+
+from scipy.stats import norm
+
+# XXX: может, заменить вызов scipy.stats.norm на аппроксимацию?
+
+SND_QUARTILE: float = (
+    #0.674490
+    norm.ppf(1 - 0.25)
+)
+
+def suggest_iqr_to_range_to_suggest_bins_num(n: int) -> float:
+    p = 1 / (n + 1)
+    return (SND_QUARTILE / norm.ppf(1 - p/2))
+
+def suggest_bins_num(n: int, iqr_to_range: Optional[float] = None, scale: float = 1.) -> int:
+    if n <= 0:
+        raise ValueError(f'n should be >= 1, got {n}')
+    if (iqr_to_range is not None) and (iqr_to_range <= 0.):
+        raise ValueError(f'iqr_to_range should be > 0 or None, got {iqr_to_range}')
+    if scale <= 0.:
+        raise ValueError(f'scale should be > 0, got {scale}')
+    if iqr_to_range is None:
+        iqr_to_range = suggest_iqr_to_range_to_suggest_bins_num(n)
+    t = 0.5 * scale * (1. / iqr_to_range) * (n ** (1. / 3))
+    return int(ceil(t))
--- a/iis_project/sklearn_utils/init.py
+++ b/iis_project/sklearn_utils/init.py
@@ -0,0 +1,60 @@
+from collections.abc import Container, Sequence, Mapping
+from typing import TypeAlias, TypeVar
+
+
+ParamsFilterSpec: TypeAlias = (
+    bool
+    | Container[str]
+    | tuple[bool, Container[str]]
+    | Mapping[str, 'ParamsFilterSpec']
+    | tuple[bool, 'ParamsFilterSpec']
+)
+
+
+V = TypeVar('V')
+
+
+def _split_param_key(key: str) -> tuple[str, ...]:
+    return tuple(key.split('__'))
+
+
+def _match_key_to_filter_spec(
+    key: Sequence[str], spec: ParamsFilterSpec, empty_default: bool,
+) -> bool:
+    if isinstance(spec, Sequence) and (len(spec) == 2) and isinstance(spec[0], bool):
+        if (len(key) == 0) and (not spec[0]):
+            return empty_default
+        spec = spec[1]
+    if isinstance(spec, Mapping):
+        if len(key) == 0:
+            return empty_default
+        spec_nested = spec.get(key[0])
+        if spec_nested is None:
+            return False
+        return _whether_to_include_param(key[1:], spec_nested)
+    elif isinstance(spec, Container):
+        if len(key) == 0:
+            return True
+        return (key[0] in spec)
+    return bool(spec)
+
+
+def _whether_to_include_param(
+    key: Sequence[str], include: ParamsFilterSpec = True, exclude: ParamsFilterSpec = False,
+) -> bool:
+    return (
+        (not _match_key_to_filter_spec(key, exclude, empty_default=False))
+        and _match_key_to_filter_spec(key, include, empty_default=True)
+    )
+
+
+def filter_params(
+    params: Mapping[str, V],
+    include: ParamsFilterSpec = True,
+    exclude: ParamsFilterSpec = False,
+) -> Mapping[str, V]:
+    return {
+        k: v
+        for k, v in params.items()
+        if _whether_to_include_param(_split_param_key(k), include, exclude)
+    }
--- a/iis_project/sklearn_utils/compose.py
+++ b/iis_project/sklearn_utils/compose.py
@@ -0,0 +1,3 @@
+COLUMN_TRANSFORMER_PARAMS_COMMON_INCLUDE = [
+    'remainder', 'sparse_threshold', 'transformer_weights',
+]
--- a/iis_project/sklearn_utils/ensemble.py
+++ b/iis_project/sklearn_utils/ensemble.py
@@ -0,0 +1 @@
+RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE = ['n_jobs', 'verbose', 'warm_start']
--- a/iis_project/sklearn_utils/pandas.py
+++ b/iis_project/sklearn_utils/pandas.py
@@ -0,0 +1,5 @@
+from pandas import DataFrame
+
+
+def pandas_dataframe_from_transformed_artifacts(matrix, transformer) -> DataFrame:
+    return DataFrame(matrix, columns=transformer.get_feature_names_out())
--- a/iis_project/sklearn_utils/preprocessing.py
+++ b/iis_project/sklearn_utils/preprocessing.py
@@ -0,0 +1 @@
+STANDARD_SCALER_PARAMS_COMMON_EXCLUDE = ['copy']
--- a/mlflow/.gitignore
+++ b/mlflow/.gitignore
@@ -0,0 +1,2 @@
+mlruns.sqlite
+mlartifacts/
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,2 +0,0 @@
-matplotlib ~=3.10
-pandas ~=2.3
--- a/requirements/requirements-eda.txt
+++ b/requirements/requirements-eda.txt
@@ -0,0 +1 @@
+bokeh >=3.7.2,<4
--- a/requirements/requirements-isolated-research-model.txt
+++ b/requirements/requirements-isolated-research-model.txt
@@ -0,0 +1,2 @@
+mlxtend ~=0.23.4
+scikit-learn >=1.7.2,<2
--- a/requirements/requirements-research.txt
+++ b/requirements/requirements-research.txt
@@ -0,0 +1,4 @@
+mlflow >=2.16,<2.22
+mlxtend ~=0.23.4
+optuna ~=4.5
+scikit-learn >=1.7.2,<2
--- a/requirements/requirements.txt
+++ b/requirements/requirements.txt
@@ -0,0 +1,7 @@
+ipykernel >=6.30.1,<7
+ipympl ~=0.9.6
+matplotlib >=3.10.1,<4
+numpy >=2.2.6,<3
+pandas >=2.3.1,<3
+scipy >=1.15.3,<2
+seaborn ~=0.13.2
--- a/research/README.md
+++ b/research/README.md
@@ -0,0 +1,59 @@
+# Исследование и настройка предсказательной модели
+
+## Блокноты Jupyter
+
+* `research` &mdash; Создание множества разных моделей, с использованием разных создаваемых признаков и оптимизацией гиперпараметров.
+
+  Использует файл аугментированных данных датасета о подержанных автомобилях, создаваемый блокнотом `eda/cars_eda.py`. См. `eda/README.md`.
+
+  Если параметр блокнота `mlflow_do_log` установлен в `True`, блокнот логирует в MLFlow создаваемые модели в отдельные вложенные (nested) прогоны под одним (новым) общим прогоном с именем, определяемым параметром `mlflow_experiment_name`.
+
+  Точность предсказания текущей цены автомобиля оценивается в первую очередь по показателю MAPE (из-за наличия в выборке значений цены разных порядков), во вторую очередь учитывается MSE (ради отслеживания систематических ошибок на подвыборках). Исследованные модели:
+
+  1. baseline (MAPE = 0.35, MSE = 1.18);
+  2. с использованием добавленных признаков (feature engineering с помощью scikit-learn) &mdash; точность неоднозначна по сравнению с baseline (MAPE = 0.31, MSE = 1.50);
+  3. с использованием добавленных и выбранных (SFS) признаков &mdash; точность существенно лучше baseline (MAPE = 0.20, MSE = 1.02);
+  4. с использованием добавленных и выбранных признаков и оптимизированными гиперпараметрами (optuna) &mdash; точность немного лучше модели 3 по MAPE (MAPE = 0.20, MSE = 0.94).
+
+  Модель 4 выбрана как финальная модель для последующего развёртывания. Она использует следующие признаки (такие же, как и модель 3):
+  * `extend_features_as_polynomial__selling_price` (исходная цена продажи, нормализована `StandardScaler`),
+  * `extend_features_as_polynomial__selling_price^2`,
+  * `extend_features_as_spline__age_sp_1` (значение базисной функции 2/5 однородного сплайна, нормализованного к крайним значениям возраста автомобилей),
+  * `extend_features_as_spline__age_sp_2` (то же, но базисная функция 3/5),
+  * `scale_to_standard__age` (исходный возраст автомобиля, нормализован `StandardScaler`).
+
+  По указанию преподавателя, скриншоты пользовательского интерфейса MLFlow сохранены в директории `./mlflow_ui_figures`.
+
+  По указанию преподавателя, ID финального прогона: `4c7f04ad9ee94237b44f60b6eb14b41e` (вложен в прогон `4e4a9094cb3c4eed9d4a056a27cadcd9`).
+
+## Установка
+
+Для исследования и настройки предсказательной модели необходимы общие зависимости, см. [Общие зависимости](../README.md#общие-зависимости) в `README.md`.
+
+Для исследования и настройки предсказательной модели используется среда [Jupyter](https://jupyter.org/). См. об установке и использовании Jupyter в проекте в `docs/jupyter.md`.
+
+### Зависимости
+
+Дополнительные зависимости, необходимые для исследования и настройки предсказательной модели, &mdash; пакеты Python &mdash; записаны в файле `requirements/requirements-research.txt` (см. **Пакеты Python**). См. об установке пакетов Python в **Пакеты Python** в `README.md`.
+
+## Работа с блокнотами Jupyter
+
+См. об установке и использовании Jupyter в проекте в `docs/jupyter.md`.
+
+## Работа с MLFlow
+
+Для управления жизненным циклом моделей машинного обучения используется платформа [MLFlow](https://mlflow.org/).
+
+Запуск локального сервера MLFlow (**выполнять в корневой директории проекта**):
+
+    run_mlflow_server
+
+Для остановки сервера MLFlow пошлите ему сигнал `SIGINT` (`Ctrl+C` в терминале).
+
+Очистка локальной tracking БД MLFlow от удалённых прогонов (**выполнять в корневой директории проекта**):
+
+    gc_mlflow
+
+Очистка локальной tracking БД MLFlow от конкретных удалённых экспериментов по списку их ID, разделённым запятыми, `<ids>` (**выполнять в корневой директории проекта**):
+
+    gc_mlflow --experiment-ids=<ids>
--- a/research/mlflow_ui_figures/registered_model_experimental.png
+++ b/research/mlflow_ui_figures/registered_model_experimental.png
--- a/research/mlflow_ui_figures/registered_model_final.png
+++ b/research/mlflow_ui_figures/registered_model_final.png
--- a/research/mlflow_ui_figures/run_final_model_artifacts_mlmodel.png
+++ b/research/mlflow_ui_figures/run_final_model_artifacts_mlmodel.png
--- a/research/mlflow_ui_figures/runs_with_metrics_display.png
+++ b/research/mlflow_ui_figures/runs_with_metrics_display.png
--- a/research/research.ipynb
+++ b/research/research.ipynb
--- a/research/research.py
+++ b/research/research.py
@@ -0,0 +1,905 @@
+# ---
+# jupyter:
+#   jupytext:
+#     formats: py:percent,ipynb
+#     text_representation:
+#       extension: .py
+#       format_name: percent
+#       format_version: '1.3'
+#       jupytext_version: 1.17.3
+#   kernelspec:
+#     display_name: python3_venv
+#     language: python
+#     name: python3_venv
+# ---
+
+# %% [markdown]
+# # Исследование и настройка предсказательной модели для цен подержанных автомобилях
+
+# %% [markdown]
+# Блокнот использует файл аугментированных данных датасета о подержанных автомобилях, создаваемый блокнотом `eda/cars_eda.py`. См. ниже параметры блокнота для papermill.
+
+# %%
+#XXX: разделить блокнот штук на 5
+
+# %%
+from typing import Optional
+
+# %% tags=["parameters"]
+data_aug_pickle_path: Optional[str] = None
+# Полный путь к файлу (pickle) для сохранения очищенного датасета. Если не установлен, используется `data/<data_aug_pickle_relpath>`.
+data_aug_pickle_relpath: str = 'cars.aug.pickle'
+# Путь к файлу (pickle) для сохранения очищенного датасета относительно директории данных `data`. Игнорируется, если установлен data_aug_pickle_path.
+
+#model_global_comment_path: Optional[str] = None
+## Полный путь к текстовому файлу с произвольным комментарием для сохранения в MLFlow как артефакт вместе с моделью. Если не установлен, используется `research/<comment_relpath>`.
+#model_comment_relpath: str = 'comment.txt'
+## Путь к текстовому файлу с произвольным комментарием для сохранения в MLFlow как артефакт вместе с моделью относительно директории `research`. Игнорируется, если установлен comment_path.
+
+mlflow_tracking_server_uri: str = 'http://localhost:5000'
+# URL tracking-сервера MLFlow.
+mlflow_registry_uri: Optional[str] = None
+# URL сервера registry MLFlow (если не указан, используется `mlflow_tracking_server_uri`).
+
+mlflow_do_log: bool = True
+# Записывать ли прогоны (runs) в MLFlow.
+mlflow_experiment_id: Optional[str] = None
+# ID эксперимента MLFlow, имеет приоритет над `mlflow_experiment_name`.
+mlflow_experiment_name: Optional[str] = 'Current price predicion for used cars'
+# Имя эксперимента MLFlow (ниже приоритетом, чем `mlflow_experiment_id`).
+mlflow_root_run_name: str = 'Models'
+# Имя корневого прогона MLFlow (остальные прогоны будут созданы блокнотом внутри этого, как nested)
+
+# %%
+from collections.abc import Collection, Sequence
+import os
+import pathlib
+import pickle
+import sys
+
+# %%
+import matplotlib
+import mlflow
+import mlflow.models
+import mlflow.sklearn
+import mlxtend.feature_selection
+import mlxtend.plotting
+import optuna
+import optuna.samplers
+import sklearn.compose
+import sklearn.ensemble
+import sklearn.metrics
+import sklearn.model_selection
+import sklearn.pipeline
+import sklearn.preprocessing
+
+# %%
+BASE_PATH = pathlib.Path('..')
+
+# %%
+CODE_PATH = BASE_PATH
+sys.path.insert(0, str(CODE_PATH.resolve()))
+
+# %%
+from iis_project.mlxtend_utils.feature_selection import SEQUENTIAL_FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE
+from iis_project.sklearn_utils import filter_params
+from iis_project.sklearn_utils.compose import COLUMN_TRANSFORMER_PARAMS_COMMON_INCLUDE
+from iis_project.sklearn_utils.ensemble import RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE
+from iis_project.sklearn_utils.pandas import pandas_dataframe_from_transformed_artifacts
+from iis_project.sklearn_utils.preprocessing import STANDARD_SCALER_PARAMS_COMMON_EXCLUDE
+
+# %%
+MODEL_INOUT_EXAMPLE_SIZE = 0x10
+
+# %%
+mlflow.set_tracking_uri(mlflow_tracking_server_uri)
+if mlflow_registry_uri is not None:
+    mlflow.set_registry_uri(mlflow_registry_uri)
+
+# %%
+if mlflow_do_log:
+    mlflow_experiment = mlflow.set_experiment(experiment_name=mlflow_experiment_name, experiment_id=mlflow_experiment_id)
+    mlflow_root_run_id = None  # изменяется позже
+
+# %%
+DATA_PATH = (
+    pathlib.Path(os.path.dirname(data_aug_pickle_path))
+    if data_aug_pickle_path is not None
+    else (BASE_PATH / 'data')
+)
+
+
+# %%
+def build_sequential_feature_selector(*args, **kwargs):
+    return mlxtend.feature_selection.SequentialFeatureSelector(*args, **kwargs)
+
+def plot_sequential_feature_selection(feature_selector, *args_rest, **kwargs):
+    metric_dict = feature_selector.get_metric_dict()
+    return mlxtend.plotting.plot_sequential_feature_selection(metric_dict, *args_rest, **kwargs)
+
+
+# %% [markdown]
+# ## Загрузка и обзор данных
+
+# %%
+with open(
+    (
+        data_aug_pickle_path
+        if data_aug_pickle_path is not None
+        else (DATA_PATH / data_aug_pickle_relpath)
+    ),
+    'rb',
+) as input_file:
+    df_orig = pickle.load(input_file)
+
+# %% [markdown]
+# Обзор датасета:
+
+# %%
+len(df_orig)
+
+# %%
+df_orig.info()
+
+# %%
+df_orig.head(0x10)
+
+# %% [markdown]
+# ## Разделение датасета на выборки
+
+# %% [markdown]
+# Выделение признаков и целевых переменных:
+
+# %%
+feature_columns = (
+    'selling_price',
+    'driven_kms',
+    'fuel_type',
+    'selling_type',
+    'transmission',
+    #'owner',
+    'age',
+)
+
+target_columns = (
+    'present_price',
+)
+
+# %%
+features_to_scale_to_standard_columns = (
+    'selling_price',
+    'driven_kms',
+    'age',
+)
+assert all(
+    (col in df_orig.select_dtypes(('number',)).columns)
+    for col in features_to_scale_to_standard_columns
+)
+
+features_to_encode_wrt_target_columns = (
+    'fuel_type',
+    'selling_type',
+    'transmission',
+    #'owner',
+)
+assert all(
+    (col in df_orig.select_dtypes(('category', 'object')).columns)
+    for col in features_to_encode_wrt_target_columns
+)
+
+# %%
+df_orig_features = df_orig[list(feature_columns)]
+df_target = df_orig[list(target_columns)]
+
+# %% [markdown]
+# Разделение на обучающую и тестовую выборки:
+
+# %%
+DF_TEST_PORTION = 0.25
+
+# %%
+df_orig_features_train, df_orig_features_test, df_target_train, df_target_test = (
+    sklearn.model_selection.train_test_split(
+        df_orig_features, df_target, test_size=DF_TEST_PORTION, random_state=0x7AE6,
+    )
+)
+
+# %% [markdown]
+# Размеры обучающей и тестовой выборки соответственно:
+
+# %%
+tuple(map(len, (df_target_train, df_target_test)))
+
+# %% [markdown]
+# ## Модели
+
+# %%
+# XXX: один файл requirements для всех моделей
+MODEL_PIP_REQUIREMENTS_PATH = BASE_PATH / 'requirements' / 'requirements-isolated-research-model.txt'
+
+# %% [markdown]
+# Сигнатура модели для MLFlow:
+
+# %%
+mlflow_model_signature = mlflow.models.infer_signature(model_input=df_orig_features, model_output=df_target)
+mlflow_model_signature
+
+
+# %% [raw] vscode={"languageId": "raw"}
+# input_schema = mlflow.types.schema.Schema([
+#     mlflow.types.schema.ColSpec("double", "selling_price"),
+#     mlflow.types.schema.ColSpec("double", "driven_kms"),
+#     mlflow.types.schema.ColSpec("string", "fuel_type"),
+#     mlflow.types.schema.ColSpec("string", "selling_type"),
+#     mlflow.types.schema.ColSpec("string", "transmission"),
+#     mlflow.types.schema.ColSpec("double", "age"),
+# ])
+#
+# output_schema = mlflow.types.schema.Schema([
+#     mlflow.types.schema.ColSpec("double", "present_price"),
+# ])
+#
+# mlflow_model_signature = mlflow.models.ModelSignature(inputs=input_schema, outputs=output_schema)
+
+# %%
+def build_features_scaler_standard():
+    return sklearn.preprocessing.StandardScaler()
+
+
+# %%
+#def build_categorical_features_encoder_onehot():
+#    return sklearn.preprocessing.OneHotEncoder()
+
+def build_categorical_features_encoder_target(*, random_state=None):
+    return sklearn.preprocessing.TargetEncoder(
+        target_type='continuous', smooth='auto', shuffle=True, random_state=random_state,
+    )
+
+
+# %% [markdown]
+# Регрессор &mdash; небольшой случайный лес, цель &mdash; минимизация квадрата ошибки предсказания:
+
+# %%
+def build_regressor(n_estimators, *, max_depth=None, max_features='sqrt', random_state=None):
+    return sklearn.ensemble.RandomForestRegressor(
+        n_estimators, criterion='squared_error',
+        max_depth=max_depth, max_features=max_features,
+        random_state=random_state,
+    )
+
+def build_regressor_baseline(*, random_state=None):
+    return build_regressor(16, max_depth=8, max_features='sqrt')
+
+
+# %%
+def score_predictions(target_test, target_test_predicted):
+    return {
+        'mse': sklearn.metrics.mean_squared_error(target_test, target_test_predicted),
+        'mae': sklearn.metrics.mean_absolute_error(target_test, target_test_predicted),
+        'mape': sklearn.metrics.mean_absolute_percentage_error(target_test, target_test_predicted),
+    }
+
+
+# %%
+# использует глобальные переменные mlflow_do_log, mlflow_experiment, mlflow_root_run_name
+def mlflow_log_model(
+    model,
+    model_params,
+    metrics,
+    *,
+    nested_run_name,
+    model_signature=None,
+    input_example=None,
+    pip_requirements=None,
+    #global_comment_file_path=None,
+    extra_logs_handler=None,
+):
+    global mlflow_root_run_id
+    if not mlflow_do_log:
+        return
+    experiment_id = mlflow_experiment.experiment_id
+    start_run_root_kwargs_extra = {}
+    if mlflow_root_run_id is not None:
+        start_run_root_kwargs_extra['run_id'] = mlflow_root_run_id
+    else:
+        start_run_root_kwargs_extra['run_name'] = mlflow_root_run_name
+    with mlflow.start_run(experiment_id=experiment_id, **start_run_root_kwargs_extra) as root_run:
+        if root_run.info.status not in ('RUNNING',):
+            raise RuntimeError('Cannot get the root run to run')
+        if mlflow_root_run_id is None:
+            mlflow_root_run_id = root_run.info.run_id
+        # важно одновременно использовать nested=True и parent_run_id=...:
+        with mlflow.start_run(experiment_id=experiment_id, run_name=nested_run_name, nested=True, parent_run_id=mlflow_root_run_id):
+            if isinstance(pip_requirements, pathlib.PurePath):
+                pip_requirements = str(pip_requirements)
+            _ = mlflow.sklearn.log_model(
+                model,
+                'model',
+                signature=model_signature,
+                input_example=input_example,
+                pip_requirements=pip_requirements,
+            )
+            if model_params is not None:
+                _ = mlflow.log_params(model_params)
+            if metrics is not None:
+                _ = mlflow.log_metrics(metrics)
+            #if (global_comment_file_path is not None) and global_comment_file_path.exists():
+            #    mlflow.log_artifact(str(global_comment_file_path))
+            if extra_logs_handler is not None:
+                if callable(extra_logs_handler) and (not isinstance(extra_logs_handler, Collection)):
+                    extra_logs_handler = (extra_logs_handler,)
+                for extr_logs_handler_fn in extra_logs_handler:
+                    extr_logs_handler_fn(mlflow)
+
+
+# %% [markdown]
+# ### Baseline модель
+
+# %% [markdown]
+# Пайплайн предобработки признаков:
+
+# %%
+preprocess_transformer = sklearn.compose.ColumnTransformer(
+    [
+        ('scale_to_standard', build_features_scaler_standard(), features_to_scale_to_standard_columns),
+        (
+            #'encode_categoricals_one_hot',
+            'encode_categoricals_wrt_target',
+            #build_categorical_features_encoder_onehot(),
+            build_categorical_features_encoder_target(random_state=0x2ED6),
+            features_to_encode_wrt_target_columns,
+        ),
+    ],
+    remainder='drop',
+)
+
+# %%
+regressor = build_regressor_baseline(random_state=0x016B)
+regressor
+
+# %% [markdown]
+# Составной пайплайн:
+
+# %%
+pipeline = sklearn.pipeline.Pipeline([
+    ('preprocess', preprocess_transformer),
+    ('regress', regressor),
+])
+pipeline
+
+# %%
+model_params = filter_params(
+    pipeline.get_params(),
+    include={
+        'preprocess': (
+            False,
+            {
+                **{k: True for k in COLUMN_TRANSFORMER_PARAMS_COMMON_INCLUDE},
+                'scale_to_standard': True,
+                'encode_categorical_wrt_target': True,
+            },
+        ),
+        'regress': (False, True),
+    },
+    exclude={
+        'preprocess': {'scale_to_standard': STANDARD_SCALER_PARAMS_COMMON_EXCLUDE},
+        'regress': RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE,
+    },
+)
+model_params
+
+# %% [markdown]
+# Обучение модели:
+
+# %%
+_ = pipeline.fit(df_orig_features_train, df_target_train.iloc[:, 0])
+
+# %% [markdown]
+# Оценка качества:
+
+# %%
+target_test_predicted = pipeline.predict(df_orig_features_test)
+
+# %% [markdown]
+# Метрики качества (MAPE, а также MSE, MAE):
+
+# %%
+metrics = score_predictions(df_target_test, target_test_predicted)
+metrics
+
+# %%
+mlflow_log_model(
+    pipeline,
+    model_params=model_params,
+    metrics={k: float(v) for k, v in metrics.items()},
+    nested_run_name='Baseline model',
+    model_signature=mlflow_model_signature,
+    input_example=df_orig_features.head(MODEL_INOUT_EXAMPLE_SIZE),
+    pip_requirements=MODEL_PIP_REQUIREMENTS_PATH,
+    #global_comment_file_path=(
+    #    model_comment_path
+    #    if model_comment_path is not None
+    #     else (BASE_PATH / 'research' / model_comment_relpath)
+    #),
+)
+
+# %% [markdown]
+# ### Модель с дополнительными признаками
+
+# %% [markdown]
+# Пайплайн предобработки признаков:
+
+# %%
+features_to_extend_as_polynomial = ('selling_price', 'driven_kms')
+features_to_extend_as_spline = ('age',)
+
+
+# %%
+def build_preprocess_augmenting_transformer():
+    assert set(features_to_extend_as_polynomial) <= {*features_to_scale_to_standard_columns}
+    assert set(features_to_extend_as_spline) <= {*features_to_scale_to_standard_columns}
+    return sklearn.compose.ColumnTransformer(
+        [
+            (
+                'extend_features_as_polynomial',
+                sklearn.pipeline.Pipeline([
+                    (
+                        'extend_features',
+                        sklearn.preprocessing.PolynomialFeatures(2, include_bias=False),
+                    ),
+                    ('scale_to_standard', build_features_scaler_standard()),
+                ]),
+                features_to_extend_as_polynomial,
+            ),
+            (
+                'extend_features_as_spline',
+                sklearn.preprocessing.SplineTransformer(
+                    4, knots='quantile', extrapolation='constant', include_bias=False,
+                ),
+                features_to_extend_as_spline,
+            ),
+            (
+                'scale_to_standard',
+                build_features_scaler_standard(),
+                tuple(filter(lambda f: f not in features_to_extend_as_polynomial, features_to_scale_to_standard_columns)),
+            ),
+            (
+                'encode_categoricals_wrt_target',
+                build_categorical_features_encoder_target(random_state=0x2ED6),
+                features_to_encode_wrt_target_columns,
+            ),
+        ],
+        remainder='drop',
+    )
+
+
+# %%
+PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_INCLUDE = {
+    **{k: True for k in COLUMN_TRANSFORMER_PARAMS_COMMON_INCLUDE},
+    'extend_features_as_polynomial': {
+        'extend_features': True,
+        'scale_to_standard': True,
+    },
+    'extend_features_as_spline': True,
+    'scale_to_standard': True,
+    'encode_categorical_wrt_target': True,
+}
+PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_EXCLUDE = {
+    'extend_features_as_polynomial': {
+        'scale_to_standard': STANDARD_SCALER_PARAMS_COMMON_EXCLUDE,
+    },
+    'scale_to_standard': STANDARD_SCALER_PARAMS_COMMON_EXCLUDE,
+}
+
+# %%
+preprocess_transformer = build_preprocess_augmenting_transformer()
+preprocess_transformer
+
+# %% [markdown]
+# Демонстрация предобработки данных:
+
+# %%
+preprocess_transformer_tmp = build_preprocess_augmenting_transformer()
+df_augd_features_matrix_train = preprocess_transformer_tmp.fit_transform(df_orig_features_train, df_target_train.iloc[:, 0])
+df_augd_features_train = pandas_dataframe_from_transformed_artifacts(df_augd_features_matrix_train, preprocess_transformer_tmp)
+del preprocess_transformer_tmp
+
+# %% [markdown]
+# Обзор предобработанного датасета:
+
+# %%
+df_augd_features_train.info()
+
+# %%
+df_augd_features_train.head(0x8)
+
+# %%
+regressor = build_regressor_baseline(random_state=0x3AEF)
+regressor
+
+# %% [markdown]
+# Составной пайплайн:
+
+# %%
+pipeline = sklearn.pipeline.Pipeline([
+    ('preprocess', preprocess_transformer),
+    ('regress', regressor),
+])
+pipeline
+
+# %%
+model_params = filter_params(
+    pipeline.get_params(),
+    include={
+        'preprocess': (False, PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_INCLUDE.copy()),
+        'regress': (False, True),
+    },
+    exclude={
+        'preprocess': PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_EXCLUDE.copy(),
+        'regress': RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE,
+    },
+)
+model_params
+
+# %% [markdown]
+# Обучение модели:
+
+# %%
+_ = pipeline.fit(df_orig_features_train, df_target_train.iloc[:, 0])
+
+# %% [markdown]
+# Оценка качества:
+
+# %%
+target_test_predicted = pipeline.predict(df_orig_features_test)
+
+# %% [markdown]
+# Метрики качества (MAPE, а также MSE, MAE):
+
+# %%
+metrics = score_predictions(df_target_test, target_test_predicted)
+metrics
+
+# %%
+mlflow_log_model(
+    pipeline,
+    model_params=model_params,
+    metrics={k: float(v) for k, v in metrics.items()},
+    nested_run_name='Model with engineered features',
+    model_signature=mlflow_model_signature,
+    input_example=df_orig_features.head(MODEL_INOUT_EXAMPLE_SIZE),
+    pip_requirements=MODEL_PIP_REQUIREMENTS_PATH,
+    #global_comment_file_path=(
+    #    model_comment_path
+    #    if model_comment_path is not None
+    #    else (BASE_PATH / 'research' / model_comment_relpath)
+    #),
+)
+
+
+# %% [markdown]
+# ### Модель с дополнительными и отфильтрованными признаками
+
+# %%
+def build_selected_columns_info_for_mlflow(names=None, indices=None):
+    info = {}
+    if names is not None:
+        info['names'] = names
+    if indices is not None:
+        info['indices'] = indices
+    return info
+
+def build_extra_logs_handler_selected_columns(names=None, indices=None):
+    def extra_log(mlf):
+        if any((v is not None) for v in (names, indices)):
+            info = build_selected_columns_info_for_mlflow(names=names, indices=indices)
+            mlf.log_dict(info, 'selected_columns_info.json')
+    return extra_log
+
+
+# %%
+def build_selected_columns_info_for_mlflow_from_sequential_feature_selector(feature_selector, *, take_names=True, take_indices=True):
+    return build_selected_columns_info_for_mlflow(
+        names=(feature_selector.k_feature_names_ if take_names else None),
+        indices=(tuple(feature_selector.k_feature_idx_) if take_indices else None),
+    )
+
+def build_extra_logs_handler_selected_columns_from_sequential_feature_selector(feature_selector):
+    def extra_log(mlf):
+        info = build_selected_columns_info_for_mlflow_from_sequential_feature_selector(feature_selector)
+        mlf.log_dict(info, 'selected_columns_info.json')
+    return extra_log
+
+
+# %%
+regressor = build_regressor_baseline(random_state=0x8EDD)
+regressor
+
+# %% [markdown]
+# Выбор признаков среди дополненного набора по минимизации MAPE:
+
+# %%
+len(df_augd_features_train.columns)
+
+# %%
+FILTERED_FEATURES_NUM = (4, 8)
+
+
+# %%
+def build_feature_selector(*, verbose=0):
+    return build_sequential_feature_selector(
+        regressor, k_features=FILTERED_FEATURES_NUM, forward=True, floating=True, cv=4, scoring='neg_mean_absolute_percentage_error',
+        verbose=verbose,
+    )
+
+
+# %%
+FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE = {
+    **{k: True for k in SEQUENTIAL_FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE},
+    'estimator': False,
+}
+FEATURE_SELECTOR_PARAMS_COMMON_EXCLUDE = ()  # TODO: ай-яй-яй
+
+# %%
+feature_selector = build_feature_selector(verbose=1)
+feature_selector
+
+# %%
+_ = feature_selector.fit(df_augd_features_train, df_target_train.iloc[:, 0])
+
+# %% [markdown]
+# Выбранные признаки (имена и индексы):
+
+# %%
+build_selected_columns_info_for_mlflow_from_sequential_feature_selector(feature_selector)
+
+# %% [markdown]
+# MAPE в зависимости от количества выбранных признаков (указан регион выбора, ограниченный `FILTERED_FEATURES_NUM`):
+
+# %%
+fig, ax = plot_sequential_feature_selection(feature_selector, kind='std_dev')
+ax.grid(True)
+if isinstance(FILTERED_FEATURES_NUM, Sequence):
+    _ = ax.axvspan(min(FILTERED_FEATURES_NUM), max(FILTERED_FEATURES_NUM), color=matplotlib.colormaps.get_cmap('tab10')(6), alpha=0.15)
+# хотелось бы поставить верхнюю границу `len(df_augd_features_train.columns)`, но SequentialFeatureSelector до неё не досчитывает-то
+_ = ax.set_xlim((1, (max(FILTERED_FEATURES_NUM) if isinstance(FILTERED_FEATURES_NUM, Sequence) else FILTERED_FEATURES_NUM)))
+_ = ax.set_ylim((None, 0.))
+
+# %% [markdown]
+# Составной пайплайн:
+
+# %%
+pipeline = sklearn.pipeline.Pipeline([
+    ('preprocess', build_preprocess_augmenting_transformer()),
+    ('select_features', feature_selector),
+    ('regress', regressor),
+])
+pipeline
+
+# %%
+model_params = filter_params(
+    pipeline.get_params(),
+    include={
+        'preprocess': (False, PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_INCLUDE.copy()),
+        'select_features': (False, FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE.copy()),
+        'regress': (False, True),
+    },
+    exclude={
+        'preprocess': PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_EXCLUDE.copy(),
+        'select_features': FEATURE_SELECTOR_PARAMS_COMMON_EXCLUDE,
+        'regress': RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE,
+    },
+)
+model_params
+
+# %% [markdown]
+# Обучение модели:
+
+# %%
+# XXX: SequentialFeatureSelector обучается опять!?
+_ = pipeline.fit(df_orig_features_train, df_target_train.iloc[:, 0])
+
+# %% [markdown]
+# Оценка качества:
+
+# %%
+target_test_predicted = pipeline.predict(df_orig_features_test)
+
+# %% [markdown]
+# Метрики качества (MAPE, а также MSE, MAE):
+
+# %%
+metrics = score_predictions(df_target_test, target_test_predicted)
+metrics
+
+# %%
+mlflow_log_model(
+    pipeline,
+    model_params=model_params,
+    metrics={k: float(v) for k, v in metrics.items()},
+    nested_run_name='Model with filtered engineered features',
+    model_signature=mlflow_model_signature,
+    input_example=df_orig_features.head(MODEL_INOUT_EXAMPLE_SIZE),
+    pip_requirements=MODEL_PIP_REQUIREMENTS_PATH,
+    #global_comment_file_path=(
+    #    model_comment_path
+    #    if model_comment_path is not None
+    #    else (BASE_PATH / 'research' / model_comment_relpath)
+    #),
+    extra_logs_handler=(build_extra_logs_handler_selected_columns_from_sequential_feature_selector(pipeline.named_steps['select_features']),),
+)
+
+
+# %% [markdown]
+# ### Автоматический подбор гиперпараметров модели
+
+# %% [markdown]
+# Составной пайплайн:
+
+# %%
+def build_pipeline(regressor_n_estimators, regressor_max_depth=None, regressor_max_features='sqrt'):
+    return sklearn.pipeline.Pipeline([
+        ('preprocess', build_preprocess_augmenting_transformer()), 
+        ('select_features', build_feature_selector()),
+        ('regress', build_regressor(regressor_n_estimators, max_depth=regressor_max_depth, max_features=regressor_max_features)),
+    ])
+
+
+# %% [markdown]
+# Целевая функция для оптимизатора гиперпараметров (подбирает параметры `RandomForestRegressor`: `n_estimators`, `max_depth`, `max_features`):
+
+# %%
+def regressor_hyperparams_objective(trial):
+    n_estimators = trial.suggest_int('n_estimators', 1, 256, log=True)
+    max_depth = trial.suggest_int('max_depth', 1, 16, log=True)
+    max_features = trial.suggest_float('max_features', 0.1, 1.)
+    # составной пайплайн:
+    pipeline = build_pipeline(n_estimators, regressor_max_depth=max_depth, regressor_max_features=max_features)
+    # обучение модели:
+    _ = pipeline.fit(df_orig_features_train, df_target_train.iloc[:, 0])
+    # оценка качества:
+    target_test_predicted = pipeline.predict(df_orig_features_test)
+    # метрика качества (MAPE):
+    mape = sklearn.metrics.mean_absolute_percentage_error(df_target_test, target_test_predicted)
+    return mape
+
+
+# %% [markdown]
+# optuna study:
+
+# %%
+optuna_sampler = optuna.samplers.TPESampler(seed=0x0A1C)
+optuna_study = optuna.create_study(sampler=optuna_sampler, direction='minimize')
+optuna_study.optimize(regressor_hyperparams_objective, n_trials=24)
+
+# %% [markdown]
+# Количество выполненных trials:
+
+# %%
+len(optuna_study.trials)
+
+# %% [markdown]
+# Лучшие найдённые гиперпараметры:
+
+# %%
+repr(optuna_study.best_params)
+
+# %%
+regressor_best_params = dict(optuna_study.best_params.items())
+
+
+# %% [markdown]
+# Составной пайплайн:
+
+# %%
+def build_pipeline_optimized_best():
+    return build_pipeline(
+        regressor_best_params['n_estimators'],
+        regressor_max_depth=regressor_best_params['max_depth'],
+        regressor_max_features=regressor_best_params['max_features'],
+    )
+
+
+# %%
+pipeline = build_pipeline_optimized_best()
+pipeline
+
+# %%
+model_params = filter_params(
+    pipeline.get_params(),
+    include={
+        'preprocess': (False, PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_INCLUDE.copy()),
+        'select_features': (False, FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE.copy()),
+        'regress': (False, True),
+    },
+    exclude={
+        'preprocess': PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_EXCLUDE.copy(),
+        'select_features': FEATURE_SELECTOR_PARAMS_COMMON_EXCLUDE,
+        'regress': RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE,
+    },
+)
+model_params
+
+# %% [markdown]
+# Обучение модели:
+
+# %%
+_ = pipeline.fit(df_orig_features_train, df_target_train.iloc[:, 0])
+
+# %% [markdown]
+# Оценка качества:
+
+# %%
+target_test_predicted = pipeline.predict(df_orig_features_test)
+
+# %% [markdown]
+# Метрики качества (MAPE, а также MSE, MAE):
+
+# %%
+metrics = score_predictions(df_target_test, target_test_predicted)
+metrics
+
+# %%
+mlflow_log_model(
+    pipeline,
+    model_params=model_params,
+    metrics={k: float(v) for k, v in metrics.items()},
+    nested_run_name='Optimized model with filtered engineered features',
+    model_signature=mlflow_model_signature,
+    input_example=df_orig_features.head(MODEL_INOUT_EXAMPLE_SIZE),
+    pip_requirements=MODEL_PIP_REQUIREMENTS_PATH,
+    #global_comment_file_path=(
+    #    model_comment_path
+    #    if model_comment_path is not None
+    #    else (BASE_PATH / 'research' / model_comment_relpath)
+    #),
+    extra_logs_handler=(build_extra_logs_handler_selected_columns_from_sequential_feature_selector(pipeline.named_steps['select_features']),),
+)
+
+# %% [markdown]
+# ### И в продакшн
+
+# %% [markdown]
+# Лучшая выбранная модель &mdash; с автоматически подобранными гиперпараметрами.
+
+# %%
+pipeline = build_pipeline_optimized_best()
+pipeline
+
+# %%
+model_params = filter_params(
+    pipeline.get_params(),
+    include={
+        'preprocess': (False, PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_INCLUDE.copy()),
+        'select_features': (False, FEATURE_SELECTOR_PARAMS_COMMON_INCLUDE.copy()),
+        'regress': (False, True),
+    },
+    exclude={
+        'preprocess': PREPROCESS_AUGMENTING_TRANSFORMER_PARAMS_COMMON_EXCLUDE.copy(),
+        'select_features': FEATURE_SELECTOR_PARAMS_COMMON_EXCLUDE,
+        'regress': RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE,
+    },
+)
+model_params
+
+# %%
+_ = pipeline.fit(df_orig_features, df_target.iloc[:, 0])
+
+# %%
+mlflow_log_model(
+    pipeline,
+    model_params=model_params,
+    metrics=None,
+    nested_run_name='Final model',
+    model_signature=mlflow_model_signature,
+    input_example=df_orig_features.head(MODEL_INOUT_EXAMPLE_SIZE),
+    pip_requirements=MODEL_PIP_REQUIREMENTS_PATH,
+    #global_comment_file_path=(
+    #    model_comment_path
+    #    if model_comment_path is not None
+    #    else (BASE_PATH / 'research' / model_comment_relpath)
+    #),
+    extra_logs_handler=(build_extra_logs_handler_selected_columns_from_sequential_feature_selector(pipeline.named_steps['select_features']),),
+)
+
+# %%
--- a/run_mlflow_server.ps1
+++ b/run_mlflow_server.ps1
@@ -0,0 +1,14 @@
+$ErrorActionPreference = "Stop"
+
+. $PSScriptRoot\_mlflow_config_common.ps1
+
+$DEFAULT_ARTIFACT_ROOT = "./mlflow/mlartifacts/"
+
+$MLFLOW_PORT = if ($env:MLFLOW_PORT) { $env:MLFLOW_PORT } else { 5000 }
+
+New-Item -ItemType Directory -Force -Path $DEFAULT_ARTIFACT_ROOT | Out-Null
+
+& mlflow server `
+    --backend-store-uri="$BACKEND_URI" `
+    --default-artifact-root="$DEFAULT_ARTIFACT_ROOT" `
+    -p $MLFLOW_PORT
--- a/run_mlflow_server.sh
+++ b/run_mlflow_server.sh
@@ -0,0 +1,16 @@
+#!/bin/sh
+
+set -eu
+
+. _mlflow_config_common.sh
+
+DEFAULT_ARTIFACT_ROOT="./mlflow/mlartifacts/"
+
+: "${MLFLOW_PORT:=5000}"
+
+mkdir -p "${DEFAULT_ARTIFACT_ROOT}"
+
+exec mlflow server \
+    --backend-store-uri="$BACKEND_URI"  \
+    --default-artifact-root="$DEFAULT_ARTIFACT_ROOT" \
+    -p "$MLFLOW_PORT"
Автор	SHA1	Сообщение	Дата
syropiatovvv	d417fa1d5d	fix: Не удается привязать аргумент к параметру "Path", так как он имеет значение NULL.	2025-11-22 15:01:08 +03:00
syropiatovvv	00e0ce4b78	добавить ipynb-версию блокнота research по указанию преподавателя	2025-11-02 03:10:53 +03:00
syropiatovvv	25444818cc	добавить README к research, обновить общий README (расположение файлов `requirements`), вынести документацию по использованию Jupyter в отдельный файл	2025-11-02 03:06:28 +03:00
syropiatovvv	4665a66473	добавить скрипты для вызов mlflow gc, вынести общую часть конфигурации скриптов вызова mlflow в отдельный sourceable скрипт	2025-11-02 02:41:30 +03:00
syropiatovvv	59897fbe61	в блокнот research добавить логирование списков выбранных признаков в MLFlow (через новый коллбек в mlflow_log_model), закомментировать логирование global_comment_file	2025-11-02 02:41:30 +03:00
syropiatovvv	bb1796e081	в блокнот research добавлено логирование Python requirements в MLFlow	2025-11-02 02:41:29 +03:00
syropiatovvv	d39d8f98d6	в блокнот research добавлена часть о выбранной лучшей модели	2025-11-02 02:41:29 +03:00
syropiatovvv	a7a0780f1a	refactor: в блокноте research, использовать mlflow nested runs	2025-11-02 02:41:29 +03:00
syropiatovvv	c16caf2e6a	сделать прогон optuna в блокноте research опциональным	2025-11-02 02:41:29 +03:00
syropiatovvv	22ef4d303c	добавить в блокнот research часть про оптимизацию гиперпараметров, обобщить некоторый код (в особенности фильтры параметров моделей)	2025-11-02 02:41:29 +03:00
syropiatovvv	543a4c6571	добавить в блокнот research часть про фильтрацию признаков с помощью SequentialFeatureSelector	2025-11-02 02:41:29 +03:00
syropiatovvv	ce02a6966b	изменить гиперпараметры RandomForestRegressor по умолчанию	2025-11-02 02:41:29 +03:00
syropiatovvv	8c3e3c1588	добавить в блокнот research часть о feature engineering с sklearn, выделить в блокноте некоторые общие функции, убрать 'transformer_input' из сохраняемых параметров Pipeline	2025-11-02 02:41:29 +03:00
syropiatovvv	2831ff4e81	fix: использовать правильное ядро Jupyter (локальное) в блокноте research	2025-11-02 02:41:28 +03:00
syropiatovvv	6038a1c566	рефакторинг блокнота research в части логирования в mlflow	2025-11-02 02:41:28 +03:00
syropiatovvv	070688dc68	рефакторинг блокнота research в плане использования MLFlow	2025-11-02 02:41:28 +03:00
syropiatovvv	2b2241b2ab	разделение requirements.txt по частям проекта	2025-11-02 02:41:28 +03:00
syropiatovvv	3ee22c3f0e	комментарии в блокнот research (до MLFlow)	2025-11-02 02:41:28 +03:00
syropiatovvv	af9340eda2	рефакторинг скрипта запуска сервера MLFlow, добавить скрипт запуска MLFlow для PowerShell	2025-11-02 02:41:28 +03:00
syropiatovvv	a3e8ebc030	убрать ненужную проверку существования файла БД в скрипте запуска MLFlow	2025-10-29 21:36:08 +03:00
syropiatovvv	2f1b884d4b	fix: в блокноте research убрать лишние параметры для papermill	2025-10-29 13:53:30 +03:00
syropiatovvv	b66aed2636	добавить логирование прогонов в MLFlow	2025-10-15 12:41:17 +03:00
syropiatovvv	462ab85b18	ввести MLFlow в работу	2025-10-15 12:40:14 +03:00
syropiatovvv	41497aa039	блокнот research	2025-10-15 11:23:17 +03:00
syropiatovvv	f6714c0918	добавить scikit-learn в зависимости	2025-10-15 11:22:22 +03:00
syropiatovvv	0d66f73f7f	fix: откатить версии зависимостей ради Python 3.10	2025-10-15 10:07:59 +03:00
syropiatovvv	105e06f7b4	refactor,docs: ввести использование локальных ядер Jupyter, переписать инструкцию по использованию Jupyter + добавить ссылку на свою статью с обоснованием вместо локального документа	2025-10-05 19:24:26 +03:00
syropiatovvv	addc173d75	refactor: мелкое изменение в алгоритме suggest_bins_num	2025-09-19 14:56:07 +03:00
syropiatovvv	ca3d34795d	удалить ненужный код (существует numpy.geomspace)	2025-09-19 12:12:07 +03:00
syropiatovvv	e01bc467b0	лабораторная работа 1; установить и записать порядки установки и работы с Jupyter; удалить некоторый ненужный код	2025-09-19 01:23:06 +03:00
syropiatovvv	8bbd3c8da5	добавить .editorconfig	2025-09-19 01:22:54 +03:00
syropiatovvv	1183fbd225	улучшить алгоритм suggest_bins_num	2025-09-19 01:22:52 +03:00
syropiatovvv	1739d8fb8b	добавить ipykernel в зависимости	2025-09-19 01:22:49 +03:00
syropiatovvv	9cbd83edca	refactor: уточнить версии зависимостей	2025-09-19 01:22:46 +03:00
syropiatovvv	a4c2be2d02	git: переместить gitignore на data/ в саму data/	2025-09-19 01:15:13 +03:00
syropiatovvv	dc68608a1e	wip: лаб работа 1	2025-09-17 18:10:03 +03:00
				`@@ -0,0 +1 @@`
				`Эта директория существует по указанию преподавателя.`
				`@@ -0,0 +1 @@`
				`RANDOM_FOREST_REGRESSOR_PARAMS_COMMON_EXCLUDE = ['n_jobs', 'verbose', 'warm_start']`
				`@@ -0,0 +1 @@`
				`STANDARD_SCALER_PARAMS_COMMON_EXCLUDE = ['copy']`