# Обоснование порядка работы с блокнотами Jupyter

[Архитектура](https://docs.jupyter.org/en/latest/projects/architecture/content-architecture.html) экосистемы Jupyter очень сложна, особенно если учитывать сторонние дополнения; данное обоснование может содержать неточности.

Концептуально, важные для темы компоненты в архитектуре Jupyter:

* *Ядро* ([kernel](https://docs.jupyter.org/en/latest/projects/kernels.html#kernels)) &mdash; независимый процесс, непосредственно исполняющий код на конкретном языке программирования (основываясь на конкретном экземпляре интерпретатора) и предоставляющий API для передачи исполняемого кода и получения результатов. (Самое популярное ядро &mdash; `ipykernel` &mdash; использует [IPython](https://ipython.org/), программный пакет, реализующий Python с расширенными возможностями интерактивной работы.)

* *Сервер* (server) и *приложение* (application) &mdash; компоненты, обеспечивающие выполнение прикладных задач. Так, стандартный `jupyter_server` и использующие его популярные [веб-приложения](https://jupyter.org/) (Notebook, JupyterLab) реализуют редактирование и исполнение блокнотов и других файлов (делегируя только непосредственное исполнение кода ядрам) и все пользовательские интерфейсы.

Чтобы пользователь могу выбрать ядро для использования (а значит, выбрать язык программирования и конкретный экземпляр интерпретатора), сервер Jupyter выполняет поиск доступных *спецификаций ядер* (kernelspec).

В случае Python, выбор конкретного экземпляра интерпретатора важен в частности потому, что это означает и выбор конкретного виртуального окружения. И здесь начинаются проблемы.

* Сервер Jupyter реализует только примитивный механизм поиска спецификаций ядер. "**Ядра [устанавливается](https://ipython.readthedocs.io/en/stable/install/kernel_install.html#installing-the-ipython-kernel)**" (install) глобально в систему либо для отдельного пользователя, что означает размещение спецификаций ядер под глобально уникальными именами (с учётом приоритета ядер, установленных для конкретного пользователя). Механизма локального размещения спецификаций ядер просто не предусмотрено. (Сервер Jupyter, возможно, реализует и другой механизм поиска *активных* ядер, который здесь нерелевантен.)

* Расширение [Jupyter](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter) для Visual Studio Code самостоятельно реализует ограниченные функции сервера и приложения. Однако оно имеет [продвинутый механизм](https://code.visualstudio.com/docs/datascience/jupyter-kernel-management#_python-environments) поиска спецификаций ядер. Спецификации ядер, размещённые в виртуальном окружении (в директории данных (например, `share`), далее `jupyter/kernels`), также подбираются и могут быть использованы пользователем. Они должны иметь *локально* (в отношении виртуального окружения) уникальные имена, **однако** они делят пространство имён с глобально установленными ядрами, просто с более высоким приоритетом.

* Блокнот Jupyter сохраняет имя нужного для его исполнения ядра в своих метаданных (`kernelspec.name`) (даже при использовании Jupytext).

Таким образом, отдельный блокнот требует ядро с определённым именем, это имя ищется в системе глобально, и при использовании оригинальной системы Jupyter нет возможности даже определить это имя локально для отдельного виртуального окружения с приоритетом выше, чем у ядер, установленных глобально. Т.е. блокнот существенно привязывается к окружению конкретной системы, что мешает переносимости и контролю версий, а также захламляет систему глобально установленными ядрами.

Найденные варианты смягчения проблемы:

1. Разворачивать Jupyter целиком внутри виртуального окружения.

   При этом подходе проблемы с выбором ядра, вероятно, нет вообще.

   **\*** Нет полной уверенности, что Jupyter в виртуальном окружении действительно будет использовать его экземпляр интерпретатора для ядра по умолчанию.

  **+** Простота работы, по крайней мере в пределах одного виртуального окружения.

  **&#8722;** Повышенный расход ресурсов хранилища; пакет `notebook` версии 7.4 со всеми зависимостями занимает порядка 264 МБ на диске 12 тысячами файлов.

  **&#8722;** Возможные проблемы из-за изоляции среды Jupyter от других проектов.

2. Использовать только Visual Studio Code с расширением Jupyter и пакетом `ipykernel` в каждом проекте; не использовать оригинальную систему (сервер Jupyter и веб-приложения) вообще.

   В каждом виртуальном окружении также нужен пакет `ipykernel` для работы с ядром.

   **+** Довольно надёжная локальная связь ядер с виртуальными окружениями.

   **&#8722;** Большая проблема с переносимостью блокнотов из-за необходимости использовать конкретную IDE с расширением вместо оригинальной системы.

   **&#8722;** Ограниченный функционал и нестабильность расширения Jupyter для Visual Studio Code.

   **&#8722;** Потенциальная необходимость ручных хаков в случае использования более одного виртуального окружения в одном проекте.

3. Использовать единственное определённое и зафиксированное для проекта имя ядра; устанавливать ядро с указанным именем глобально либо, для использования нескольких ядер (например, для нескольких виртуальных окружений для одного проекта), править каждый блокнот локально.

   **+** Относительно простой порядок работы в случае с единственным виртуальным окружением для каждого проекта.

   **&#8722;** Необходимо обеспечить уникальность имени ядра для проекта; имя ядра может стать нечитаемым.

   **&#8722;** Если появляется необходимость иметь несколько ядер для одного проекта (например, для нескольких виртуальных окружений) или переименовать единственное ядро, необходимо применять локальные правки к каждому релевантному блокноту, что существенно усложняет контроль версий.

   **&#8722;** Установленные спецификации ядер остаются в системе глобально и захламляют систему.

4. Запускать ядро самостоятельно из виртуального окружения и использовать механизм поиска активных ядер.

   Есть интерфейсы, намекающие на возможность этого варианта (см. пакет `ipykernel_launcher`), но неясно, насколько это было бы практично.

   **\*** Непонятно, возможно ли это.

   **\*** Непонятно, практично ли это.

   **+** Довольно надёжная локальная связь ядер с виртуальными окружениями.

   **&#8722;** Довольно много телодвижений для обычной работы с Jupyter.

   **&#8722;** Очень сложно в реализации, может потребовать разработки собственного ПО.

Вариант **3** выбран на данный момент для данного проекта из-за экономии ресурсов, переносимости и относительной простоты порядка работы с блокнотами в тривиальном рабочем процессе.