Вы не можете выбрать более 25 тем Темы должны начинаться с буквы или цифры, могут содержать дефисы(-) и должны содержать не более 35 символов.
iis-project/eda
syropiatovvv 25444818cc
добавить README к research, обновить общий README (расположение файлов `requirements`), вынести документацию по использованию Jupyter в отдельный файл
7 часов назад
..
cars_eda_figures лабораторная работа 1; установить и записать порядки установки и работы с Jupyter; удалить некоторый ненужный код 1 месяц назад
.editorconfig добавить .editorconfig 1 месяц назад
README.md добавить README к research, обновить общий README (расположение файлов `requirements`), вынести документацию по использованию Jupyter в отдельный файл 7 часов назад
cars_eda.py refactor,docs: ввести использование локальных ядер Jupyter, переписать инструкцию по использованию Jupyter 4 недель назад

README.md

Разведочный анализ данных (EDA)

Блокноты Jupyter

  • cars_eda — Очистка и первичный анализ данных о подержанных автомобилях.

    Использует CSV-файл сырых данных из датасета. Каноническое расположение файла данных: data/cars.csv.

    Создаёт файлы очищенных данных (по умолчанию — CSV) и аугментированных данных (по умолчанию — pickle). Канонические расположения: соответственно data/cars.clean.<ext> и data/cars.aug.<ext>, с заменой <ext> на расширение в зависимости от формата: csv для CSV, pickle для pickle.

    Выводы по исследованию:

    • Выполнена очистка датасета: удалены несколько аномальных объектов, переименованы некоторые ошибочно названные признаки. (Пропущенных значений в датасете нет.)

    • Датасет дополнен (аугментирован) потенциально полезными синтетическими признаками: отношение цены с пробегом к изначальной цене, возраст (предполагаемый на основе года выпуска автомобиля и распределения этих годов выпуска в датасете), логарифмы количественных величин. Аугментированная версия сохраняется отдельно.

    • Предварительно подтверждена возможность определения рыночной цены автомобиля с пробегом по использованным признакам, в особенности по следующим: исходная цена, возраст и пробег автомобиля, тип продающего лица (дилер или частное лицо), топливо (автомобили на дизельном топливе редко бывают дешёвыми).

      • Цена продажи с пробегом сильно линейно коррелирует с изначальной ценой.

      • Интересно, что возраст автомобиля является заметно лучшим предиктором снижения стоимости, чем пробег, при этом корреляция между возрастом и пробегом существенная, но не определяющая.

      • Существует огромная разница в ценах у дилеров и частных лиц (у частных лиц дешевле в разы).

      • Существует слабая, но заметная прямая корреляция между изначальной ценой автомобиля и пробегом к дате последующей продажи.

      • Датасет не очень однороден (у него есть "тяжёлый центр"), и с малым количеством объектов это может создать проблемы с устойчивостью предсказания цен. Рекомендуется применение робастных методов ограниченной сложности; однако прямая линейная регрессия для предсказания цены проодажи может всё-таки оказаться не лучшим методом.

    Графические артефакты исследования сохранены в директории ./cars_eda_figures/.

Установка

Для EDA необходимы общие зависимости, см. Общие зависимости в README.md.

Для EDA используется среда Jupyter. См. об установке и использовании Jupyter в проекте в docs/jupyter.md.

Зависимости

Дополнительные зависимости, необходимые для EDA, — пакеты Python — записаны в файле requirements/requirements-eda.txt (см. Пакеты Python). См. об установке пакетов Python в Пакеты Python в README.md.

Работа с блокнотами Jupyter

См. об установке и использовании Jupyter в проекте в docs/jupyter.md.