4.9 KiB
Разведочный анализ данных (EDA)
Блокноты Jupyter
-
cars_eda— Очистка и первичный анализ данных о подержанных автомобилях.Использует CSV-файл сырых данных из датасета. Каноническое расположение файла данных:
data/cars.csv.Создаёт файлы очищенных данных (по умолчанию — CSV) и аугментированных данных (по умолчанию — pickle). Канонические расположения: соответственно
data/cars.clean.<ext>иdata/cars.aug.<ext>, с заменой<ext>на расширение в зависимости от формата:csvдля CSV,pickleдля pickle.Выводы по исследованию:
-
Выполнена очистка датасета: удалены несколько аномальных объектов, переименованы некоторые ошибочно названные признаки. (Пропущенных значений в датасете нет.)
-
Датасет дополнен (аугментирован) потенциально полезными синтетическими признаками: отношение цены с пробегом к изначальной цене, возраст (предполагаемый на основе года выпуска автомобиля и распределения этих годов выпуска в датасете), логарифмы количественных величин. Аугментированная версия сохраняется отдельно.
-
Предварительно подтверждена возможность определения рыночной цены автомобиля с пробегом по использованным признакам, в особенности по следующим: исходная цена, возраст и пробег автомобиля, тип продающего лица (дилер или частное лицо), топливо (автомобили на дизельном топливе редко бывают дешёвыми).
-
Цена продажи с пробегом сильно линейно коррелирует с изначальной ценой.
-
Интересно, что возраст автомобиля является заметно лучшим предиктором снижения стоимости, чем пробег, при этом корреляция между возрастом и пробегом существенная, но не определяющая.
-
Существует огромная разница в ценах у дилеров и частных лиц (у частных лиц дешевле в разы).
-
Существует слабая, но заметная прямая корреляция между изначальной ценой автомобиля и пробегом к дате последующей продажи.
-
Датасет не очень однороден (у него есть "тяжёлый центр"), и с малым количеством объектов это может создать проблемы с устойчивостью предсказания цен. Рекомендуется применение робастных методов ограниченной сложности; однако прямая линейная регрессия для предсказания цены проодажи может всё-таки оказаться не лучшим методом.
-
Графические артефакты исследования сохранены в директории
./cars_eda_figures/. -
Установка
Для EDA необходимы общие зависимости, см. Общие зависимости в README.md.
Для EDA используется среда Jupyter. См. об установке и использовании Jupyter в проекте в docs/jupyter.md.
Зависимости
Дополнительные зависимости, необходимые для EDA, — пакеты Python — записаны в файле requirements/requirements-eda.txt (см. Пакеты Python). См. об установке пакетов Python в Пакеты Python в README.md.
Работа с блокнотами Jupyter
См. об установке и использовании Jupyter в проекте в docs/jupyter.md.