group-telegram.com/datainthecity/162
Last Update:
Цель проекта: найти значимые факторы, влияющие на выбор общественного транспорта для поездок на работу, для разработки стратегии по его улучшению и популяризации.
Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.
Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.
Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).
Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.
Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т
Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³
Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.
Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.
Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.
На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression
BY О городах и данных

Share with your friend now:
group-telegram.com/datainthecity/162