Telegram Group & Telegram Channel
Цель проекта: найти значимые факторы, влияющие на выбор общественного транспорта для поездок на работу, для разработки стратегии по его улучшению и популяризации.

Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.

Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.

Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).

Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.

Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т

Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³

Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.

Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.

Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.

На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression



group-telegram.com/datainthecity/162
Create:
Last Update:

Цель проекта: найти значимые факторы, влияющие на выбор общественного транспорта для поездок на работу, для разработки стратегии по его улучшению и популяризации.

Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.

Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.

Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).

Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.

Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т

Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³

Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.

Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.

Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.

На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression

BY О городах и данных




Share with your friend now:
group-telegram.com/datainthecity/162

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from us


Telegram О городах и данных
FROM American