Telegram Group & Telegram Channel
#PhD #humanmobility

Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:

🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?

🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?

🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?

🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?

В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.

🚧 В чем сложность?

1️⃣ Отсутствие открытых мобильных датасетов

Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.

📌Примеры доступных датасетов:
- раз
- два

У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.

2️⃣ Разные задачи → разная предобработка

Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.

💡В качестве решения авторы называют синтетические данные

🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.

📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob

Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения

✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные

Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно

💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.

Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.

Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔



group-telegram.com/datainthecity/264
Create:
Last Update:

#PhD #humanmobility

Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:

🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?

🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?

🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?

🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?

В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.

🚧 В чем сложность?

1️⃣ Отсутствие открытых мобильных датасетов

Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.

📌Примеры доступных датасетов:
- раз
- два

У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.

2️⃣ Разные задачи → разная предобработка

Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.

💡В качестве решения авторы называют синтетические данные

🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.

📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob

Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения

✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные

Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно

💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.

Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.

Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔

BY О городах и данных




Share with your friend now:
group-telegram.com/datainthecity/264

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors.
from us


Telegram О городах и данных
FROM American