Telegram Group & Telegram Channel
Парадокс Симпсона — статистика, которая вас обманет, даже если вы против

Вы все наверняка помните, что есть ложь, наглая ложь и статистика.
Только я думаю, что еще есть парадокс Симпса - лучший способ обмануть себя и всех вокруг, используя статистику.

Парадокс Симпсона — это тот случай, когда ты уверен в своих данных, строишь графики, делаешь выводы... и всё неправильно.

Простой пример, чтобы охренеть:
Допустим, ты хочешь понять, какой врач лучше — доктор «А» или доктор «B» (глянь картинку в начале).

В каждой из групп доктор «A» лучше:
В легких случаях: 90% против 95% (почти одинаково)
В тяжелых: 10% против 10% (равно).
И че?
Кто по вашему лучший?
Не поглядывай!

Оказывается, гребаный доктор «B» - невероятно крут!
Как так?
Если объединить данные:
Доктор
«A»: 100 из 200 = 50%
Доктор
«B»: 20 из 30 = 66%

В чем подвох?
Скрытая переменная — распределение по сложности случаев. «B» работал почти только с лёгкими пациентами, а «A» тащил и тяжёлых.
Так что если не учитывать эту переменную — можно сделать прямо противоположный вывод.

Где такое встречается?
- HR: Средняя зарплата мужчин выше, но оказывается, что женщины чаще в низкооплачиваемых департаментах.
- Образование: Один вуз "хуже" по среднему баллу студентов, но если разбить по факультетам — он оказывается лучше в каждом.
- Медицина: Лекарство кажется бесполезным в общем, но помогает в каждой возрастной группе.
- Продуктовая аналитика: Фича "ухудшила" метрику, но только потому что ей пользовались в основном новички.

Что с этим делать?
- Разбивайте данные: Ищите зависимость от скрытых признаков.
- Не верьте агрегатам: Среднее — зло без контекста.
- Стройте дашборды с фильтрами: Пусть можно было посмотреть и в целом, и по сегментам.
- Ищите "речку в пустыне": Если глобально тренд один, а в каждой подгруппе — другой, это тревожный звонок.

Финалочка:
Парадокс Симпсона — напоминание, что данные без контекста могут врать. Или точнее: вы будете врать себе, глядя на данные, если не копнете глубже.

А ты знал, про парадокс раньше?

👍 - пффф, конечно
♥️ - спасибо, бро, что рассказал
🔥 - я сам себе ходячий парадокс!

P.S. И доктор «В» крут, потому что умеет правильно выбрать еще и пациентов, которых он будет вести.

@badtechproject



group-telegram.com/badTechProject/1346
Create:
Last Update:

Парадокс Симпсона — статистика, которая вас обманет, даже если вы против

Вы все наверняка помните, что есть ложь, наглая ложь и статистика.
Только я думаю, что еще есть парадокс Симпса - лучший способ обмануть себя и всех вокруг, используя статистику.

Парадокс Симпсона — это тот случай, когда ты уверен в своих данных, строишь графики, делаешь выводы... и всё неправильно.

Простой пример, чтобы охренеть:
Допустим, ты хочешь понять, какой врач лучше — доктор «А» или доктор «B» (глянь картинку в начале).

В каждой из групп доктор «A» лучше:
В легких случаях: 90% против 95% (почти одинаково)
В тяжелых: 10% против 10% (равно).
И че?
Кто по вашему лучший?
Не поглядывай!

Оказывается, гребаный доктор «B» - невероятно крут!
Как так?
Если объединить данные:
Доктор
«A»: 100 из 200 = 50%
Доктор
«B»: 20 из 30 = 66%

В чем подвох?
Скрытая переменная — распределение по сложности случаев. «B» работал почти только с лёгкими пациентами, а «A» тащил и тяжёлых.
Так что если не учитывать эту переменную — можно сделать прямо противоположный вывод.

Где такое встречается?
- HR: Средняя зарплата мужчин выше, но оказывается, что женщины чаще в низкооплачиваемых департаментах.
- Образование: Один вуз "хуже" по среднему баллу студентов, но если разбить по факультетам — он оказывается лучше в каждом.
- Медицина: Лекарство кажется бесполезным в общем, но помогает в каждой возрастной группе.
- Продуктовая аналитика: Фича "ухудшила" метрику, но только потому что ей пользовались в основном новички.

Что с этим делать?
- Разбивайте данные: Ищите зависимость от скрытых признаков.
- Не верьте агрегатам: Среднее — зло без контекста.
- Стройте дашборды с фильтрами: Пусть можно было посмотреть и в целом, и по сегментам.
- Ищите "речку в пустыне": Если глобально тренд один, а в каждой подгруппе — другой, это тревожный звонок.

Финалочка:
Парадокс Симпсона — напоминание, что данные без контекста могут врать. Или точнее: вы будете врать себе, глядя на данные, если не копнете глубже.

А ты знал, про парадокс раньше?

👍 - пффф, конечно
♥️ - спасибо, бро, что рассказал
🔥 - я сам себе ходячий парадокс!

P.S. И доктор «В» крут, потому что умеет правильно выбрать еще и пациентов, которых он будет вести.

@badtechproject

BY Плохой Project Артём Арюткин





Share with your friend now:
group-telegram.com/badTechProject/1346

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from hk


Telegram Плохой Project Артём Арюткин
FROM American