Telegram Group & Telegram Channel
Парадокс Симпсона — статистика, которая вас обманет, даже если вы против

Вы все наверняка помните, что есть ложь, наглая ложь и статистика.
Только я думаю, что еще есть парадокс Симпса - лучший способ обмануть себя и всех вокруг, используя статистику.

Парадокс Симпсона — это тот случай, когда ты уверен в своих данных, строишь графики, делаешь выводы... и всё неправильно.

Простой пример, чтобы охренеть:
Допустим, ты хочешь понять, какой врач лучше — доктор «А» или доктор «B» (глянь картинку в начале).

В каждой из групп доктор «A» лучше:
В легких случаях: 90% против 95% (почти одинаково)
В тяжелых: 10% против 10% (равно).
И че?
Кто по вашему лучший?
Не поглядывай!

Оказывается, гребаный доктор «B» - невероятно крут!
Как так?
Если объединить данные:
Доктор
«A»: 100 из 200 = 50%
Доктор
«B»: 20 из 30 = 66%

В чем подвох?
Скрытая переменная — распределение по сложности случаев. «B» работал почти только с лёгкими пациентами, а «A» тащил и тяжёлых.
Так что если не учитывать эту переменную — можно сделать прямо противоположный вывод.

Где такое встречается?
- HR: Средняя зарплата мужчин выше, но оказывается, что женщины чаще в низкооплачиваемых департаментах.
- Образование: Один вуз "хуже" по среднему баллу студентов, но если разбить по факультетам — он оказывается лучше в каждом.
- Медицина: Лекарство кажется бесполезным в общем, но помогает в каждой возрастной группе.
- Продуктовая аналитика: Фича "ухудшила" метрику, но только потому что ей пользовались в основном новички.

Что с этим делать?
- Разбивайте данные: Ищите зависимость от скрытых признаков.
- Не верьте агрегатам: Среднее — зло без контекста.
- Стройте дашборды с фильтрами: Пусть можно было посмотреть и в целом, и по сегментам.
- Ищите "речку в пустыне": Если глобально тренд один, а в каждой подгруппе — другой, это тревожный звонок.

Финалочка:
Парадокс Симпсона — напоминание, что данные без контекста могут врать. Или точнее: вы будете врать себе, глядя на данные, если не копнете глубже.

А ты знал, про парадокс раньше?

👍 - пффф, конечно
♥️ - спасибо, бро, что рассказал
🔥 - я сам себе ходячий парадокс!

P.S. И доктор «В» крут, потому что умеет правильно выбрать еще и пациентов, которых он будет вести.

@badtechproject



group-telegram.com/badTechProject/1346
Create:
Last Update:

Парадокс Симпсона — статистика, которая вас обманет, даже если вы против

Вы все наверняка помните, что есть ложь, наглая ложь и статистика.
Только я думаю, что еще есть парадокс Симпса - лучший способ обмануть себя и всех вокруг, используя статистику.

Парадокс Симпсона — это тот случай, когда ты уверен в своих данных, строишь графики, делаешь выводы... и всё неправильно.

Простой пример, чтобы охренеть:
Допустим, ты хочешь понять, какой врач лучше — доктор «А» или доктор «B» (глянь картинку в начале).

В каждой из групп доктор «A» лучше:
В легких случаях: 90% против 95% (почти одинаково)
В тяжелых: 10% против 10% (равно).
И че?
Кто по вашему лучший?
Не поглядывай!

Оказывается, гребаный доктор «B» - невероятно крут!
Как так?
Если объединить данные:
Доктор
«A»: 100 из 200 = 50%
Доктор
«B»: 20 из 30 = 66%

В чем подвох?
Скрытая переменная — распределение по сложности случаев. «B» работал почти только с лёгкими пациентами, а «A» тащил и тяжёлых.
Так что если не учитывать эту переменную — можно сделать прямо противоположный вывод.

Где такое встречается?
- HR: Средняя зарплата мужчин выше, но оказывается, что женщины чаще в низкооплачиваемых департаментах.
- Образование: Один вуз "хуже" по среднему баллу студентов, но если разбить по факультетам — он оказывается лучше в каждом.
- Медицина: Лекарство кажется бесполезным в общем, но помогает в каждой возрастной группе.
- Продуктовая аналитика: Фича "ухудшила" метрику, но только потому что ей пользовались в основном новички.

Что с этим делать?
- Разбивайте данные: Ищите зависимость от скрытых признаков.
- Не верьте агрегатам: Среднее — зло без контекста.
- Стройте дашборды с фильтрами: Пусть можно было посмотреть и в целом, и по сегментам.
- Ищите "речку в пустыне": Если глобально тренд один, а в каждой подгруппе — другой, это тревожный звонок.

Финалочка:
Парадокс Симпсона — напоминание, что данные без контекста могут врать. Или точнее: вы будете врать себе, глядя на данные, если не копнете глубже.

А ты знал, про парадокс раньше?

👍 - пффф, конечно
♥️ - спасибо, бро, что рассказал
🔥 - я сам себе ходячий парадокс!

P.S. И доктор «В» крут, потому что умеет правильно выбрать еще и пациентов, которых он будет вести.

@badtechproject

BY Плохой Project Артём Арюткин





Share with your friend now:
group-telegram.com/badTechProject/1346

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from id


Telegram Плохой Project Артём Арюткин
FROM American