group-telegram.com/ad_research/855
Last Update:
#статистика_для_котиков
Она говорила, что любит нормальных, но выбирала с эксцессом и асимметрией
Привет, коллега!
Пока я готовлю очередной длиннопост про призму (для вновьприбывших первая и вторая части), решила кратенько рассказать о таких параметрах как асимметрия (skewness) и эксцесс (kurtosis), отражающих форму распределения данных.
Итак, коэффициент асимметрии - это мера асимметрии распределения вероятностей случайной величины относительно её среднего значения. Если он равен нулю, то распределение симметрично относительно центра (например, нормальное распределение или распределение Стьюдента).
Однако, очень часто распределение ассиметрично, например, если посмотреть на распределение зарплат, то можно увидеть, что труд большей части людей не слишком высоко ценится, а вот высокие доходы имеет лишь небольшая часть населения. Собственно вот такой длинный хвост справа будет выражаться в положительном коэффициенте асимметрии и чем больше значение - тем больше перекос.
Отрицательный коэффициент асимметрии будет при длинном хвосте слева и большей вероятности получить высокие значения случайной величины. Например, на одном из моих предметах большинство студентов набирает 70-90 баллов из 100 за эссе, потому что они очень умные, умеют искать литературу и правильно оформлять работу. Но бывает попадаются редкие работы, бездумно сгенерированные нейросетками и вот они создают длинный левый хвост у распределения оценок.
Теперь про второй параметр, коэффициент эксцесса. Он отражает насколько "острая" вершина у распределения. UPD: есть поправочка из комментариев. Вообще есть приколы с его расчётом и одна из формул была предложена Пирсоном. По ней у нормального распределения эксцесс равен 3. Но чаще используют избыточный эксцесс (excess kurtosis), получаемый вычитанием тройки, причём называют его также просто коэффициентом эксцесса (например, в призме это так).
Распределение близкое к нормальному имеет избыточный эксцесс равный 0 и называется мезокуртическим распределением. Если коэффициент отрицательный, то распределение имеет более распластанную форму и называется платикуртическим. Для биологических данных небольшие выборки из неоднородной генеральной совокупности чаще всего будут иметь именно такое распределение, поскольку изначально разброс большой, а измерений для высокого пика нормального распределения может просто не хватать. Попробуй измерить рост у 5 своих друзей и посчитать коэффициент эксцесса.
Избыточный эксцесс больше 0 характерен для лептокуртического распределения. В этом случае распределение имеет высокий и острый пик, но в отличие от распределения с малым стандартными отклонением, в нём присутствуют значения сильно отклоняющиеся от среднего. Возвращаясь к умным студентам с высокими баллами за эссе: из-за читеров с нейросетями распределение получается не нормальным с малым разбросом, а лептокуртическим. Кстати, картинку распределением оценок прошлого года и рассчитанными коэффициентами ассиметрии и эксцесса скину в комментарии.
Пока читала литературу для этого поста неоднократно наталкивалась на информацию о том, что лептокуртическое распределение доходности рынка означает высокие риски при инвестировании, а вот платикурическое распределение более безопасно. Пока что моя единственная инвестиция - это запасы жирочка на случай голода, но может кому-то эта информация будет полезной.
И в заключении хочу признаться: я написала весь этот текст только чтобы запостить картинку с котиками, которая поднимает мне настроение каждый раз, когда я её встречаю. Надеюсь, теперь и тебе тоже