group-telegram.com/tech_priestess/1424
Last Update:
Краткое пояснение к репосту выше.
UMAP - это метод уменьшения размерности. То есть, UMAP принимает на вход набор точек из пространства высокой размерности, а на выходе показывает их вложение в пространство маленькой размерности (чаще всего, на плоскость). Метод является:
а) нелинейным (грубо говоря, разные части исходного пространства по-разному "растягиваются", "поворачиваются" и "сжимаются" в процессе проекции на плоскость, которую мы видим на финальной диаграмме);
б) вероятностным (т.е. при запусках с разными начальными состояниями генератора псевдослучайных чисел может получиться разный результат);
в) сильно зависящим от гиперпараметров (т.е. чтобы метод действительно показал те свойства пространства точек, которые важны для вашей задачи, его нужно настроить с умом).
В принципе, уже этой информации достаточно для того, чтобы понять, почему по расстояниям между точками на плоскости, в которую вложил ваши данные UMAP, не нужно делать выводы о расстояниях между точками в исходном пространстве (т.е. в чем заключается методологическая ошибка статьи из репоста). Метод просто для этого не предназначен. Вместо этого, основным свойством UMAP-а является то, что он в какой-то степени сохраняет отношение соседства - то есть, кластеры точек (группы соседних точек) на плоскости, которую нам показывает UMAP, будут в какой-то степени соответствовать кластерам точек в исходном пространстве. А поскольку обычно в качестве пространства рассматривается пространство некоторых признаков (фичей) реальных объектов, то те точки, которые формируют кластер, будут соответствовать тем реальным объектам, которые являются "похожими" друг на друга. Таким образом, посмотрев на двумерное вложения облака таких точек с помощью UMAP, можно визуально идентифицировать группы похожих объектов. Ну а дальнейшая ваша реакция на эту информацию уже должна зависеть от особенностей конкретной задачи.
Очень хорошее, наглядное объяснение того, что такое UMAP и примеры его применения можно увидеть в этом коротком видео:
https://www.youtube.com/watch?v=6BPl81wGGP8 (англ.)
Если вы раньше не сталкивались с этим методом, крайне рекомендую его посмотреть и пройтись по ссылкам в описании видео - так станет намного яснее, что к чему. Заодно и избежите ошибок в будущем!
#учебные_материалы
BY Техножрица 👩💻👩🏫👩🔧

Share with your friend now:
group-telegram.com/tech_priestess/1424