Telegram Group & Telegram Channel
Краткое пояснение к репосту выше.

UMAP - это метод уменьшения размерности. То есть, UMAP принимает на вход набор точек из пространства высокой размерности, а на выходе показывает их вложение в пространство маленькой размерности (чаще всего, на плоскость). Метод является:
а) нелинейным (грубо говоря, разные части исходного пространства по-разному "растягиваются", "поворачиваются" и "сжимаются" в процессе проекции на плоскость, которую мы видим на финальной диаграмме);
б) вероятностным (т.е. при запусках с разными начальными состояниями генератора псевдослучайных чисел может получиться разный результат);
в) сильно зависящим от гиперпараметров (т.е. чтобы метод действительно показал те свойства пространства точек, которые важны для вашей задачи, его нужно настроить с умом).

В принципе, уже этой информации достаточно для того, чтобы понять, почему по расстояниям между точками на плоскости, в которую вложил ваши данные UMAP, не нужно делать выводы о расстояниях между точками в исходном пространстве (т.е. в чем заключается методологическая ошибка статьи из репоста). Метод просто для этого не предназначен. Вместо этого, основным свойством UMAP-а является то, что он в какой-то степени сохраняет отношение соседства - то есть, кластеры точек (группы соседних точек) на плоскости, которую нам показывает UMAP, будут в какой-то степени соответствовать кластерам точек в исходном пространстве. А поскольку обычно в качестве пространства рассматривается пространство некоторых признаков (фичей) реальных объектов, то те точки, которые формируют кластер, будут соответствовать тем реальным объектам, которые являются "похожими" друг на друга. Таким образом, посмотрев на двумерное вложения облака таких точек с помощью UMAP, можно визуально идентифицировать группы похожих объектов. Ну а дальнейшая ваша реакция на эту информацию уже должна зависеть от особенностей конкретной задачи.

Очень хорошее, наглядное объяснение того, что такое UMAP и примеры его применения можно увидеть в этом коротком видео:
https://www.youtube.com/watch?v=6BPl81wGGP8 (англ.)
Если вы раньше не сталкивались с этим методом, крайне рекомендую его посмотреть и пройтись по ссылкам в описании видео - так станет намного яснее, что к чему. Заодно и избежите ошибок в будущем!

#учебные_материалы
🔥42136👍5👏1



group-telegram.com/tech_priestess/1424
Create:
Last Update:

Краткое пояснение к репосту выше.

UMAP - это метод уменьшения размерности. То есть, UMAP принимает на вход набор точек из пространства высокой размерности, а на выходе показывает их вложение в пространство маленькой размерности (чаще всего, на плоскость). Метод является:
а) нелинейным (грубо говоря, разные части исходного пространства по-разному "растягиваются", "поворачиваются" и "сжимаются" в процессе проекции на плоскость, которую мы видим на финальной диаграмме);
б) вероятностным (т.е. при запусках с разными начальными состояниями генератора псевдослучайных чисел может получиться разный результат);
в) сильно зависящим от гиперпараметров (т.е. чтобы метод действительно показал те свойства пространства точек, которые важны для вашей задачи, его нужно настроить с умом).

В принципе, уже этой информации достаточно для того, чтобы понять, почему по расстояниям между точками на плоскости, в которую вложил ваши данные UMAP, не нужно делать выводы о расстояниях между точками в исходном пространстве (т.е. в чем заключается методологическая ошибка статьи из репоста). Метод просто для этого не предназначен. Вместо этого, основным свойством UMAP-а является то, что он в какой-то степени сохраняет отношение соседства - то есть, кластеры точек (группы соседних точек) на плоскости, которую нам показывает UMAP, будут в какой-то степени соответствовать кластерам точек в исходном пространстве. А поскольку обычно в качестве пространства рассматривается пространство некоторых признаков (фичей) реальных объектов, то те точки, которые формируют кластер, будут соответствовать тем реальным объектам, которые являются "похожими" друг на друга. Таким образом, посмотрев на двумерное вложения облака таких точек с помощью UMAP, можно визуально идентифицировать группы похожих объектов. Ну а дальнейшая ваша реакция на эту информацию уже должна зависеть от особенностей конкретной задачи.

Очень хорошее, наглядное объяснение того, что такое UMAP и примеры его применения можно увидеть в этом коротком видео:
https://www.youtube.com/watch?v=6BPl81wGGP8 (англ.)
Если вы раньше не сталкивались с этим методом, крайне рекомендую его посмотреть и пройтись по ссылкам в описании видео - так станет намного яснее, что к чему. Заодно и избежите ошибок в будущем!

#учебные_материалы

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1424

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American