Telegram Group & Telegram Channel
Это как-то перекликается с историей про двойной спуск (double descent, про него, кстати, у Коли Михайловского недавно был хороший семинар с первооткрывателем, Михаилом Белкиным, https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-chemu-uchit-glubokoe-obuchenie/) и особенно с историей про двойной спуск не относительно сложности модели (про что оригинальная работа, https://www.pnas.org/content/116/32/15849.short), а про двойной спуск относительно количества итераций обучения (тоже, кстати, работа OpenAI, https://arxiv.org/abs/1912.02292).

Для тех, кто не следил, в двух словах. Двойной спуск по сложности модели даёт неожиданную картинку поведения validation loss в зависимости от сложности модели — увеличивая сложность модели мы не уходим навсегда в область переобучения (как учит нас классическая теория), а быстро проходим её и начинаем получать loss ещё более низкий, чем в лучшей точке “классического режима”. То есть в большие модели и нулевой лосс на трейне вкладываться полезно, нет от них адского переобучения. Двойной спуск по числу итераций показывает, что и тупо по времени обучения похожая картинка тоже может возникать — обучаете модель дольше, когда валидационный лосс начал уже возрастать, и в какой-то момент он снова начинает уменьшаться (привет early stopping’у, не позволяющему многим дойти дотуда). Про это, кстати, у Коли тоже был вебинар с Дмитрием Ветровым, рекомендую (https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-neobychnye-svojstva-funkczii-poter-v-glubinnom-obuchenii/).

Всё это контринтуитивные истории, теоретическая база под которые ещё не подведена. Вот с гроккингом тоже что-то похожее. И более того, двойной спуск по числу итераций в данной работе также показали.

Дополнительно повизуализировали матрицы весов выходного слоя, увидели там отражение структур собственно стоящих за этим математических объектов. Это в принципе прикольное направление, может будет полезно для исследования новых математических объектов и получения интуиции относительно них.

Такие вот дела. Всем успешного гроккинга!
👍12🔥21



group-telegram.com/gonzo_ML/832
Create:
Last Update:

Это как-то перекликается с историей про двойной спуск (double descent, про него, кстати, у Коли Михайловского недавно был хороший семинар с первооткрывателем, Михаилом Белкиным, https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-chemu-uchit-glubokoe-obuchenie/) и особенно с историей про двойной спуск не относительно сложности модели (про что оригинальная работа, https://www.pnas.org/content/116/32/15849.short), а про двойной спуск относительно количества итераций обучения (тоже, кстати, работа OpenAI, https://arxiv.org/abs/1912.02292).

Для тех, кто не следил, в двух словах. Двойной спуск по сложности модели даёт неожиданную картинку поведения validation loss в зависимости от сложности модели — увеличивая сложность модели мы не уходим навсегда в область переобучения (как учит нас классическая теория), а быстро проходим её и начинаем получать loss ещё более низкий, чем в лучшей точке “классического режима”. То есть в большие модели и нулевой лосс на трейне вкладываться полезно, нет от них адского переобучения. Двойной спуск по числу итераций показывает, что и тупо по времени обучения похожая картинка тоже может возникать — обучаете модель дольше, когда валидационный лосс начал уже возрастать, и в какой-то момент он снова начинает уменьшаться (привет early stopping’у, не позволяющему многим дойти дотуда). Про это, кстати, у Коли тоже был вебинар с Дмитрием Ветровым, рекомендую (https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-neobychnye-svojstva-funkczii-poter-v-glubinnom-obuchenii/).

Всё это контринтуитивные истории, теоретическая база под которые ещё не подведена. Вот с гроккингом тоже что-то похожее. И более того, двойной спуск по числу итераций в данной работе также показали.

Дополнительно повизуализировали матрицы весов выходного слоя, увидели там отражение структур собственно стоящих за этим математических объектов. Это в принципе прикольное направление, может будет полезно для исследования новых математических объектов и получения интуиции относительно них.

Такие вот дела. Всем успешного гроккинга!

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/832

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from pl


Telegram gonzo-обзоры ML статей
FROM American