group-telegram.com/technojnec/1205
Last Update:
🌋 NM Quad + KAN + JVP (Rukallama): Аппаратная Удача или Как Мы "Взломаем" Обучение AI 🌋
Привет, синтеты!
НАконец-то есть подробности по теме общения с НТЦ "Модуль"! И это не просто "мы договорились о железке". Это история о том, как две, казалось бы, несвязанные технологии из самого авангарда AI внезапно нашли свой идеальный дом в российской архитектуре.
Многие из вас знают, что я пилю Rukallama — языковую модель, построенную на принципах сетей Колмогорова-Арнольда (KAN). В текущей реализации путём гейтинга можно настраивать долю работы KAN в общей сетке. Придётся теперь переделать полностью под efficient-kan так, чтобы KAN (Колмогорова-Арнольда b-splines) работали на 100%. Почему? Моя цель — не просто аппроксимация, а символьная регрессия. То есть, заставить нейросеть не просто выдавать ответ, а выводить саму формулу, по которой этот ответ получен. Это святой грааль интерпретируемости AI.
И для этой задачи я искал подходящее "железо". И, кажется, я его нашел. И это не NVIDIA.
Почему? кхм...короче.
Ключевой замес: KAN, JVP и DSP
Давайте по полкам, но без духоты.
Проблема GPU: Современные видюхи — тупые качки. Они заточены под одну операцию — молотить гигантские матрицы (как в обычных Трансформерах). Обучение на них жрет мегаватты энергии и требует вагоны видеопамяти для хранения градиентов (backpropagation).
Наше решение (Алгоритм): Мы используем noise_step — метод обучения без backprop. Вместо градиентов он использует JVP (Jacobian-Vector Product). Говоря по-простому, он не тащит за собой весь мусор из прошлого, а умными пробами "нащупывает" правильный путь. Памяти на это нужно на порядки меньше.
Наше решение (Архитектура): Сети KAN, в отличие от тупых качков-трансформеров, внутри себя оперируют сложной математикой — B-сплайнами. Это "язык" цифровой обработки сигналов (ЦОС)!!!
И тут на сцену выходит NM Quad от НТЦ "Модуль".
Аппаратная Удача. Буквально.
Когда я впервые связался с разработчиками, они честно сказали: "Наш процессор заточен под большие матрицы, а у вас в KAN, наверное, куча мелких вычислений — будет неэффективно, наш конвейер порвется".
И они были бы на 100% правы, если бы речь шла о KAN двухлетней давности!
Но весь фокус в том, что современная, эффективная реализация KAN (efficient-kan), на которой и строится Rukallama, хитро упаковывает все эти мелкие вычисления в ДВА ОГРОМНЫХ МАТРИЧНЫХ УМНОЖЕНИЯ!
То есть, мы даем их архитектуре именно ту работу, для которой она и создавалась! Проблема "срыва конвейера" просто исчезает.
И вот что мы получаем на выходе.
Идеальный шторм:
Вычисления: Мы загружаем DSP-ядра NM Quad их родной работой — сложной математикой и большими матрицами, где они показывают себя лучше GPU.
Точность: Мы можем использовать режим FP64, который критичен для стабильности KAN, и который у игровых GPU кастрирован.
Память: Нам не нужны 80ГБ VRAM. Наш алгоритм умещается в 20ГБ памяти NM Quad с огромным запасом.
Энергия: Мы обучаем модель, потребляя 80 Вт, а не 500. Почувствуйте разницу.
Что это значит для всех нас?
Это значит, что у нас в руках оказалась уникальная связка российского железа и передового мирового алгоритма, которая не просто "не хуже", а фундаментально эффективнее мейнстримных решений в этой конкретной, но самой перспективной нише AI.
Rukallama — нашла свой новый рукалламин дом, возможно это первая хардварно-софтовая реализация KAN в нашей стране. Я буду активно всем этим заниматься.
На чем тесты?
На данный момент мне идёт через СДЭК вот эта модель: NM Card MINI (5гб)
Получу я её в пользование уже после завтра. Сразу же приступлю к написанию новых версий Rukallama и начну тестировать возможности. Если гипотеза подтвердится, то нас ждут интересные новости ❤️
Перспективы?
Парочка NM Quad в пользование и тесты на пару месяцев чтобы устаканить proof-of-concept и продвинуть отечественный ИИ уже на собственной технической базе. Мечта...
BY Техножнец

Share with your friend now:
group-telegram.com/technojnec/1205