Telegram Group & Telegram Channel
πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7601
Create:
Last Update:

πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7601

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Founder Pavel Durov says tech is meant to set you free
from sg


Telegram Machinelearning
FROM American