Telegram Group & Telegram Channel
πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7601
Create:
Last Update:

πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7601

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. Telegram Messenger Blocks Navalny Bot During Russian Election Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers.
from jp


Telegram Machinelearning
FROM American