Telegram Group & Telegram Channel
🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘20❀10πŸ”₯7



group-telegram.com/ai_machinelearning_big_data/6247
Create:
Last Update:

🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," MarΓ©chal said.
from us


Telegram Machinelearning
FROM American