Telegram Group & Telegram Channel
🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘20❀10πŸ”₯7



group-telegram.com/ai_machinelearning_big_data/6247
Create:
Last Update:

🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from us


Telegram Machinelearning
FROM American