Telegram Group & Telegram Channel
🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘20❀10πŸ”₯7



group-telegram.com/ai_machinelearning_big_data/6247
Create:
Last Update:

🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct.

SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами.

АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями:

πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3;

πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364;

πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14;

πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями.

МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL.

Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI.

⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. The company maintains that it cannot act against individual or group chats, which are β€œprivate amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from us


Telegram Machinelearning
FROM American