group-telegram.com/ai_machinelearning_big_data/6247
Last Update:
SmolVLM - ΡΠ΅ΡΠΈΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ
VLM Ρ 2 ΠΌΠ»ΡΠ΄. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΎΡΠ»ΠΈΡΠ°ΡΡΠΈΡ
ΡΡ Π²ΡΡΠΎΠΊΠΎΠΉ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠ°ΠΌΡΡΠΈ ΠΈ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΡΠ°Π·Π²Π΅ΡΠ½ΡΡΡ Π½Π° Π»ΠΎΠΊΠ°Π»ΡΠ½ΡΡ
ΡΡΡΡΠΎΠΉΡΡΠ²Π°Ρ
Ρ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½Π½ΡΠΌΠΈ ΡΠ΅ΡΡΡΡΠ°ΠΌΠΈ.
ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° SmolVLM ΠΎΡΠ½ΠΎΠ²Π°Π½Π° Π½Π° Idefics3, Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌΠΈ ΠΎΡΠ»ΠΈΡΠΈΡΠΌΠΈ:
ΠΠΎΠ΄Π΅Π»Ρ ΠΊΠΎΠ΄ΠΈΡΡΠ΅Ρ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΏΠ°ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ 384x384 Π² 81 ΡΠΎΠΊΠ΅Π½, ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π΅ΠΉ ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°ΡΡ ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ Π·Π°ΠΏΡΠΎΡΡ ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Π²ΡΠ΅Π³ΠΎ 1.2 ΡΡΡ. ΡΠΎΠΊΠ΅Π½ΠΎΠ², Π² ΡΠΎ Π²ΡΠ΅ΠΌΡ ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ 16 ΡΡΡ. ΡΠΎΠΊΠ΅Π½ΠΎΠ². ΠΡΠΎ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²ΠΎ ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡ ΠΊ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΠΎΠΉ ΡΠΊΠΎΡΠΎΡΡΠΈ ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ (Π² 3,3-4,5 ΡΠ°Π·Π°) ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ (Π² 7,5-16 ΡΠ°Π·) ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ Qwen2-VL.
ΠΠ»Ρ ΡΠ°ΠΌΠΎΡΡΠΎΡΡΠ΅Π»ΡΠ½ΠΎΠΉ ΡΠΎΠ½ΠΊΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ transformers ΠΈ TRL. Π Π°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠ°ΠΌΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ Π±Π»ΠΎΠΊΠ½ΠΎΡ Π΄Π»Ρ ΡΠ°ΠΉΠ½ΡΡΠ½Π° Π½Π° VQAv2 Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ ΡΠΎΠ½ΠΊΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ. SmolVLM ΠΈΠ½ΡΠ΅Π³ΡΠΈΡΠΎΠ²Π°Π½ Ρ TRL Π΄Π»Ρ DPO ΡΠ΅ΡΠ΅Π· CLI.
β οΈ ΠΡΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡΠ½ΠΎΠΉ Π·Π°Π³ΡΡΠ·ΠΊΠ΅ QLoRA ΡΠ°ΠΉΠ½ΡΡΠ½ ΠΏΠΎΡΡΠ΅Π±Π»ΡΠ΅Ρ ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM
@ai_machinelearning_big_data
#AI #ML #SmallVLM #Huggingface