Telegram Group & Telegram Channel
تقریباً همه‌ی تیم‌های ML این مشکل رو دارن:
۱- مدلی واسه خودت آموزش بدی/ (fine tune کنی) یا ۲- از API یه مدل بزرگ استفاده کنی؟
و خوب خیلی ها هم نه داده دارن، نه وقت، نه بودجه!
اما یک راه حل سومی هم هست: می‌تونی یه مدل دقیق در حد GPT بسازی — با کمتر از ۳ دلار هزینه.
این راه جدید بهترین‌های هر دو رو با هم ترکیب می‌کنه: از یه مدل اپن سورس برای تولید داده‌ی مصنوعی (synthetic) استفاده کن، بعد یه مدل کوچیک، سریع و ارزون‌تر رو با اون آموزش بده. چون:
- اکثر پروژه‌های واقعی داده‌ی آماده ندارن.
- مدل‌هایی مثل GPT-4 خیلی خوبن ولی هزینه‌بر، کند و نیاز به فرستادن اطلاعات حساس به یه شرکت دیگه دارن.
- حالا با داده‌ی مصنوعی باکیفیت از مدل‌های اوپن‌سورس (مثل Mixtral)، دیگه لازم نیست بری سراغ لیبل زدن دستی.
مدل بزرگ ("معلم") داده‌ها رو برات برچسب می‌زنه، بعدش یه مدل کوچیک‌تر ("دانش‌آموز") رو باهاش آموزش می‌دی.

مثال: مطالعه‌ی موردی: تحلیل احساسات (sentiment analysis) اخبار مالی

- دقت: GPT-4 و RoBERTa هر دو ۹۴٪

هزینه:
- GPT-4: $3061
- RoBERTa: $2.70

زمان پاسخ:
- GPT-4 چند ثانیه
- RoBERTa = ۰.۱۳ ثانیه

مصرف کربن:
- GPT-4 = ~۱۰۰۰ kg
- RoBERTa = ۰.۱۲ kg

اگه میخواهید کامل بدونید این بلاگ را حتما بخونید.
Blog: https://huggingface.co/blog/synthetic-data-save-costs

@DevTwitter | <Mehdi Allahyari/>
👍466🔥3



group-telegram.com/devtwitter/9205
Create:
Last Update:

تقریباً همه‌ی تیم‌های ML این مشکل رو دارن:
۱- مدلی واسه خودت آموزش بدی/ (fine tune کنی) یا ۲- از API یه مدل بزرگ استفاده کنی؟
و خوب خیلی ها هم نه داده دارن، نه وقت، نه بودجه!
اما یک راه حل سومی هم هست: می‌تونی یه مدل دقیق در حد GPT بسازی — با کمتر از ۳ دلار هزینه.
این راه جدید بهترین‌های هر دو رو با هم ترکیب می‌کنه: از یه مدل اپن سورس برای تولید داده‌ی مصنوعی (synthetic) استفاده کن، بعد یه مدل کوچیک، سریع و ارزون‌تر رو با اون آموزش بده. چون:
- اکثر پروژه‌های واقعی داده‌ی آماده ندارن.
- مدل‌هایی مثل GPT-4 خیلی خوبن ولی هزینه‌بر، کند و نیاز به فرستادن اطلاعات حساس به یه شرکت دیگه دارن.
- حالا با داده‌ی مصنوعی باکیفیت از مدل‌های اوپن‌سورس (مثل Mixtral)، دیگه لازم نیست بری سراغ لیبل زدن دستی.
مدل بزرگ ("معلم") داده‌ها رو برات برچسب می‌زنه، بعدش یه مدل کوچیک‌تر ("دانش‌آموز") رو باهاش آموزش می‌دی.

مثال: مطالعه‌ی موردی: تحلیل احساسات (sentiment analysis) اخبار مالی

- دقت: GPT-4 و RoBERTa هر دو ۹۴٪

هزینه:
- GPT-4: $3061
- RoBERTa: $2.70

زمان پاسخ:
- GPT-4 چند ثانیه
- RoBERTa = ۰.۱۳ ثانیه

مصرف کربن:
- GPT-4 = ~۱۰۰۰ kg
- RoBERTa = ۰.۱۲ kg

اگه میخواهید کامل بدونید این بلاگ را حتما بخونید.
Blog: https://huggingface.co/blog/synthetic-data-save-costs

@DevTwitter | <Mehdi Allahyari/>

BY DevTwitter | توییت برنامه نویسی


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/devtwitter/9205

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat.
from us


Telegram DevTwitter | توییت برنامه نویسی
FROM American