Telegram Group & Telegram Channel
🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math



group-telegram.com/IDS_Math/284
Create:
Last Update:

🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math

BY ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/IDS_Math/284

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from ms


Telegram ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای
FROM American