Telegram Group & Telegram Channel
🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math



group-telegram.com/IDS_Math/284
Create:
Last Update:

🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math

BY ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/IDS_Math/284

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Founder Pavel Durov says tech is meant to set you free "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said.
from it


Telegram ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای
FROM American