Telegram Group & Telegram Channel
🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math



group-telegram.com/IDS_Math/284
Create:
Last Update:

🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math

BY ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/IDS_Math/284

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from jp


Telegram ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای
FROM American