مروری بر تحلیل آماری

متن فیلم

قبل از اینکه تحلیل آماری و ارتباط اون با تحلیل داده‌ها یا به طور خاص داده‌کاوی رو بفهمیم، اول باید ببینیم که آمار چیه؟ آمار شاخه‌ای از ریاضیات است که با جمع‌آوری، تحلیل، تفسیر و ارائه داده‌های عددی یا کمی سروکار دارد. این داده‌ها در زندگی روزمره ما همه جا هستند. چه در مورد میانگین درآمد یا میانگین سن صحبت کنیم یا پردرآمدترین حرفه‌ها - همه اینها آمار است. امروزه، آمار در صنایع مختلف برای تصمیم‌گیری مبتنی بر داده‌ها به کار می‌رود. به عنوان مثال، محققانی که از آمار برای تحلیل داده‌های تولید واکسن برای اطمینان از ایمنی و اثربخشی استفاده می‌کنند، یا شرکت‌هایی که از آمار برای کاهش ریزش مشتری با کسب بینش بیشتر در مورد نیازهای مشتری استفاده می‌کنند. حال بیایید نگاهی به چیستی تحلیل آماری بیندازیم. تحلیل آماری، کاربرد روش‌های آماری در یک نمونه از داده‌ها به منظور ایجاد درکی از آنچه آن داده‌ها نشان می‌دهند، است. این شامل جمع‌آوری و بررسی دقیق هر نمونه داده در مجموعه‌ای از اقلام است که می‌توان از آن‌ها نمونه استخراج کرد. یک نمونه، در آمار، یک انتخاب نماینده از کل جمعیت است، که در آن جمعیت گروهی گسسته از افراد یا چیزهایی است که می‌توان آن‌ها را با حداقل یک ویژگی مشترک برای اهداف جمع‌آوری و تحلیل داده‌ها شناسایی کرد. برای مثال، در یک مورد استفاده خاص، جمعیت ممکن است شامل همه افراد یک ایالت باشد که گواهینامه رانندگی دارند و نمونه‌ای از این جمعیت که بخشی یا زیرمجموعه‌ای از جمعیت است، می‌تواند مردان راننده بالای ۵۰ سال باشد. روش‌های آماری عمدتاً برای اطمینان از تفسیر صحیح داده‌ها و معنادار بودن روابط ظاهری و نه صرفاً تصادفی بودن آن‌ها مفید هستند. هر زمان که داده‌ها را از یک نمونه جمع‌آوری می‌کنیم، می‌توانیم دو نوع آمار مختلف را اجرا کنیم. آمار توصیفی برای خلاصه کردن اطلاعات مربوط به نمونه؛ و آمار استنباطی برای استنباط یا تعمیم در مورد جمعیت وسیع‌تر. آمار توصیفی شما را قادر می‌سازد تا داده‌ها را به روشی معنادار ارائه دهید که امکان تفسیر ساده‌تر داده‌ها را فراهم می‌کند. داده‌ها با استفاده از نمودارهای خلاصه، جداول و گراف‌ها بدون هیچ تلاشی برای نتیجه‌گیری در مورد جمعیتی که نمونه از آن گرفته شده است، توصیف می‌شوند. هدف این است که درک و تجسم داده‌های خام را بدون نتیجه‌گیری در مورد فرضیه‌های مطرح شده آسان‌تر کنیم. به عنوان مثال، می‌خواهیم نمرات آزمون زبان انگلیسی را در یک کلاس خاص از ۲۵ دانش‌آموز توصیف کنیم. نمرات آزمون همه دانش‌آموزان را ثبت می‌کنیم، آمار خلاصه را محاسبه می‌کنیم و یک نمودار تولید می‌کنیم. برخی از معیارهای رایج تحلیل آماری توصیفی شامل گرایش مرکزی، پراکندگی و چولگی است: گرایش مرکزی یا تعیین مرکز یک نمونه داده. برخی از معیارهای رایج گرایش مرکزی شامل میانگین، میانه و مد است. این معیارها به شما می‌گویند که بیشترین مقادیر در مجموعه داده‌های شما در کجا قرار می‌گیرند. بنابراین، در مثال قبلی، میانگین نمره یا میانگین ریاضی کلاس ۲۵ دانش‌آموز، مجموع نمرات همه ۲۵ دانش‌آموز، تقسیم بر ۲۵، یعنی تعداد دانش‌آموزان، خواهد بود. اگر مجموعه داده‌های فوق را از کمترین مقدار نمره تا بیشترین مقدار نمره ۲۵ دانش‌آموز مرتب کنید و مقدار میانی را انتخاب کنید - یعنی مقداری که ۱۲ مقدار در سمت چپ و ۱۲ مقدار در سمت راست یک مقدار نمره قرار دارد، آن مقدار نمره، میانه این مجموعه داده‌ها خواهد بود. اگر ۱۲ دانش‌آموز کمتر از ۷۵٪ و ۱۲ دانش‌آموز بیشتر از ۷۵٪ نمره کسب کرده باشند، میانه ۷۵ است. میانه برای هر مجموعه داده منحصر به فرد است و تحت تأثیر داده‌های پرت قرار نمی‌گیرد. مُد مقداری است که بیشترین تکرار را در مجموعه‌ای از مشاهدات دارد. برای مثال، اگر رایج‌ترین نمره در این گروه ۲۵ نفره از دانش‌آموزان ۷۲٪ باشد، آنگاه مُد این مجموعه داده نیز همین است. بنابراین، می‌توانید ببینید که چگونه نگاه کردن به مجموعه داده‌هایتان از طریق این مقادیر می‌تواند به شما کمک کند تا درک واضح‌تری از مجموعه داده‌هایتان داشته باشید. پراکندگی، معیار تغییرپذیری در یک مجموعه داده است. معیارهای رایج پراکندگی آماری عبارتند از واریانس، انحراف معیار و دامنه. واریانس، میزان فاصله نقاط داده از مرکز، یعنی توزیع مقادیر، را تعریف می‌کند. وقتی توزیعی تغییرپذیری کمتری داشته باشد، مقادیر در یک مجموعه داده سازگارتر هستند. با این حال، وقتی تغییرپذیری بیشتر باشد، نقاط داده متفاوت‌تر هستند و مقادیر افراطی محتمل‌تر می‌شوند. درک تغییرپذیری می‌تواند به شما کمک کند تا احتمال وقوع یک رویداد را درک کنید. انحراف معیار به شما می‌گوید که داده‌های شما چقدر در اطراف میانگین خوشه‌بندی شده‌اند. و دامنه، فاصله بین کوچکترین و بزرگترین مقادیر در مجموعه داده‌های شما را به شما می‌دهد. چولگی، معیاری است که نشان می‌دهد آیا توزیع مقادیر در اطراف یک مقدار مرکزی متقارن است یا به چپ یا راست کج شده است. داده‌های کج می‌توانند بر انواع تحلیل‌های معتبر برای انجام تأثیر بگذارند. اینها برخی از ابزارهای اساسی و رایج آمار توصیفی هستند، اما ابزارهای دیگری نیز وجود دارند، به عنوان مثال، استفاده از همبستگی و نمودارهای پراکندگی برای ارزیابی روابط داده‌های جفتی. نوع دوم تحلیل آماری، آمار استنباطی است. آمار استنباطی داده‌ها را از یک نمونه می‌گیرد تا در مورد جمعیت بزرگتری که نمونه از آن گرفته شده است، استنباط کند. با استفاده از روش‌های آمار استنباطی می‌توانید تعمیم‌هایی را استخراج کنید که نتایج نمونه را به کل جمعیت اعمال می‌کند. برخی از روش‌های رایج آمار استنباطی عبارتند از آزمون فرضیه، فواصل اطمینان و تحلیل رگرسیون: آزمون فرضیه - به عنوان مثال، برای مطالعه اثربخشی یک واکسن با مقایسه نتایج در یک گروه کنترل، آزمون‌های فرضیه می‌توانند به شما بگویند که آیا اثربخشی واکسن مشاهده شده در یک گروه کنترل احتمالاً در جمعیت نیز وجود دارد یا خیر. فواصل اطمینان، عدم قطعیت و خطای نمونه را برای ایجاد طیف وسیعی از مقادیری که مقدار واقعی جمعیت در آن قرار می‌گیرد، ترکیب می‌کنند. تحلیل رگرسیون شامل آزمون‌های فرضیه‌ای است که به تعیین اینکه آیا روابط مشاهده‌شده در داده‌های نمونه واقعاً در جامعه وجود دارد و نه فقط در نمونه، کمک می‌کند. بسته‌های نرم‌افزاری مختلفی برای انجام تحلیل داده‌های آماری وجود دارد، مانند سامانه تحلیل آماری (یا SAS)، بسته آماری برای علوم اجتماعی (یا SPSS) و Stat Soft. آمار هسته اصلی داده‌کاوی را با موارد زیر تشکیل می‌دهد: ارائه معیارها و روش‌های لازم برای داده‌کاوی؛ و شناسایی الگوهایی که به شناسایی تفاوت‌های بین نویز تصادفی و یافته‌های معنادار کمک می‌کنند. هم داده‌کاوی، که در این دوره بیشتر در مورد آن خواهیم آموخت، و هم آمار، به عنوان تکنیک‌های تحلیل داده‌ها، به تصمیم‌گیری بهتر کمک می‌کنند.

مروری بر تحلیل آماری

توضیحات

تحلیل آماری، انواع و ارتباط آن با تحلیل داده‌ها

هزینه دوره:
1,000,000 تومان600,000 تومان

مقدمه‌ای بر تحلیل داده

قسمت های جدید هر هفته به این دوره اضافه خواهد شد.