متن فیلم
قبل از اینکه تحلیل آماری و ارتباط اون با تحلیل دادهها یا به طور خاص دادهکاوی رو بفهمیم، اول باید ببینیم که آمار چیه؟ آمار شاخهای از ریاضیات است که با جمعآوری، تحلیل، تفسیر و ارائه دادههای عددی یا کمی سروکار دارد. این دادهها در زندگی روزمره ما همه جا هستند. چه در مورد میانگین درآمد یا میانگین سن صحبت کنیم یا پردرآمدترین حرفهها - همه اینها آمار است. امروزه، آمار در صنایع مختلف برای تصمیمگیری مبتنی بر دادهها به کار میرود. به عنوان مثال، محققانی که از آمار برای تحلیل دادههای تولید واکسن برای اطمینان از ایمنی و اثربخشی استفاده میکنند، یا شرکتهایی که از آمار برای کاهش ریزش مشتری با کسب بینش بیشتر در مورد نیازهای مشتری استفاده میکنند. حال بیایید نگاهی به چیستی تحلیل آماری بیندازیم. تحلیل آماری، کاربرد روشهای آماری در یک نمونه از دادهها به منظور ایجاد درکی از آنچه آن دادهها نشان میدهند، است. این شامل جمعآوری و بررسی دقیق هر نمونه داده در مجموعهای از اقلام است که میتوان از آنها نمونه استخراج کرد. یک نمونه، در آمار، یک انتخاب نماینده از کل جمعیت است، که در آن جمعیت گروهی گسسته از افراد یا چیزهایی است که میتوان آنها را با حداقل یک ویژگی مشترک برای اهداف جمعآوری و تحلیل دادهها شناسایی کرد. برای مثال، در یک مورد استفاده خاص، جمعیت ممکن است شامل همه افراد یک ایالت باشد که گواهینامه رانندگی دارند و نمونهای از این جمعیت که بخشی یا زیرمجموعهای از جمعیت است، میتواند مردان راننده بالای ۵۰ سال باشد. روشهای آماری عمدتاً برای اطمینان از تفسیر صحیح دادهها و معنادار بودن روابط ظاهری و نه صرفاً تصادفی بودن آنها مفید هستند. هر زمان که دادهها را از یک نمونه جمعآوری میکنیم، میتوانیم دو نوع آمار مختلف را اجرا کنیم. آمار توصیفی برای خلاصه کردن اطلاعات مربوط به نمونه؛ و آمار استنباطی برای استنباط یا تعمیم در مورد جمعیت وسیعتر. آمار توصیفی شما را قادر میسازد تا دادهها را به روشی معنادار ارائه دهید که امکان تفسیر سادهتر دادهها را فراهم میکند. دادهها با استفاده از نمودارهای خلاصه، جداول و گرافها بدون هیچ تلاشی برای نتیجهگیری در مورد جمعیتی که نمونه از آن گرفته شده است، توصیف میشوند. هدف این است که درک و تجسم دادههای خام را بدون نتیجهگیری در مورد فرضیههای مطرح شده آسانتر کنیم. به عنوان مثال، میخواهیم نمرات آزمون زبان انگلیسی را در یک کلاس خاص از ۲۵ دانشآموز توصیف کنیم. نمرات آزمون همه دانشآموزان را ثبت میکنیم، آمار خلاصه را محاسبه میکنیم و یک نمودار تولید میکنیم. برخی از معیارهای رایج تحلیل آماری توصیفی شامل گرایش مرکزی، پراکندگی و چولگی است: گرایش مرکزی یا تعیین مرکز یک نمونه داده. برخی از معیارهای رایج گرایش مرکزی شامل میانگین، میانه و مد است. این معیارها به شما میگویند که بیشترین مقادیر در مجموعه دادههای شما در کجا قرار میگیرند. بنابراین، در مثال قبلی، میانگین نمره یا میانگین ریاضی کلاس ۲۵ دانشآموز، مجموع نمرات همه ۲۵ دانشآموز، تقسیم بر ۲۵، یعنی تعداد دانشآموزان، خواهد بود. اگر مجموعه دادههای فوق را از کمترین مقدار نمره تا بیشترین مقدار نمره ۲۵ دانشآموز مرتب کنید و مقدار میانی را انتخاب کنید - یعنی مقداری که ۱۲ مقدار در سمت چپ و ۱۲ مقدار در سمت راست یک مقدار نمره قرار دارد، آن مقدار نمره، میانه این مجموعه دادهها خواهد بود. اگر ۱۲ دانشآموز کمتر از ۷۵٪ و ۱۲ دانشآموز بیشتر از ۷۵٪ نمره کسب کرده باشند، میانه ۷۵ است. میانه برای هر مجموعه داده منحصر به فرد است و تحت تأثیر دادههای پرت قرار نمیگیرد. مُد مقداری است که بیشترین تکرار را در مجموعهای از مشاهدات دارد. برای مثال، اگر رایجترین نمره در این گروه ۲۵ نفره از دانشآموزان ۷۲٪ باشد، آنگاه مُد این مجموعه داده نیز همین است. بنابراین، میتوانید ببینید که چگونه نگاه کردن به مجموعه دادههایتان از طریق این مقادیر میتواند به شما کمک کند تا درک واضحتری از مجموعه دادههایتان داشته باشید. پراکندگی، معیار تغییرپذیری در یک مجموعه داده است. معیارهای رایج پراکندگی آماری عبارتند از واریانس، انحراف معیار و دامنه. واریانس، میزان فاصله نقاط داده از مرکز، یعنی توزیع مقادیر، را تعریف میکند. وقتی توزیعی تغییرپذیری کمتری داشته باشد، مقادیر در یک مجموعه داده سازگارتر هستند. با این حال، وقتی تغییرپذیری بیشتر باشد، نقاط داده متفاوتتر هستند و مقادیر افراطی محتملتر میشوند. درک تغییرپذیری میتواند به شما کمک کند تا احتمال وقوع یک رویداد را درک کنید. انحراف معیار به شما میگوید که دادههای شما چقدر در اطراف میانگین خوشهبندی شدهاند. و دامنه، فاصله بین کوچکترین و بزرگترین مقادیر در مجموعه دادههای شما را به شما میدهد. چولگی، معیاری است که نشان میدهد آیا توزیع مقادیر در اطراف یک مقدار مرکزی متقارن است یا به چپ یا راست کج شده است. دادههای کج میتوانند بر انواع تحلیلهای معتبر برای انجام تأثیر بگذارند. اینها برخی از ابزارهای اساسی و رایج آمار توصیفی هستند، اما ابزارهای دیگری نیز وجود دارند، به عنوان مثال، استفاده از همبستگی و نمودارهای پراکندگی برای ارزیابی روابط دادههای جفتی. نوع دوم تحلیل آماری، آمار استنباطی است. آمار استنباطی دادهها را از یک نمونه میگیرد تا در مورد جمعیت بزرگتری که نمونه از آن گرفته شده است، استنباط کند. با استفاده از روشهای آمار استنباطی میتوانید تعمیمهایی را استخراج کنید که نتایج نمونه را به کل جمعیت اعمال میکند. برخی از روشهای رایج آمار استنباطی عبارتند از آزمون فرضیه، فواصل اطمینان و تحلیل رگرسیون: آزمون فرضیه - به عنوان مثال، برای مطالعه اثربخشی یک واکسن با مقایسه نتایج در یک گروه کنترل، آزمونهای فرضیه میتوانند به شما بگویند که آیا اثربخشی واکسن مشاهده شده در یک گروه کنترل احتمالاً در جمعیت نیز وجود دارد یا خیر. فواصل اطمینان، عدم قطعیت و خطای نمونه را برای ایجاد طیف وسیعی از مقادیری که مقدار واقعی جمعیت در آن قرار میگیرد، ترکیب میکنند. تحلیل رگرسیون شامل آزمونهای فرضیهای است که به تعیین اینکه آیا روابط مشاهدهشده در دادههای نمونه واقعاً در جامعه وجود دارد و نه فقط در نمونه، کمک میکند. بستههای نرمافزاری مختلفی برای انجام تحلیل دادههای آماری وجود دارد، مانند سامانه تحلیل آماری (یا SAS)، بسته آماری برای علوم اجتماعی (یا SPSS) و Stat Soft. آمار هسته اصلی دادهکاوی را با موارد زیر تشکیل میدهد: ارائه معیارها و روشهای لازم برای دادهکاوی؛ و شناسایی الگوهایی که به شناسایی تفاوتهای بین نویز تصادفی و یافتههای معنادار کمک میکنند. هم دادهکاوی، که در این دوره بیشتر در مورد آن خواهیم آموخت، و هم آمار، به عنوان تکنیکهای تحلیل دادهها، به تصمیمگیری بهتر کمک میکنند.