
متن پادکست
به گفتگوی کاربردی خوش آمدید عالی است که برگشتم و واقعاً انرژی زاست که ببینیم همه با ما به جلو حرکت می کنند. شما با موفقیت ماژول های 1 و 2 را مرور کردید که پیشرفت فوق العاده ای است. قطعا چیزی که باید به آن افتخار کنید. و حالا شما در حال ورود به ماژول 3 هستید. و این یکی، خب، در این سفر یادگیری بسیار مهم است. مطمئناً. ماژول 3، جمعآوری و تحلیل دادهها ما واقعاً در حال بررسی فرآیندهای اصلی، یافتن دادهها، گردآوری آنها، شکلدهی به آنها و پاکسازی آنها هستیم. اساساً کارهای مقدماتی دقیقا. به آن مانند پایه گذاری یک خانه فکر کنید. این مهارتها برای به دست آوردن بینشهای قابل اعتماد از دادهها اساسی هستند. و این موضوع در انواع صنایع، روز به روز حیاتیتر میشود، درسته؟ اوه، کاملا سازمان ها در همه جا برای تصمیم گیری بیشتر به داده ها تکیه می کنند. بنابراین ساخت این قسمت به درستی، بسیار مهم است. کیفیت بینش های شما کاملاً به کیفیت داده های اولیه شما بستگی دارد. درسته. پس بیایید این را ملموس کنیم. آیا می توانید نمونه ای از چگونگی انجام این کار را در دنیای واقعی ارائه دهید؟ مطمئناً بیایید یک سازمان مراقبتهای بهداشتی را در نظر بگیریم. آنها مثلاً قصد دارند نتایج بیماران را بهبود بخشند. اکنون احتمالاً دادهها و اطلاعات حیاتی دارند، اما پراکنده هستند. شاید برخی از آنها در پروندههای الکترونیکی سلامت، یا حتی سیستمهای مختلف باشند. سپس نظرسنجیهای بیمار وجود دارد، شاید در جایی در صفحات گسترده. حتی تصور میکنم میتواند یادداشتهای دستنویس باشد. دقیقاً. یادداشتهای دستنویس از مشاورهها، چیزهایی از این قبیل. بنابراین شما همه این فرمت های مختلف و مکانهای مختلف را دارید. احتمالاً کمی بههمریختگی. اینم میتواند باشد. حالا یک تحلیلگر را تصور کنید که از تکنیکهای این ماژول استفاده میکند. آنها شروع به جمعآوری همه اینها میکنند، این جریانهای متنوع را تجمیع میکنند. و سپس بخش بحث و جدل وارد میشود. درست است. آنها شروع به رسیدگی به ناسازگاریها میکنند. شاید یک سیستم از اختصار برای یک شرایط استفاده کند، دیگری آن را بنویسد، یا تاریخها به طور متفاوتی قالببندی شوند. چیزهای کوچکی که تحلیل را بهم میریزند. بنابراین آنها آن را تمیز میکنند، استانداردش میکنند. دقیقا ساختن یک پرونده واحد و یکپارچه از بیمار، یک تصویر کامل. و تأثیر آن. خب، اینجاست که موضوع جذاب میشود. با این دیدگاه یکپارچه، آنها میتوانند تحلیل بسیار عمیقتری انجام دهند. آنها میتوانند الگوهایی را در اثربخشی درمان تشخیص دهند، شاید بفهمند که چرا برخی از بیماران دوباره بستری میشوند. آه، پس این منجر به تصمیمات بهتر میشود دقیقا. تصمیمات آگاهانه تر در مورد مراقبت از بیمار، نحوه استفاده موثر از منابع. فراتر از دیدن قطعات کوچک، به درک کل سیستم میرود. این یک تغییر واقعاً قدرتمند است و یک تشبیه را به ذهن متبادر میکند، شاید مثل نجاری. نجاری، جالب است. چطور؟ آره، تو با چوب خام شروع ميکني، درسته؟ و خيلي کامل نيست ممکن است گره ها، لبه های خشن، ابعاد مختلف داشته باشد. میدونم میخوای به کجا برسی داده های خام کمی شبیه آن چوب خام هستند. و بررسی و مرتبسازی دادهها، مثل کارهای مقدماتی ضروری است که یک نجار انجام میدهد. کاملاً درست. این یعنی انتخاب قطعات مناسب، صاف کردن آنها، اندازهگیری دقیق، برش دقیق و آماده کردن همه چیز برای مونتاژ. چون کسی که نداند چگونه این مقدمات را انجام دهد، ممکن است سعی کند قطعات را به هم بچسباند. درسته. و نتیجه؟ اممم بد خيلي درست نيست شاید ضعیف باشه اما نجاران ماهر میدانند که صرف وقت برای آن آمادهسازی دقیق، حتی اگر کند به نظر برسد، دقیقاً همان چیزی است که آن مواد خام را به چیزی قوی، زیبا و کاربردی تبدیل میکند. و برای ما، این کار دادههای خام را به تحلیلی تبدیل میکند که واقعاً میتوانید به آن اعتماد کنید، تحلیلی ژرف. هدف همین است. خب، پس بیایید کاربردی بهش نگاه کنیم. همانطور که شنوندگان وارد ماژول ۳ میشوند، یک توصیه کلیدی چیست؟ به نظر من، وقتی برای اولین بار به یک مجموعه داده جدید دست پیدا میکنید، در برابر این تمایل که مستقیماً به سراغ تحلیل یا ساخت نمودار بروید، مقاومت کنید. عجله نکنید. دقیقاً. ابتدا برای درک واقعی منشأ آن وقت بگذارید. این دادهها از کجا آمدهاند؟ چه کسی آنها را جمعآوری کرده است؟ چرا؟ داستان پشت آن را بدانید. بله. همانطور که بسیاری از متخصصان داده تأکید میکنند، درک منبع و مشکلات بالقوه نهفته در آن کاملاً اساسی است. این زمینه چیزهای زیادی در مورد تعصب های بالقوه، محدودیتها، آنچه میتواند، و شاید مهمتر از آن، نمیتواند به طور قابل اعتمادی به شما بگوید، به شما میگوید. خیلی منطقی به نظر میرسد. مثل بررسی منشأ یک چیز تاریخی. خب، نکتهی دیگر چیست؟ این واقعیت را بپذیرید که بحث در مورد دادهها معمولاً یک خط مستقیم نیست. این یک کارِ یکباره و تمامشده نیست. بسیار خب. این ماژول، تکرارپذیری خود را برجسته میکند. این شامل کاوش، تبدیل، بررسی کار شما، اعتبارسنجی و سپس آمادهسازی آن است. اما اغلب به عقب برمیگردید. چرا به عقب برمی گردیم؟ چون وقتی با دادهها کار میکنید، چیزهایی را کشف میکنید، شاید مسائل غیرمنتظره یا الگوهای جدیدی که شما را وادار به تجدیدنظر در مراحل قبلی میکنند. بنابراین باید آماده باشید تا رویکرد خود را دوباره بررسی و تنظیم کنید. مثل مجسمه سازی شاید. شما تراش می دهید، به عقب برمیگردید، اصلاح میکنید. این یک روش عالی برای بیان آن است. اصلاح مداوم بر اساس آنچه کشف میکنید. بنابراین انعطاف پذیری کلید است. برای تکرار آماده باشید. فهميدم یک نکته نهایی برای شروع کار. آره به اصطلاحات خاص معرفی شده توجه کنید. چیزهایی مثل پروفایلینگ دادهها، جانهی دادهها، نگاشت طرحواره. واژگان فنی درسته. درک دقیق این اصطلاحات فقط مربوط به اصطلاحات تخصصی نیست. بله، این به شما یک زبان مشترک میدهد، اما همچنین یک نقشه ذهنی واضحتر از مراحل و تکنیکهای مختلف درگیر در کل فرآیند آمادهسازی دادهها ایجاد میکند. مانند یادگیری نام ابزارهای موجود در کیت نجاری شما. هر یک کار خاصی انجام می دهد. دقیقا. هر اصطلاح نشان دهنده یک مفهوم یا مهارت ارزشمند است. بله فوق العاده مفید برای گام عملی بعدی ما قبلاً در مورد شناسایی تصمیمی که برای کسی مهم است صحبت کردیم. درسته. بر اساس آن، مرحله فعلی این است که به این فکر کنید که چه نوع دادههایی ممکن است در واقع به آن تصمیم مربوط باشند. خیلی خوب بنابراین طوفان فکری در مورد انواع داده. بله به طور خاص، سعی کنید دو منبع یا نوع داده بالقوه را شناسایی کنید. به عنوان مثال، یک منبع داخلی، چیزی که شاید شما یا شرکت شما از قبل جمعآوری میکند، و یک منبع خارجی، مانند دادههای عمومی یا از شخص ثالث. مثل الگوی ترافیک که قبلا ذکر کردید. آره اگر در مورد ترافیک محلی کنجکاو هستید، ممکن است فکر کنید، خب، داخلی میتواند برای یک فرد سختتر باشد. اما دادههای خارجی میتوانند دادههای حمل و نقل عمومی باشند، یا شاید حتی نگاه کردن به گفتگوهای رسانههای اجتماعی در مورد رفت و آمد. درسته. فقط شناسایی احتمالات دقیقا. حتی اگر نمیتوانید دادهها را همین الان دریافت کنید، فقط کافی است آن فرآیند فکری را طی کنید. فرآیند شناسایی داده که ماژول در مورد آن صحبت میکند، این یک تمرین اولیه واقعاً ارزشمند است. این فرآیند به شما آموزش میدهد تا احتمالات دادهای اطراف خود را ببینید. دقیقا اوکی بنابراین هنگامی که ماژول سوم را شروع می کنید، در اینجا یک سوال انعکاس کوچک برای شما وجود دارد. به زمانی فکر کنید که مجبور بودید چیزی بههمریخته، شاید یک اتاق بههمریخته یا یک دسته فایل دیجیتال نامرتب را مرتب کنید. همه ما این شرایط را تجربه کردهایم. درسته. از چه استراتژی هایی استفاده کردید؟ چطور با این آشفتگی مواجه شدید؟ و چگونه ممکن است آن تجربه، چالشها و شاید رضایت از مرتب کردن آن به آمادهسازی دادهها برای تحلیل مربوط باشد؟ آهم اين يکي خوبه فکر کردن به موازنه بین سازماندهی چیزهای فیزیکی و داده های دیجیتال. همه چیز در مورد ایجاد نظم از هرج و مرج است، به نوعی، آماده کردن خودتان برای موفقیت. عالی بود از گوش دادن شما متشکرم. به ماژول سوم خوش آمدید از یادگیری خود لذت ببرید
گفتگوی کاربردی-چگونه دادهها را در خدمت خود به کار گیریم؟
توضیحات
جمعآوری و پاکسازی دادهها در این ماژول، شما با فرآیند و مراحلی که برای شناسایی، جمعآوری و وارد کردن دادهها از منابع مختلف نیاز است، آشنا میشوید. همچنین با وظایف مربوط به آمادهسازی (wrangling) و پاکسازی دادهها برای تحلیل آشنا خواهید شد. علاوه بر این، درک بهتری از ابزارهای مختلفی که برای جمعآوری، وارد کردن، آمادهسازی و پاکسازی دادهها استفاده میشوند، به همراه ویژگیها، نقاط قوت، محدودیتها و کاربردهای آنها به دست خواهید آورد. اهداف یادگیری توضیح مراحل و فرآیندهایی که باید برای شناسایی، جمعآوری و وارد کردن دادهها از منابع مختلف طی شوند. توصیف ابزارها و تکنیکهای موردنیاز برای آمادهسازی و پاکسازی دادهها بهگونهای که برای تحلیل آماده باشند.