پاکسازی داده‌ها
پاکسازی داده‌ها
برای مشاهده ویدیو ، لطفا دوره را خریداری نمایید.یا در صورتی که دوره را خریداری کرده اید وارد حساب کاربری خود شوید.

متن فیلم

داده‌های خام معمولاً خطاها و ناهماهنگی‌هایی دارن که می‌تونن تحلیل رو منحرف کنن. پاکسازی داده‌ها که بخشی از فرآیند رنگل کردن است با شناسایی، اصلاح و یا حذف این مشکلات، داده‌ها رو آماده‌ی استفاده‌ی دقیق و قابل اعتماد می‌کند. طبق گزارش گارتنر در مورد کیفیت داده‌ها، داده‌های بی‌کیفیت، جایگاه رقابتی یک سازمان را تضعیف کرده و اهداف حیاتی کسب‌وکار را تضعیف می‌کنند. داده‌های گمشده، متناقض یا نادرست می‌توانند منجر به نتیجه‌گیری‌های نادرست و در نتیجه تصمیم‌گیری‌های ناکارآمد شوند. و در دنیای کسب‌وکار، این امر می‌تواند پرهزینه باشد. مجموعه داده‌های جمع‌آوری‌شده از منابع مختلف می‌توانند دارای مشکلات متعددی باشند، از جمله مقادیر گمشده، عدم دقت، تکرار، جداکننده‌های نادرست یا گمشده، رکوردهای متناقض و پارامترهای ناکافی. در برخی موارد، داده‌ها را می‌توان به صورت دستی یا خودکار با کمک ابزارها و اسکریپت‌های پردازش داده‌ها اصلاح کرد، اما اگر قابل اصلاح نباشند، باید از مجموعه داده‌ها حذف شوند. اگرچه اصطلاحات پاکسازی داده‌ها (Data Cleaning) و رنگل کردن داده‌ها (Data Wrangling) که در دو جلسه قبل به آن اشاره کردیم گاهی اوقات به جای یکدیگر استفاده می‌شوند، اما باید در نظر داشت که پاکسازی داده‌ها تنها زیرمجموعه‌ای از کل فرآیند رنگل کردن داده‌ها است. پاکسازی داده‌ها بخش بسیار مهم و جدایی‌ناپذیری از مرحله تبدیل در یک گردش کار رنگل کردن داده‌ها را تشکیل می‌دهد. یک گردش کار معمول پاکسازی داده‌ها شامل موارد زیر است: بازرسی، پاکسازی و راستی‌آزمایی. اولین قدم در گردش کار پاکسازی داده‌ها، تشخیص انواع مختلف مشکلات و خطاهایی است که ممکن است مجموعه داده‌های شما داشته باشد. شما می‌توانید از اسکریپت‌ها و ابزارهایی استفاده کنید که به شما امکان می‌دهند قوانین و محدودیت‌های خاصی را تعریف کنید و داده‌های خود را در برابر این قوانین و محدودیت‌ها اعتبارسنجی کنید. همچنین می‌توانید از ابزارهای پروفایلینگ داده‌ها و تجسم داده‌ها برای بازرسی استفاده کنید. پروفایلینگ داده‌ها به شما کمک می‌کند تا داده‌های منبع را بررسی کنید تا ساختار، محتوا و روابط متقابل در داده‌های خود را درک کنید. این کار ناهنجاری‌ها و مشکلات کیفیت داده‌ها را آشکار می‌کند. به عنوان مثال، مقادیر خالی یا تهی، داده‌های تکراری یا اینکه آیا مقدار یک فیلد در محدوده مورد انتظار قرار می‌گیرد یا خیر. تجسم داده‌ها با استفاده از روش‌های آماری می‌تواند به شما در تشخیص داده‌های پرت کمک کند. به عنوان مثال، نمودار میانگین درآمد در یک مجموعه داده جمعیتی می‌تواند به شما در تشخیص داده‌های پرت کمک کند. این ما را به پاکسازی واقعی داده‌ها می‌رساند. تکنیک‌هایی که برای پاکسازی مجموعه داده‌های خود اعمال می‌کنید به مورد استفاده شما و نوع مسائلی که با آن مواجه می‌شوید بستگی دارد. بیایید به برخی از مسائل رایج‌تر نگاهی بیندازیم. بیایید با مقادیر گمشده شروع کنیم. مقابله با مقادیر گمشده بسیار مهم است زیرا می‌توانند باعث نتایج غیرمنتظره یا منحرفانه شوند. می‌توانید رکوردهایی را که مقادیر گمشده دارند فیلتر کنید یا راهی برای تهیه آن اطلاعات پیدا کنید، در صورتی که این اطلاعات برای مورد استفاده شما ضروری باشد. برای مثال، داده‌های سنی از دست رفته از یک مطالعه جمعیت‌شناسی. گزینه سوم روشی است که به عنوان جایگذاری شناخته می‌شود و مقدار از دست رفته را بر اساس مقادیر آماری محاسبه می‌کند. تصمیم شما در مورد مسیری که انتخاب می‌کنید باید بر اساس آنچه برای مورد استفاده شما بهتر است، باشد. همچنین ممکن است با داده‌های تکراری، نقاط داده‌ای که در مجموعه داده‌های شما تکرار می‌شوند، مواجه شوید. این موارد باید حذف شوند. نوع دیگری از مشکلی که ممکن است با آن مواجه شوید، داده‌های نامربوط است. داده‌هایی که در چارچوب مورد استفاده شما قرار نمی‌گیرند، می‌توانند داده‌های نامربوط باشند. به عنوان مثال، اگر در حال تحلیل داده‌های مربوط به سلامت عمومی بخشی از جمعیت هستید، شماره تماس آن‌ها ممکن است برای شما مرتبط نباشد. پاکسازی می‌تواند شامل تبدیل نوع داده نیز باشد. این کار برای اطمینان از ذخیره مقادیر در یک فیلد به عنوان نوع داده آن فیلد لازم است - به عنوان مثال، اعداد به عنوان نوع داده عددی ذخیره می‌شوند یا تاریخ به عنوان نوع داده تاریخ. همچنین ممکن است برای استانداردسازی آن، نیاز به پاکسازی داده‌های خود داشته باشید. به عنوان مثال، برای رشته‌ها، ممکن است بخواهید همه مقادیر با حروف کوچک باشند. به طور مشابه، قالب‌های تاریخ و واحدهای اندازه‌گیری باید استاندارد شوند. سپس خطاهای نحوی وجود دارد. برای مثال، فاصله‌های سفید یا فاصله‌های اضافی در ابتدا یا انتهای یک رشته، یک خطای نحوی است که باید اصلاح شود. این همچنین می‌تواند شامل اصلاح غلط‌های املایی یا قالب‌بندی باشد، برای مثال، نام ایالت به صورت کامل مانند New York در مقابل به صورت خلاصه مانند NY در برخی رکوردها وارد می‌شود. داده‌ها همچنین می‌توانند دارای داده‌های پرت یا مقادیری باشند که با سایر مشاهدات در مجموعه داده‌ها بسیار متفاوت هستند. داده‌های پرت ممکن است نادرست باشند یا نباشند. برای مثال، وقتی فیلد سن در پایگاه داده رأی‌دهندگان مقدار ۵ دارد، می‌دانید که این داده نادرست است و باید اصلاح شود. حال بیایید گروهی از افراد را در نظر بگیریم که درآمد سالانه آن‌ها در محدوده صد هزار تا دویست هزار دلار است - به جز آن یک نفر که سالانه یک میلیون دلار درآمد دارد. بسته به مورد استفاده شما، ممکن است لازم باشد تصمیم بگیرید که آیا گنجاندن این داده‌ها نتایج را به گونه‌ای منحرف می‌کند که برای مورد استفاده شما مناسب نباشد. این ما را به مرحله بعدی در گردش کار پاکسازی داده‌ها - راستی‌آزمایی - می‌رساند. در این مرحله، شما نتایج را بررسی می‌کنید تا اثربخشی و دقت حاصل از عملیات پاکسازی داده‌ها را تعیین کنید. شما باید داده‌ها را دوباره بررسی کنید تا مطمئن شوید که قوانین و محدودیت‌های قابل اجرا بر روی داده‌ها پس از اصلاحاتی که انجام داده‌اید، همچنان پابرجا هستند. و در نهایت، توجه به این نکته مهم است که تمام تغییرات انجام شده به عنوان بخشی از عملیات پاکسازی داده‌ها باید مستند شوند. نه تنها تغییرات، بلکه دلایل ایجاد این تغییرات و کیفیت داده‌های ذخیره شده فعلی نیز باید مستند شوند. گزارش میزان سلامت داده‌ها، گامی بسیار مهم است.

پاکسازی داده‌ها

توضیحات

پاکسازی داده‌ها موارد استفاده آن

هزینه دوره:
1,000,000 تومان300,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه
68 قسمت
1. ماژول 1-تحلیل داده چیست؟
2. ماژول 2-اکوسیستم داده
3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده
4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط
5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل
قسمت های جدید هر هفته به این دوره اضافه خواهد شد.