
متن فیلم
دادههای خام معمولاً خطاها و ناهماهنگیهایی دارن که میتونن تحلیل رو منحرف کنن. پاکسازی دادهها که بخشی از فرآیند رنگل کردن است با شناسایی، اصلاح و یا حذف این مشکلات، دادهها رو آمادهی استفادهی دقیق و قابل اعتماد میکند. طبق گزارش گارتنر در مورد کیفیت دادهها، دادههای بیکیفیت، جایگاه رقابتی یک سازمان را تضعیف کرده و اهداف حیاتی کسبوکار را تضعیف میکنند. دادههای گمشده، متناقض یا نادرست میتوانند منجر به نتیجهگیریهای نادرست و در نتیجه تصمیمگیریهای ناکارآمد شوند. و در دنیای کسبوکار، این امر میتواند پرهزینه باشد. مجموعه دادههای جمعآوریشده از منابع مختلف میتوانند دارای مشکلات متعددی باشند، از جمله مقادیر گمشده، عدم دقت، تکرار، جداکنندههای نادرست یا گمشده، رکوردهای متناقض و پارامترهای ناکافی. در برخی موارد، دادهها را میتوان به صورت دستی یا خودکار با کمک ابزارها و اسکریپتهای پردازش دادهها اصلاح کرد، اما اگر قابل اصلاح نباشند، باید از مجموعه دادهها حذف شوند. اگرچه اصطلاحات پاکسازی دادهها (Data Cleaning) و رنگل کردن دادهها (Data Wrangling) که در دو جلسه قبل به آن اشاره کردیم گاهی اوقات به جای یکدیگر استفاده میشوند، اما باید در نظر داشت که پاکسازی دادهها تنها زیرمجموعهای از کل فرآیند رنگل کردن دادهها است. پاکسازی دادهها بخش بسیار مهم و جداییناپذیری از مرحله تبدیل در یک گردش کار رنگل کردن دادهها را تشکیل میدهد. یک گردش کار معمول پاکسازی دادهها شامل موارد زیر است: بازرسی، پاکسازی و راستیآزمایی. اولین قدم در گردش کار پاکسازی دادهها، تشخیص انواع مختلف مشکلات و خطاهایی است که ممکن است مجموعه دادههای شما داشته باشد. شما میتوانید از اسکریپتها و ابزارهایی استفاده کنید که به شما امکان میدهند قوانین و محدودیتهای خاصی را تعریف کنید و دادههای خود را در برابر این قوانین و محدودیتها اعتبارسنجی کنید. همچنین میتوانید از ابزارهای پروفایلینگ دادهها و تجسم دادهها برای بازرسی استفاده کنید. پروفایلینگ دادهها به شما کمک میکند تا دادههای منبع را بررسی کنید تا ساختار، محتوا و روابط متقابل در دادههای خود را درک کنید. این کار ناهنجاریها و مشکلات کیفیت دادهها را آشکار میکند. به عنوان مثال، مقادیر خالی یا تهی، دادههای تکراری یا اینکه آیا مقدار یک فیلد در محدوده مورد انتظار قرار میگیرد یا خیر. تجسم دادهها با استفاده از روشهای آماری میتواند به شما در تشخیص دادههای پرت کمک کند. به عنوان مثال، نمودار میانگین درآمد در یک مجموعه داده جمعیتی میتواند به شما در تشخیص دادههای پرت کمک کند. این ما را به پاکسازی واقعی دادهها میرساند. تکنیکهایی که برای پاکسازی مجموعه دادههای خود اعمال میکنید به مورد استفاده شما و نوع مسائلی که با آن مواجه میشوید بستگی دارد. بیایید به برخی از مسائل رایجتر نگاهی بیندازیم. بیایید با مقادیر گمشده شروع کنیم. مقابله با مقادیر گمشده بسیار مهم است زیرا میتوانند باعث نتایج غیرمنتظره یا منحرفانه شوند. میتوانید رکوردهایی را که مقادیر گمشده دارند فیلتر کنید یا راهی برای تهیه آن اطلاعات پیدا کنید، در صورتی که این اطلاعات برای مورد استفاده شما ضروری باشد. برای مثال، دادههای سنی از دست رفته از یک مطالعه جمعیتشناسی. گزینه سوم روشی است که به عنوان جایگذاری شناخته میشود و مقدار از دست رفته را بر اساس مقادیر آماری محاسبه میکند. تصمیم شما در مورد مسیری که انتخاب میکنید باید بر اساس آنچه برای مورد استفاده شما بهتر است، باشد. همچنین ممکن است با دادههای تکراری، نقاط دادهای که در مجموعه دادههای شما تکرار میشوند، مواجه شوید. این موارد باید حذف شوند. نوع دیگری از مشکلی که ممکن است با آن مواجه شوید، دادههای نامربوط است. دادههایی که در چارچوب مورد استفاده شما قرار نمیگیرند، میتوانند دادههای نامربوط باشند. به عنوان مثال، اگر در حال تحلیل دادههای مربوط به سلامت عمومی بخشی از جمعیت هستید، شماره تماس آنها ممکن است برای شما مرتبط نباشد. پاکسازی میتواند شامل تبدیل نوع داده نیز باشد. این کار برای اطمینان از ذخیره مقادیر در یک فیلد به عنوان نوع داده آن فیلد لازم است - به عنوان مثال، اعداد به عنوان نوع داده عددی ذخیره میشوند یا تاریخ به عنوان نوع داده تاریخ. همچنین ممکن است برای استانداردسازی آن، نیاز به پاکسازی دادههای خود داشته باشید. به عنوان مثال، برای رشتهها، ممکن است بخواهید همه مقادیر با حروف کوچک باشند. به طور مشابه، قالبهای تاریخ و واحدهای اندازهگیری باید استاندارد شوند. سپس خطاهای نحوی وجود دارد. برای مثال، فاصلههای سفید یا فاصلههای اضافی در ابتدا یا انتهای یک رشته، یک خطای نحوی است که باید اصلاح شود. این همچنین میتواند شامل اصلاح غلطهای املایی یا قالببندی باشد، برای مثال، نام ایالت به صورت کامل مانند New York در مقابل به صورت خلاصه مانند NY در برخی رکوردها وارد میشود. دادهها همچنین میتوانند دارای دادههای پرت یا مقادیری باشند که با سایر مشاهدات در مجموعه دادهها بسیار متفاوت هستند. دادههای پرت ممکن است نادرست باشند یا نباشند. برای مثال، وقتی فیلد سن در پایگاه داده رأیدهندگان مقدار ۵ دارد، میدانید که این داده نادرست است و باید اصلاح شود. حال بیایید گروهی از افراد را در نظر بگیریم که درآمد سالانه آنها در محدوده صد هزار تا دویست هزار دلار است - به جز آن یک نفر که سالانه یک میلیون دلار درآمد دارد. بسته به مورد استفاده شما، ممکن است لازم باشد تصمیم بگیرید که آیا گنجاندن این دادهها نتایج را به گونهای منحرف میکند که برای مورد استفاده شما مناسب نباشد. این ما را به مرحله بعدی در گردش کار پاکسازی دادهها - راستیآزمایی - میرساند. در این مرحله، شما نتایج را بررسی میکنید تا اثربخشی و دقت حاصل از عملیات پاکسازی دادهها را تعیین کنید. شما باید دادهها را دوباره بررسی کنید تا مطمئن شوید که قوانین و محدودیتهای قابل اجرا بر روی دادهها پس از اصلاحاتی که انجام دادهاید، همچنان پابرجا هستند. و در نهایت، توجه به این نکته مهم است که تمام تغییرات انجام شده به عنوان بخشی از عملیات پاکسازی دادهها باید مستند شوند. نه تنها تغییرات، بلکه دلایل ایجاد این تغییرات و کیفیت دادههای ذخیره شده فعلی نیز باید مستند شوند. گزارش میزان سلامت دادهها، گامی بسیار مهم است.