
متن فیلم
رنگل کردن دادهها، که با عنوان data munging نیز شناخته میشود، یک فرآیند تکراری است که شامل شناسایی، تبدیل، اعتبارسنجی و در دسترس قرار دادن دادهها برای یک تحلیل معتبر و معنادار هست. این فرآیند شامل طیف وسیعی از وظایف مربوط به آمادهسازی دادههای خام برای یک هدف مشخص است، که در این مرحله دادههای خام، دادههایی هستند که از طریق منابع مختلف در یک مخزن داده جمعآوری شدهاند. رنگل کردن دادهها طیف وسیعی از وظایف مربوط به آمادهسازی دادهها برای تحلیل را در بر میگیرد. به طور معمول، این یک فرآیند ۴ مرحلهای است که شامل موارد زیر است: کشف، تبدیل، اعتبارسنجی و انتشار. مرحله کشف، که به عنوان مرحله اکتشاف نیز شناخته میشود، در مورد درک بهتر دادههای شما با توجه به مورد استفاده شماست. هدف این است که به طور خاص بفهمید که چگونه میتوانید دادههایی را که برای مورد استفاده خود دارید، به بهترین شکل تمیز، ساختاردهی، سازماندهی و نقشهبرداری کنید. مرحله بعدی، که مرحله تبدیل است، بخش عمدهای از فرآیند رنگل کردن با دادهها را تشکیل میدهد. این شامل وظایفی است که شما برای تبدیل دادهها انجام میدهید، مانند ساختاردهی، نرمالسازی، غیر نرمالسازی، تمیز کردن و غنیسازی دادهها. بیایید با اولین وظیفه تبدیل - ساختاردهی - شروع کنیم. این وظیفه شامل اقداماتی است که شکل و طرح دادههای شما را تغییر میدهد. دادههای ورودی میتوانند در قالبهای متنوعی باشند. برای مثال، ممکن است برخی دادهها از یک پایگاه داده رابطهای و برخی دادهها از APIهای وب باشند. برای ادغام آنها، باید شکل یا طرح دادههای خود را تغییر دهید. این تغییر میتواند به سادگی تغییر ترتیب فیلدها در یک رکورد یا مجموعه داده یا به پیچیدگی ترکیب فیلدها در ساختارهای پیچیده باشد. اتصال ها و اجتماع ها رایجترین تبدیلهای ساختاری مورد استفاده برای ترکیب دادهها از یک یا چند جدول هستند. نحوه ترکیب دادهها توسط آنها متفاوت است. اتصال ها ستونها را ترکیب میکنند. وقتی دو جدول به هم متصل میشوند، ستونهای جدول منبع اول با ستونهای جدول منبع دوم - در همان ردیف - ترکیب میشوند. بنابراین، هر ردیف در جدول حاصل شامل ستونهایی از هر دو جدول است. اجتماع ها ردیفها را ترکیب میکنند. ردیفهای داده از جدول منبع اول با ردیفهای داده از جدول منبع دوم در یک جدول واحد ترکیب میشوند. هر ردیف در جدول حاصل از یک جدول منبع یا جدول منبع دیگر است. تبدیل همچنین میتواند شامل نرمالسازی و غیرنرمالسازی دادهها باشد. نرمالسازی بر پاکسازی پایگاه داده از دادههای بلااستفاده و کاهش افزونگی و ناهماهنگی تمرکز دارد. دادههایی که از سیستمهای تراکنشی میآیند، به عنوان مثال، جایی که تعدادی عملیات درج، بهروزرسانی و حذف به طور مداوم انجام میشوند، بسیار نرمالسازی میشوند. از غیرنرمالسازی برای ترکیب دادهها از چندین جدول در یک جدول واحد استفاده میشود تا بتوان سریعتر از آنها پرسوجو کرد. به عنوان مثال، دادههای نرمالشدهای که از سیستمهای تراکنشی میآیند، معمولاً قبل از اجرای پرسوجوها برای گزارشگیری و تحلیل، غیرنرمالسازی میشوند. نوع دیگری از تبدیل، پاکسازی است. وظایف پاکسازی اقداماتی هستند که بینظمیهای دادهها را برطرف میکنند تا یک تحلیل معتبر و دقیق ایجاد شود. دادههایی که نادرست، گمشده یا ناقص هستند میتوانند نتایج تحلیل شما را منحرف کنند و باید در نظر گرفته شوند. همچنین ممکن است دادهها مغرضانه باشند، یا مقادیر تهی در فیلدهای مربوطه داشته باشند، یا دادههای پرت داشته باشند. به عنوان مثال، ممکن است بخواهید اطلاعات جمعیتشناختی مربوط به فروش یک محصول خاص را بیابید، اما دادههایی که دریافت کردهاید، جنسیت را نشان نمیدهند. یا باید این داده را منبعیابی کرده و آن را با مجموعه دادههای موجود خود ادغام کنید، یا ممکن است نیاز به حذف داشته باشید و رکوردهایی که این فیلد را ندارند، در نظر نگیرید. ما در ادامه این درس، مثالهای بسیار بیشتری از پاکسازی دادهها را بررسی خواهیم کرد. غنیسازی دادهها - وظیفه چهارم تبدیل است. برای بررسی نقاط داده اضافی که میتوانند تحلیل شما را معنادارتر کنند، به دنبال غنیسازی دادههای خود هستید. به عنوان مثال، در یک سازمان بزرگ با اطلاعات پراکنده در سیستمهای مختلف، ممکن است نیاز داشته باشید مجموعه دادههای ارائه شده توسط یک سیستم را با اطلاعات موجود در سیستمهای دیگر یا حتی مجموعه دادههای عمومی غنیسازی کنید. سناریویی را در نظر بگیرید که در آن لوازم جانبی فناوری اطلاعات را به مشاغل میفروشید و میخواهید الگوهای خرید مشتریان خود را در پنج سال گذشته تحلیل کنید. شما جداول اصلی مشتری و تراکنش را دارید که اطلاعات مشتری و سابقه خرید را از آنجا ثبت کردهاید. تکمیل مجموعه دادههای خود با دادههای عملکرد این مشاغل، که احتمالاً به عنوان یک مجموعه داده عمومی در دسترس است، میتواند برای شما ارزشمند باشد تا عوامل مؤثر بر تصمیمات خرید آنها را درک کنید. درج فراداده نیز دادهها را غنی میکند. به عنوان مثال، محاسبه امتیاز احساسات از گزارش بازخورد مشتری، جمعآوری دادههای آب و هوایی مبتنی بر موقعیت جغرافیایی از یک مکان تفریحی برای تحلیل روند اشغال، یا ثبت زمان و برچسبهای منتشر شده برای یک پست وبلاگ. پس از تبدیل، مرحله بعدی در رنگل کردن دادهها، اعتبارسنجی است. در اینجا کیفیت ساختاردهی، نرمالسازی، پاکسازی و غنیسازی پستهای داده را بررسی میکنید. قوانین اعتبارسنجی به مراحل برنامهنویسی تکراری اشاره دارند که برای تأیید سازگاری، کیفیت و امنیت دادههای موجود استفاده میشوند. این ما را به انتشار - مرحله چهارم فرآیند رنگل کردن دادهها - میرساند. انتشار شامل ارائه خروجی دادههای رنگل شده برای نیازهای پروژههای بعدی است. آنچه منتشر میشود، نسخه تبدیلشده و اعتبارسنجیشده مجموعه داده ورودی به همراه فراداده مربوط به مجموعه داده است. در نهایت، توجه به اهمیت مستندسازی مراحل و ملاحظاتی که برای تبدیل دادههای خام به دادههای آماده برای تحلیل انجام دادهاید، مهم است. تمام مراحل رنگل کردن دادهها ماهیت تکراری دارند. برای تکرار مراحل و بررسی مجدد ملاحظات خود برای انجام این مراحل، بسیار مهم است که تمام ملاحظات و اقدامات را مستند کنید.