رنگل کردن داده‌ها چیست؟
رنگل کردن داده‌ها چیست؟
برای مشاهده ویدیو ، لطفا دوره را خریداری نمایید.یا در صورتی که دوره را خریداری کرده اید وارد حساب کاربری خود شوید.

متن فیلم

رنگل کردن داده‌ها، که با عنوان data munging نیز شناخته می‌شود، یک فرآیند تکراری است که شامل شناسایی، تبدیل، اعتبارسنجی و در دسترس قرار دادن داده‌ها برای یک تحلیل معتبر و معنادار هست. این فرآیند شامل طیف وسیعی از وظایف مربوط به آماده‌سازی داده‌های خام برای یک هدف مشخص است، که در این مرحله داده‌های خام، داده‌هایی هستند که از طریق منابع مختلف در یک مخزن داده جمع‌آوری شده‌اند. رنگل کردن داده‌ها طیف وسیعی از وظایف مربوط به آماده‌سازی داده‌ها برای تحلیل را در بر می‌گیرد. به طور معمول، این یک فرآیند ۴ مرحله‌ای است که شامل موارد زیر است: کشف، تبدیل، اعتبارسنجی و انتشار. مرحله کشف، که به عنوان مرحله اکتشاف نیز شناخته می‌شود، در مورد درک بهتر داده‌های شما با توجه به مورد استفاده شماست. هدف این است که به طور خاص بفهمید که چگونه می‌توانید داده‌هایی را که برای مورد استفاده خود دارید، به بهترین شکل تمیز، ساختاردهی، سازماندهی و نقشه‌برداری کنید. مرحله بعدی، که مرحله تبدیل است، بخش عمده‌ای از فرآیند رنگل کردن با داده‌ها را تشکیل می‌دهد. این شامل وظایفی است که شما برای تبدیل داده‌ها انجام می‌دهید، مانند ساختاردهی، نرمال‌سازی، غیر نرمال‌سازی، تمیز کردن و غنی‌سازی داده‌ها. بیایید با اولین وظیفه تبدیل - ساختاردهی - شروع کنیم. این وظیفه شامل اقداماتی است که شکل و طرح داده‌های شما را تغییر می‌دهد. داده‌های ورودی می‌توانند در قالب‌های متنوعی باشند. برای مثال، ممکن است برخی داده‌ها از یک پایگاه داده رابطه‌ای و برخی داده‌ها از APIهای وب باشند. برای ادغام آن‌ها، باید شکل یا طرح داده‌های خود را تغییر دهید. این تغییر می‌تواند به سادگی تغییر ترتیب فیلدها در یک رکورد یا مجموعه داده یا به پیچیدگی ترکیب فیلدها در ساختارهای پیچیده باشد. اتصال ها و اجتماع ها رایج‌ترین تبدیل‌های ساختاری مورد استفاده برای ترکیب داده‌ها از یک یا چند جدول هستند. نحوه ترکیب داده‌ها توسط آن‌ها متفاوت است. اتصال ها ستون‌ها را ترکیب می‌کنند. وقتی دو جدول به هم متصل می‌شوند، ستون‌های جدول منبع اول با ستون‌های جدول منبع دوم - در همان ردیف - ترکیب می‌شوند. بنابراین، هر ردیف در جدول حاصل شامل ستون‌هایی از هر دو جدول است. اجتماع ها ردیف‌ها را ترکیب می‌کنند. ردیف‌های داده از جدول منبع اول با ردیف‌های داده از جدول منبع دوم در یک جدول واحد ترکیب می‌شوند. هر ردیف در جدول حاصل از یک جدول منبع یا جدول منبع دیگر است. تبدیل همچنین می‌تواند شامل نرمال‌سازی و غیرنرمال‌سازی داده‌ها باشد. نرمال‌سازی بر پاکسازی پایگاه داده از داده‌های بلااستفاده و کاهش افزونگی و ناهماهنگی تمرکز دارد. داده‌هایی که از سیستم‌های تراکنشی می‌آیند، به عنوان مثال، جایی که تعدادی عملیات درج، به‌روزرسانی و حذف به طور مداوم انجام می‌شوند، بسیار نرمال‌سازی می‌شوند. از غیرنرمال‌سازی برای ترکیب داده‌ها از چندین جدول در یک جدول واحد استفاده می‌شود تا بتوان سریع‌تر از آن‌ها پرس‌وجو کرد. به عنوان مثال، داده‌های نرمال‌شده‌ای که از سیستم‌های تراکنشی می‌آیند، معمولاً قبل از اجرای پرس‌وجوها برای گزارش‌گیری و تحلیل، غیرنرمال‌سازی می‌شوند. نوع دیگری از تبدیل، پاکسازی است. وظایف پاکسازی اقداماتی هستند که بی‌نظمی‌های داده‌ها را برطرف می‌کنند تا یک تحلیل معتبر و دقیق ایجاد شود. داده‌هایی که نادرست، گم‌شده یا ناقص هستند می‌توانند نتایج تحلیل شما را منحرف کنند و باید در نظر گرفته شوند. همچنین ممکن است داده‌ها مغرضانه باشند، یا مقادیر تهی در فیلدهای مربوطه داشته باشند، یا داده‌های پرت داشته باشند. به عنوان مثال، ممکن است بخواهید اطلاعات جمعیت‌شناختی مربوط به فروش یک محصول خاص را بیابید، اما داده‌هایی که دریافت کرده‌اید، جنسیت را نشان نمی‌دهند. یا باید این داده را منبع‌یابی کرده و آن را با مجموعه داده‌های موجود خود ادغام کنید، یا ممکن است نیاز به حذف داشته باشید و رکوردهایی که این فیلد را ندارند، در نظر نگیرید. ما در ادامه این درس، مثال‌های بسیار بیشتری از پاکسازی داده‌ها را بررسی خواهیم کرد. غنی‌سازی داده‌ها - وظیفه چهارم تبدیل است. برای بررسی نقاط داده اضافی که می‌توانند تحلیل شما را معنادارتر کنند، به دنبال غنی‌سازی داده‌های خود هستید. به عنوان مثال، در یک سازمان بزرگ با اطلاعات پراکنده در سیستم‌های مختلف، ممکن است نیاز داشته باشید مجموعه داده‌های ارائه شده توسط یک سیستم را با اطلاعات موجود در سیستم‌های دیگر یا حتی مجموعه داده‌های عمومی غنی‌سازی کنید. سناریویی را در نظر بگیرید که در آن لوازم جانبی فناوری اطلاعات را به مشاغل می‌فروشید و می‌خواهید الگوهای خرید مشتریان خود را در پنج سال گذشته تحلیل کنید. شما جداول اصلی مشتری و تراکنش را دارید که اطلاعات مشتری و سابقه خرید را از آنجا ثبت کرده‌اید. تکمیل مجموعه داده‌های خود با داده‌های عملکرد این مشاغل، که احتمالاً به عنوان یک مجموعه داده عمومی در دسترس است، می‌تواند برای شما ارزشمند باشد تا عوامل مؤثر بر تصمیمات خرید آن‌ها را درک کنید. درج فراداده نیز داده‌ها را غنی می‌کند. به عنوان مثال، محاسبه امتیاز احساسات از گزارش بازخورد مشتری، جمع‌آوری داده‌های آب و هوایی مبتنی بر موقعیت جغرافیایی از یک مکان تفریحی برای تحلیل روند اشغال، یا ثبت زمان و برچسب‌های منتشر شده برای یک پست وبلاگ. پس از تبدیل، مرحله بعدی در رنگل کردن داده‌ها، اعتبارسنجی است. در اینجا کیفیت ساختاردهی، نرمال‌سازی، پاکسازی و غنی‌سازی پست‌های داده را بررسی می‌کنید. قوانین اعتبارسنجی به مراحل برنامه‌نویسی تکراری اشاره دارند که برای تأیید سازگاری، کیفیت و امنیت داده‌های موجود استفاده می‌شوند. این ما را به انتشار - مرحله چهارم فرآیند رنگل کردن داده‌ها - می‌رساند. انتشار شامل ارائه خروجی داده‌های رنگل شده برای نیازهای پروژه‌های بعدی است. آنچه منتشر می‌شود، نسخه تبدیل‌شده و اعتبارسنجی‌شده مجموعه داده ورودی به همراه فراداده مربوط به مجموعه داده است. در نهایت، توجه به اهمیت مستندسازی مراحل و ملاحظاتی که برای تبدیل داده‌های خام به داده‌های آماده برای تحلیل انجام داده‌اید، مهم است. تمام مراحل رنگل کردن داده‌ها ماهیت تکراری دارند. برای تکرار مراحل و بررسی مجدد ملاحظات خود برای انجام این مراحل، بسیار مهم است که تمام ملاحظات و اقدامات را مستند کنید.

رنگل کردن داده‌ها چیست؟

توضیحات

رنگل کردن داده‌ها و مراحل آن

هزینه دوره:
1,000,000 تومان300,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه
68 قسمت
1. ماژول 1-تحلیل داده چیست؟
2. ماژول 2-اکوسیستم داده
3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده
4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط
5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل
قسمت های جدید هر هفته به این دوره اضافه خواهد شد.