
متن فیلم
برای رنگل کردن دادهها ابزارهای متنوعی وجود داره؛ از برنامههای ساده گرفته تا ابزارهای پیشرفته و حتی زبانهای برنامهنویسی انتخاب بهترین ابزار به نیاز، زیرساخت و تیم شما بستگی داره. در این ویدیو، به برخی از نرمافزارها و ابزارهای محبوب رنگل کردن داده، مانند: Excel Power Query / Spreadsheets، OpenRefine، Google DataPrep، Watson Studio Refinery، Trifacta Wrangler، پایتون و R، نگاهی خواهیم انداخت. بیایید با اساسیترین نرمافزار مورد استفاده برای رنگل کردن دستی - یعنی Spreadsheets - شروع کنیم. Spreadsheets مانند Microsoft Excel و Google Sheets دارای مجموعهای از ویژگیها و فرمولهای داخلی هستند که میتوانند به شما در شناسایی مشکلات، پاکسازی و تبدیل دادهها کمک کنند. افزونههایی در دسترس هستند که به شما امکان میدهند دادهها را از چندین منبع مختلف وارد کنید و در صورت نیاز دادهها را پاکسازی و تبدیل کنید - مانند Microsoft Power Query برای Excel و Google Sheets Query برای Google Sheets. OpenRefine ابزاری متنباز است که به شما امکان میدهد دادهها را در قالبهای متنوعی مانند TSV، CSV، XLS، XML و JSON وارد و صادر کنید. با استفاده از OpenRefine، میتوانید دادهها را پاکسازی کنید، آنها را از یک قالب به قالب دیگر تبدیل کنید و دادهها را با سرویسهای وب و دادههای خارجی گسترش دهید. یادگیری و استفاده از OpenRefine آسان است. این نرمافزار عملیات مبتنی بر منو را ارائه میدهد، به این معنی که نیازی به حفظ کردن دستورات یا سینتکس ندارید. Google DataPrep یک سرویس داده ابری هوشمند است که به شما امکان میدهد دادههای ساختاریافته و بدون ساختار را به صورت بصری کاوش، پاکسازی و برای تحلیل آماده کنید. این یک سرویس کاملاً مدیریتشده است، به این معنی که نیازی به نصب یا مدیریت نرمافزار یا زیرساخت ندارید. استفاده از DataPrep بسیار آسان است. با هر اقدامی که انجام میدهید، پیشنهادهایی در مورد گام بعدی ایدهآل خود دریافت میکنید. DataPrep میتواند به طور خودکار طرحوارهها، انواع دادهها و ناهنجاریها را تشخیص دهد. Watson Studio Refinery که از طریق IBM Watson Studio در دسترس است، به شما امکان میدهد دادهها را با عملیات توکار کشف، پاکسازی و تبدیل کنید. این نرمافزار مقادیر زیادی از دادههای خام را به اطلاعات با کیفیت و قابل مصرف تبدیل میکند که برای تحلیل آماده هستند. Data Refinery انعطافپذیری کاوش دادههای موجود در طیف وسیعی از منابع داده را ارائه میدهد. این نرمافزار انواع و طبقهبندیهای دادهها را به طور خودکار تشخیص میدهد و همچنین سیاستهای مربوط به حکومت دادهها را به طور خودکار اعمال میکند. Trifacta Wrangler یک سرویس تعاملی مبتنی بر ابر برای پاکسازی و تبدیل دادهها است. این زبان، دادههای نامرتب دنیای واقعی را دریافت کرده و آنها را در جداول داده تمیز و مرتب میکند که سپس میتوان آنها را به اکسل، تبلو و آر ارسال کرد. این زبان به خاطر ویژگیهای همکاریاش شناخته شده است و به چندین عضو تیم اجازه میدهد همزمان کار کنند. پایتون دارای یک کتابخانه عظیم و مجموعهای از بستهها است که قابلیتهای قدرتمندی برای دستکاری دادهها ارائه میدهد. بیایید به چند مورد از این کتابخانهها و بستهها نگاهی بیندازیم. ژوپیتر نوتبوک یک برنامه وب متن باز است که به طور گسترده برای تمیز کردن و تبدیل دادهها، مدلسازی آماری و همچنین تجسم دادهها استفاده میشود. نامپای یا پایتون عددی، اساسیترین بستهای است که پایتون ارائه میدهد. این زبان سریع، همهکاره، سازگار و آسان برای استفاده است. این زبان از آرایهها و ماتریسهای بزرگ و چند بعدی و توابع ریاضی سطح بالا برای کار بر روی این آرایهها پشتیبانی میکند. پانداس برای عملیات تحلیل سریع و آسان دادهها طراحی شده است. این زبان امکان عملیات پیچیدهای مانند ادغام، اتصال و تبدیل قطعات بزرگ دادهها را با استفاده از دستورات ساده و تک خطی فراهم میکند. با استفاده از پانداس، میتوانید از خطاهای رایج ناشی از دادههای ناهماهنگ ورودی از منابع مختلف جلوگیری کنید. زبان برنامهنویسی R، مجموعهای از کتابخانهها و بستهها را ارائه میدهد که به طور خاص برای رنگل کردن دادههای نامرتب ایجاد شدهاند - مانند Dplyr، Data.table و Jsonlite. با استفاده از این کتابخانهها، میتوانید دادهها را بررسی، دستکاری و تحلیل کنید. Dplyr یک کتابخانه قدرتمند برای رنگل کردن دادهها است. این کتابخانه دارای سینتکس دقیق و راحت است. Data.table به جمعآوری سریع مجموعه دادههای بزرگ کمک میکند. Jsonlite یک ابزار پارس کردن JSON قوی است که برای تعامل با APIهای وب عالی است. ابزارهای رنگل کردن دادهها با قابلیتها و ابعاد مختلفی ارائه میشوند. تصمیم شما در مورد بهترین ابزار برای نیازهایتان به عواملی بستگی دارد که مختص مورد استفاده، زیرساخت و تیمهای شما هستند - مانند اندازه دادههای پشتیبانی شده، ساختارهای داده، قابلیتهای پاکسازی و تبدیل، نیازهای زیرساختی، سهولت استفاده و قابلیت یادگیری.
ابزارهای رنگل کردن داده
توضیحات
آشنایی با برخی از نرمافزارها و ابزارهای محبوب رنگل کردن داده