متن فیلم
در این ویدیو ما در مورد اجزای تشکیل دهنده اکو سیستم داده و بستری که فراهم میکنه تا تحلیلگر مسئولیت هاش رو به انجام برسونه، همچنین در مورد انواع داده و تاثیر اون در انتخاب مخازن داده و ابزارها صحبت می کنیم. اکوسیستم یک تحلیلگر داده شامل زیرساخت، نرمافزار، ابزارها، چارچوبها و فرآیندهایی است که برای جمعآوری، پاکسازی، تحلیل ، استخراج و تجسم دادهها استفاده میشوند. در این ویدیو، قبل از پرداختن به جزئیات هر یک از این مباحث در ویدیوهای بعدی، مروری سریع بر اکوسیستم خواهیم داشت. ابتدا بیایید در مورد دادهها صحبت کنیم. بر اساس اینکه ساختار دادهها چقدر خوب تعریف شده است، دادهها را میتوان به صورت ساختاریافته، نیمهساختاریافته یا بدون ساختار طبقهبندی کرد. دادههایی که از یک قالب سفت و سخت پیروی میکنند و میتوانند به طور مرتب در ردیفها و ستونها سازماندهی شوند، دادههای ساختاریافته هستند. این همان دادههایی است که معمولاً در پایگاههای داده و صفحات گسترده میبینید. دادههای نیمهساختاریافته ترکیبی از دادههایی است که دارای ویژگیهای ثابت و دادههایی است که با یک ساختار سفت و سخت مطابقت ندارند. به عنوان مثال، ایمیلها. یک ایمیل ترکیبی از دادههای ساختاریافته مانند نام فرستنده و گیرنده دارد، اما محتوای ایمیل را نیز دارد که دادههای بدون ساختار است. و سپس دادههای بدون ساختار وجود دارد: دادههایی که پیچیده هستند و عمدتاً اطلاعات کیفی هستند که کاهش آنها به ردیفها و ستونها غیرممکن است. برای مثال، عکسها، ویدیوها، فایلهای متنی، فایلهای PDF و محتوای رسانههای اجتماعی. نوع دادهها، نوع مخازن دادهای را که دادهها میتوانند در آنها جمعآوری و ذخیره شوند، و همچنین ابزارهایی را که میتوانند برای پرسوجو یا پردازش دادهها استفاده شوند، تعیین میکند. دادهها همچنین در طیف گستردهای از فرمتهای فایل وجود دارند که از منابع داده متنوعی، از پایگاههای داده رابطهای و غیررابطهای گرفته تا APIها، سرویسهای وب، جریانهای داده، پلتفرمهای اجتماعی و دستگاههای حسگر، جمعآوری میشوند. این ما را به مخازن داده میرساند: اصطلاحی که شامل پایگاههای داده، انبارهای داده، مارتهای داده، دریاچههای داده و انبارهای کلان داده میشود. نوع، فرمت و منابع داده بر نوع مخازن دادهای که میتوانید برای جمعآوری، ذخیره، پاکسازی، تحلیل و کاوش دادهها برای تحلیل استفاده کنید، تأثیر میگذارد. به عنوان مثال، اگر با کلان داده کار میکنید، به انبارهای کلان داده نیاز خواهید داشت که به شما امکان ذخیره و پردازش دادههای با حجم زیاد و سرعت بالا و همچنین چارچوبهایی را میدهند که به شما امکان میدهند تحلیل های پیچیده را به صورت بلادرنگ روی کلان داده انجام دهید. این اکوسیستم همچنین شامل زبانهایی است که میتوانند به عنوان زبانهای پرسوجو، زبانهای برنامهنویسی و زبانهای پوسته و اسکریپت طبقهبندی شوند. از پرسوجو و دستکاری دادهها با SQL گرفته تا توسعه برنامههای داده با پایتون و نوشتن اسکریپتهای پوسته برای وظایف عملیاتی تکراری، اینها همه اجزای مهمی در میز کار یک تحلیلگر داده هستند. ابزارها، چارچوبها و فرآیندهای خودکار برای تمام مراحل فرآیند تحلیل ، بخشی از اکوسیستم تحلیلگران داده هستند. از ابزارهایی که برای جمعآوری، استخراج، تبدیل و بارگذاری دادهها در مخازن داده استفاده میشوند، گرفته تا ابزارهایی برای پردازش دادهها، پاکسازی دادهها، دادهکاوی، تحلیل و تجسم دادهها - این یک اکوسیستم بسیار متنوع و غنی است. صفحات گسترده، نوتبوکهای Jupyter و IBM Cognos تنها چند نمونه هستند. ما در بخشهای بعدی دوره، برخی از ابزارهای تحلیل دادهها را با جزئیات بیشتری پوشش خواهیم داد.
مروری بر اکوسیستم تحلیلگر داده
توضیحات
اجزای تشکیل دهنده اکو سیستم داده، انواع داده و تاثیر آن در انتخاب مخازن داده و ابزارها