مروری بر اکوسیستم تحلیلگر داده

متن فیلم

در این ویدیو ما در مورد اجزای تشکیل دهنده اکو سیستم داده و بستری که فراهم میکنه تا تحلیلگر مسئولیت هاش رو به انجام برسونه، همچنین در مورد انواع داده و تاثیر اون در انتخاب مخازن داده و ابزارها صحبت می کنیم. اکوسیستم یک تحلیلگر داده شامل زیرساخت، نرم‌افزار، ابزارها، چارچوب‌ها و فرآیندهایی است که برای جمع‌آوری، پاکسازی، تحلیل ، استخراج و تجسم داده‌ها استفاده می‌شوند. در این ویدیو، قبل از پرداختن به جزئیات هر یک از این مباحث در ویدیوهای بعدی، مروری سریع بر اکوسیستم خواهیم داشت. ابتدا بیایید در مورد داده‌ها صحبت کنیم. بر اساس اینکه ساختار داده‌ها چقدر خوب تعریف شده است، داده‌ها را می‌توان به صورت ساختاریافته، نیمه‌ساختاریافته یا بدون ساختار طبقه‌بندی کرد. داده‌هایی که از یک قالب سفت و سخت پیروی می‌کنند و می‌توانند به طور مرتب در ردیف‌ها و ستون‌ها سازماندهی شوند، داده‌های ساختاریافته هستند. این همان داده‌هایی است که معمولاً در پایگاه‌های داده و صفحات گسترده می‌بینید. داده‌های نیمه‌ساختاریافته ترکیبی از داده‌هایی است که دارای ویژگی‌های ثابت و داده‌هایی است که با یک ساختار سفت و سخت مطابقت ندارند. به عنوان مثال، ایمیل‌ها. یک ایمیل ترکیبی از داده‌های ساختاریافته مانند نام فرستنده و گیرنده دارد، اما محتوای ایمیل را نیز دارد که داده‌های بدون ساختار است. و سپس داده‌های بدون ساختار وجود دارد: داده‌هایی که پیچیده هستند و عمدتاً اطلاعات کیفی هستند که کاهش آن‌ها به ردیف‌ها و ستون‌ها غیرممکن است. برای مثال، عکس‌ها، ویدیوها، فایل‌های متنی، فایل‌های PDF و محتوای رسانه‌های اجتماعی. نوع داده‌ها، نوع مخازن داده‌ای را که داده‌ها می‌توانند در آنها جمع‌آوری و ذخیره شوند، و همچنین ابزارهایی را که می‌توانند برای پرس‌وجو یا پردازش داده‌ها استفاده شوند، تعیین می‌کند. داده‌ها همچنین در طیف گسترده‌ای از فرمت‌های فایل وجود دارند که از منابع داده متنوعی، از پایگاه‌های داده رابطه‌ای و غیررابطه‌ای گرفته تا APIها، سرویس‌های وب، جریان‌های داده، پلتفرم‌های اجتماعی و دستگاه‌های حسگر، جمع‌آوری می‌شوند. این ما را به مخازن داده می‌رساند: اصطلاحی که شامل پایگاه‌های داده، انبارهای داده، مارت‌های داده، دریاچه‌های داده و انبارهای کلان داده می‌شود. نوع، فرمت و منابع داده بر نوع مخازن داده‌ای که می‌توانید برای جمع‌آوری، ذخیره، پاکسازی، تحلیل و کاوش داده‌ها برای تحلیل استفاده کنید، تأثیر می‌گذارد. به عنوان مثال، اگر با کلان داده کار می‌کنید، به انبارهای کلان داده نیاز خواهید داشت که به شما امکان ذخیره و پردازش داده‌های با حجم زیاد و سرعت بالا و همچنین چارچوب‌هایی را می‌دهند که به شما امکان می‌دهند تحلیل ‌های پیچیده را به صورت بلادرنگ روی کلان داده انجام دهید. این اکوسیستم همچنین شامل زبان‌هایی است که می‌توانند به عنوان زبان‌های پرس‌وجو، زبان‌های برنامه‌نویسی و زبان‌های پوسته و اسکریپت طبقه‌بندی شوند. از پرس‌وجو و دستکاری داده‌ها با SQL گرفته تا توسعه برنامه‌های داده با پایتون و نوشتن اسکریپت‌های پوسته برای وظایف عملیاتی تکراری، اینها همه اجزای مهمی در میز کار یک تحلیلگر داده هستند. ابزارها، چارچوب‌ها و فرآیندهای خودکار برای تمام مراحل فرآیند تحلیل ، بخشی از اکوسیستم تحلیلگران داده هستند. از ابزارهایی که برای جمع‌آوری، استخراج، تبدیل و بارگذاری داده‌ها در مخازن داده استفاده می‌شوند، گرفته تا ابزارهایی برای پردازش داده‌ها، پاکسازی داده‌ها، داده‌کاوی، تحلیل و تجسم داده‌ها - این یک اکوسیستم بسیار متنوع و غنی است. صفحات گسترده، نوت‌بوک‌های Jupyter و IBM Cognos تنها چند نمونه هستند. ما در بخش‌های بعدی دوره، برخی از ابزارهای تحلیل داده‌ها را با جزئیات بیشتری پوشش خواهیم داد.

مروری بر اکوسیستم تحلیلگر داده

توضیحات

اجزای تشکیل دهنده اکو سیستم داده، انواع داده و تاثیر آن در انتخاب مخازن داده و ابزارها

هزینه دوره:
1,000,000 تومان300,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه
68 قسمت
1. ماژول 1-تحلیل داده چیست؟
2. ماژول 2-اکوسیستم داده
3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده
4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط
5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل
قسمت های جدید هر هفته به این دوره اضافه خواهد شد.