خلاصه و نکات مهم
خلاصه و نکات مهم
خلاصه و نکات مهم
در این درس، اطلاعات زیر را آموختهاید:
مخزن داده یک اصطلاح کلی است که به دادههایی اشاره دارد که جمعآوری، سازماندهی و ایزوله شدهاند تا بتوان از آنها برای گزارشدهی، تحلیل و همچنین برای اهداف بایگانی استفاده کرد.
انواع مختلف مخازن داده عبارتند از:
- پایگاههای داده، که میتوانند رابطهای یا غیررابطهای باشند و هر کدام از مجموعهای از اصول سازمانی، انواع دادههایی که میتوانند ذخیره کنند و ابزارهایی که میتوانند برای پرسوجو، سازماندهی و بازیابی دادهها استفاده شوند، پیروی میکنند.
- انبارهای داده، که دادههای ورودی را در یک انبار جامع تجمیع میکنند.
- بازارهای داده، که اساساً زیرمجموعههای یک انبار داده هستند و برای ایزوله کردن دادهها برای یک عملکرد تجاری خاص یا مورد استفاده ساخته شدهاند.
- دریاچههای داده، که به عنوان مخازن ذخیرهسازی برای مقادیر زیادی از دادههای ساختاریافته، نیمه ساختاریافته و بدون ساختار در قالب بومی خود عمل میکنند.
- انبارهای کلان داده، که زیرساختهای محاسباتی و ذخیرهسازی توزیعشده را برای ذخیره، مقیاسپذیری و پردازش مجموعه دادههای بسیار بزرگ فراهم میکنند.
ETL یا فرآیند استخراج، تبدیل و بارگذاری، یک فرآیند خودکار است که دادههای خام را به دادههای آماده برای تحلیل تبدیل میکند:
- استخراج دادهها از مکانهای منبع.
- تبدیل دادههای خام با تمیز کردن، غنیسازی، استانداردسازی و اعتبارسنجی آن.
- بارگذاری دادههای پردازش شده در یک سیستم یا مخزن داده مقصد.
خط لوله داده، که گاهی اوقات به جای ETL استفاده میشود، کل مسیر انتقال دادهها از منبع به یک دریاچه داده یا برنامه مقصد را با استفاده از فرآیند ETL در بر میگیرد.
کلان داده به مقادیر عظیمی از دادهها اشاره دارد که هر لحظه از هر روز توسط افراد، ابزارها و ماشینها تولید میشود. سرعت، حجم و تنوع دادهها، ابزارها و سیستمهای مورد استفاده برای دادههای متعارف را به چالش میکشد. این چالشها منجر به ظهور ابزارها و پلتفرمهای پردازشی شد که به طور خاص برای کلان داده طراحی شدهاند، مانند آپاچی هادوپ، آپاچی هایو و آپاچی اسپارک.