
متن فیلم
این جلسه ما در مورد مخازن داده، انواع و کاربردهای اونها علاوه بر ذخیره کردن داده ها صحبت می کنیم. مخزن داده (Data Repository)یک اصطلاح کلی است که برای اشاره به دادههایی استفاده میشود که جمعآوری، سازماندهی و ایزوله شدهاند تا بتوان از آنها برای عملیات تجاری استفاده کرد یا جهت گزارشدهی و تحلیل دادهها کاوش کرد. میتواند یک زیرساخت پایگاه داده کوچک یا بزرگ با یک یا چند پایگاه داده باشد که مجموعه دادهها را جمعآوری، مدیریت و ذخیره میکنند. در این ویدیو، مروری بر انواع مختلف مخازنی که دادههای شما ممکن است در آنها قرار داشته باشند، مانند پایگاههای داده، انبارهای داده (data warehouses) و انبارهای کلان داده (big data stores)، ارائه خواهیم داد و آنها را در ویدیوهای بعدی با جزئیات بیشتری بررسی خواهیم کرد. بیایید با پایگاههای داده شروع کنیم. یک پایگاه داده مجموعهای از دادهها یا اطلاعات است که برای ورودی، ذخیرهسازی، جستجو و بازیابی و اصلاح دادهها طراحی شده است. و یک سیستم مدیریت پایگاه داده یا DBMS مجموعهای از برنامههایی است که پایگاه داده را ایجاد و نگهداری میکند. این سیستم به شما امکان میدهد با استفاده از تابعی به نام پرسوجو، اطلاعات را در پایگاه داده ذخیره، اصلاح و استخراج کنید. به عنوان مثال، اگر میخواهید مشتریانی را پیدا کنید که به مدت شش ماه یا بیشتر غیرفعال بودهاند، با استفاده از تابع پرسوجو، سیستم مدیریت پایگاه داده دادههای همه مشتریانی را که به مدت شش ماه یا بیشتر غیرفعال بودهاند، از پایگاه داده بازیابی میکند. اگرچه پایگاه داده و DBMS معانی متفاوتی دارند، اما این اصطلاحات اغلب به جای یکدیگر استفاده میشوند. انواع مختلفی از پایگاههای داده وجود دارد. عوامل متعددی بر انتخاب پایگاه داده تأثیر میگذارند، مانند نوع و ساختار داده، مکانیسمهای پرسوجو، الزامات تأخیر، سرعت تراکنش و کاربرد مورد نظر از دادهها. ذکر دو نوع اصلی پایگاه داده در اینجا مهم است - پایگاههای داده رابطهای و غیر رابطهای. پایگاههای داده رابطهای، که به عنوان RDBMS نیز شناخته میشوند، بر اساس اصول سازمانی فایلهای مسطح ساخته شدهاند و دادهها در قالب جدولی با ردیفها و ستونهایی که از یک ساختار و طرحواره به خوبی تعریف شده پیروی میکنند، سازماندهی میشوند. با این حال، برخلاف فایلهای مسطح، RDBMSها برای عملیات داده و پرسوجو شامل جداول زیاد و حجم دادههای بسیار بزرگتر بهینه شدهاند. زبان پرسوجوی ساختاریافته یا SQL، زبان پرسوجوی استاندارد برای پایگاههای داده رابطهای است. بعد از آن پایگاههای داده غیر رابطهای داریم که به عنوان NoSQL یا “Not Only SQL” "نه فقط SQL" نیز شناخته میشوند. پایگاههای داده غیررابطهای در پاسخ به حجم، تنوع و سرعت تولید دادهها در دنیای امروز، عمدتاً تحت تأثیر پیشرفتها در محاسبات ابری، اینترنت اشیا و گسترش رسانههای اجتماعی، ظهور کردند. پایگاههای داده غیررابطهای که برای سرعت، انعطافپذیری و مقیاسپذیری ساخته شدهاند، امکان ذخیره دادهها را به روشی بدون طرحواره یا فرم آزاد فراهم میکنند. NoSQL به طور گسترده برای پردازش کلانداده استفاده میشود. یک انبار داده به عنوان یک مخزن مرکزی عمل میکند که اطلاعات دریافتی از منابع مختلف را ادغام کرده و آن را از طریق فرآیند استخراج، تبدیل و بارگذاری، که به عنوان فرآیند ETL نیز شناخته میشود، در یک پایگاه داده جامع برای تحلیل و هوش تجاری تجمیع میکند. در سطح بسیار بالا، فرآیند ETL به شما کمک میکند تا دادهها را از منابع داده مختلف استخراج کنید، دادهها را به حالت تمیز و قابل استفاده تبدیل کنید و دادهها را در مخزن داده سازمان بارگذاری کنید. مفاهیم Data Marts و Data Lakes با انبارهای داده مرتبط هستند که بعداً به آنها خواهیم پرداخت. Data Martها و Data Warehouseها از نظر تاریخی رابطهای بودهاند، زیرا بسیاری از دادههای سنتی سازمان در RDBMSها قرار داشتهاند. با این حال، با ظهور فناوریهای NoSQL و منابع جدید داده، مخازن داده غیررابطهای نیز اکنون برای انبارداری داده مورد استفاده قرار میگیرند. دسته دیگری از مخازن داده ها Big Data Stores هستند که شامل زیرساخت های محاسباتی و ذخیره سازی توزیع شده برای ذخیره، مقیاس و پردازش مجموعه داده های بسیار بزرگ است. به طور کلی، مخازن داده به جداسازی دادهها کمک میکنند و گزارشدهی و تحلیل را کارآمدتر و معتبرتر میکنند و در عین حال به عنوان بایگانی داده نیز عمل میکنند.