
متن فیلم
امروزه حجم عظیمی از دادهها تولید میشه که روشهای سنتی برای پردازش اون کافی نیستند. به همین دلیل فناوریهای متنباز قدرتمندی توسعه یافتند تا امکان ذخیرهسازی، پردازش و تحلیل کلانداده را فراهم کنند. فناوریهای پردازش کلانداده، روشهایی را برای کار با مجموعههای بزرگی از دادههای ساختاریافته، نیمهساختاریافته و بدون ساختار فراهم میکنند تا بتوان از کلاندادهها ارزش استخراج کرد. در ویدیوهای قبلی، ما در مورد فناوریهای کلانداده مانند پایگاههای داده NoSQL و دریاچههای داده بحث کردیم. در این ویدیو، ما در مورد سه فناوری متنباز و نقشی که آنها در تحلیل کلانداده ایفا میکنند صحبت خواهیم کرد - آپاچی هادوپ، آپاچی هایو و آپاچی اسپارک. هادوپ مجموعهای از ابزارها است که ذخیرهسازی و پردازش توزیعشده کلانداده را فراهم میکند. هایو یک انبار داده برای پرسوجو و تحلیل دادهها است که بر روی هادوپ ساخته شده است. اسپارک یک چارچوب تحلیل دادههای توزیعشده است که برای انجام تحلیل دادههای پیچیده در زمان واقعی طراحی شده است. هادوپ، یک چارچوب متنباز مبتنی بر جاوا، امکان ذخیرهسازی و پردازش توزیعشده مجموعه دادههای بزرگ را در خوشههایی از رایانهها فراهم میکند. در سیستم توزیعشده هادوپ، یک گره یک رایانه واحد است و مجموعهای از گرهها یک خوشه را تشکیل میدهند. هادوپ میتواند از یک گره واحد تا هر تعداد گره که هر کدام ذخیرهسازی و محاسبات محلی ارائه میدهند، مقیاسپذیر شود. هادوپ یک راهحل قابل اعتماد، مقیاسپذیر و مقرونبهصرفه برای ذخیرهسازی دادهها بدون نیاز به فرمت ارائه میدهد. با استفاده از هادوپ، میتوانید: فرمتهای داده نوظهور، مانند پخش صدا، ویدئو، احساسات رسانههای اجتماعی و دادههای کلیک استریم را همراه با دادههای ساختاریافته، نیمه ساختاریافته و بدون ساختار که بهطور سنتی در انبار داده استفاده نمیشوند، ادغام کنید. دسترسی سلف سرویس و بلادرنگ را برای همه ذینفعان فراهم کنید. با تجمیع دادهها در سراسر سازمان و انتقال دادههای «سرد»، یعنی دادههایی که بهطور مکرر استفاده نمیشوند، به یک سیستم مبتنی بر هادوپ، هزینهها را در انبار داده سازمانی خود بهینه و ساده کنید. یکی از چهار مؤلفه اصلی هادوپ، سیستم فایل توزیعشده هادوپ یا HDFS است که یک سیستم ذخیرهسازی برای دادههای بزرگ است که بر روی چندین سختافزار متصل از طریق یک شبکه اجرا میشود. HDFS با تقسیم فایلها بر روی چندین گره، ذخیرهسازی دادههای بزرگ مقیاسپذیر و قابل اعتماد را فراهم میکند. این سیستم، فایلهای بزرگ را در چندین کامپیوتر تقسیم میکند و امکان دسترسی موازی به آنها را فراهم میکند. بنابراین، محاسبات میتوانند بهطور موازی روی هر گرهای که دادهها در آن ذخیره میشوند، اجرا شوند. همچنین بلوکهای فایل را در گرههای مختلف تکرار میکند تا از از دست رفتن دادهها جلوگیری کند و آن را در برابر خطا مقاوم سازد. بیایید این را از طریق یک مثال درک کنیم. فایلی را در نظر بگیرید که شامل شماره تلفنهای همه افراد در ایالات متحده است. شماره افرادی که نام خانوادگی آنها با A شروع میشود ممکن است در سرور 1، B در سرور 2 و غیره ذخیره شود. با هادوپ، قطعات این دفترچه تلفن در سراسر خوشه ذخیره میشوند. برای بازسازی کل دفترچه تلفن، برنامه شما به بلوکهای هر سرور در خوشه نیاز دارد. HDFS همچنین این قطعات کوچکتر را به طور پیشفرض در دو سرور اضافی تکرار میکند و در صورت خرابی یک سرور، قابلیت دسترسی را تضمین میکند. علاوه بر قابلیت دسترسی بالاتر، این مزایای متعددی را ارائه میدهد. این به خوشه هادوپ اجازه میدهد تا کار را به قطعات کوچکتر تقسیم کند و آن کارها را برای مقیاسپذیری بهتر روی همه سرورهای خوشه اجرا کند. در نهایت، شما از مزیت محلی بودن دادهها بهرهمند میشوید، که فرآیندی است که محاسبات را به گرهای که دادهها در آن قرار دارند نزدیکتر میکند. این امر هنگام کار با مجموعه دادههای بزرگ بسیار مهم است زیرا تراکم شبکه را به حداقل میرساند و توان عملیاتی را افزایش میدهد. برخی از مزایای دیگر استفاده از HDFS عبارتند از: بازیابی سریع از خرابیهای سختافزاری، زیرا HDFS برای تشخیص خطاها و بازیابی خودکار ساخته شده است. دسترسی به دادههای جریانی، زیرا HDFS از نرخ بالای توان عملیاتی دادهها پشتیبانی میکند. جایگذاری مجموعه دادههای بزرگ، زیرا HDFS میتواند به صدها گره یا رایانه در یک خوشه واحد مقیاسپذیر باشد. قابلیت حمل، زیرا HDFS در پلتفرمهای سختافزاری متعدد قابل حمل است و با انواع سیستم عاملهای اساسی سازگار است. هایو یک نرمافزار انبار داده متنباز برای خواندن، نوشتن و مدیریت فایلهای مجموعه دادههای بزرگ است که مستقیماً در HDFS یا سایر سیستمهای ذخیرهسازی داده مانند Apache HBase ذخیره میشوند. هادوپ برای اسکنهای متوالی طولانی در نظر گرفته شده است و از آنجا که هایو مبتنی بر هادوپ است، پرسوجوها تأخیر بسیار بالایی دارند - به این معنی که هایو برای برنامههایی که به زمان پاسخ بسیار سریع نیاز دارند، کمتر مناسب است. هایو برای پردازش تراکنشها که معمولاً شامل درصد بالایی از عملیات نوشتن است، مناسب نیست. هایو برای وظایف انبارداری دادهها مانند ETL، گزارشگیری و تحلیل دادهها مناسبتر است و شامل ابزارهایی است که دسترسی آسان به دادهها را از طریق SQL امکانپذیر میکند. این ما را به اسپارک میرساند، یک موتور پردازش داده همه منظوره که برای استخراج و پردازش حجم زیادی از دادهها برای طیف وسیعی از برنامهها، از جمله تحلیل تعاملی، پردازش جریانها، یادگیری ماشین، ادغام دادهها و ETL طراحی شده است. این موتور از پردازش درون حافظهای برای افزایش قابل توجه سرعت محاسبات و ریختن دادهها روی دیسک فقط در صورت محدودیت حافظه استفاده میکند. اسپارک دارای رابطهایی برای زبانهای برنامهنویسی اصلی، از جمله جاوا، اسکالا، پایتون، R و SQL است. این موتور میتواند با استفاده از فناوری خوشهبندی مستقل خود و همچنین بر روی زیرساختهای دیگر مانند هادوپ اجرا شود. و میتواند به دادهها در طیف وسیعی از منابع داده، از جمله HDFS و هایو، دسترسی داشته باشد که آن را بسیار متنوع میکند. توانایی پردازش سریع دادههای جریانی و انجام تحلیلهای پیچیده در زمان واقعی، مورد استفاده کلیدی برای آپاچی اسپارک است.