صفحه اصلی

مقدمه‌ای بر تحلیل داده

ابزارهای پردازش کلان داده

ابزارهای پردازش کلان داده

برای مشاهده ویدیو ، لطفا دوره را خریداری نمایید.یا در صورتی که دوره را خریداری کرده اید وارد حساب کاربری خود شوید.

متن فیلم

امروزه حجم عظیمی از داده‌ها تولید میشه که روش‌های سنتی برای پردازش اون کافی نیستند. به همین دلیل فناوری‌های متن‌باز قدرتمندی توسعه یافتند تا امکان ذخیره‌سازی، پردازش و تحلیل کلان‌داده را فراهم کنند. فناوری‌های پردازش کلان‌داده، روش‌هایی را برای کار با مجموعه‌های بزرگی از داده‌های ساختاریافته، نیمه‌ساختاریافته و بدون ساختار فراهم می‌کنند تا بتوان از کلان‌داده‌ها ارزش استخراج کرد. در ویدیوهای قبلی، ما در مورد فناوری‌های کلان‌داده مانند پایگاه‌های داده NoSQL و دریاچه‌های داده بحث کردیم. در این ویدیو، ما در مورد سه فناوری متن‌باز و نقشی که آن‌ها در تحلیل کلان‌داده ایفا می‌کنند صحبت خواهیم کرد - آپاچی هادوپ، آپاچی هایو و آپاچی اسپارک. هادوپ مجموعه‌ای از ابزارها است که ذخیره‌سازی و پردازش توزیع‌شده کلان‌داده را فراهم می‌کند. هایو یک انبار داده برای پرس‌وجو و تحلیل داده‌ها است که بر روی هادوپ ساخته شده است. اسپارک یک چارچوب تحلیل داده‌های توزیع‌شده است که برای انجام تحلیل داده‌های پیچیده در زمان واقعی طراحی شده است. هادوپ، یک چارچوب متن‌باز مبتنی بر جاوا، امکان ذخیره‌سازی و پردازش توزیع‌شده مجموعه داده‌های بزرگ را در خوشه‌هایی از رایانه‌ها فراهم می‌کند. در سیستم توزیع‌شده هادوپ، یک گره یک رایانه واحد است و مجموعه‌ای از گره‌ها یک خوشه را تشکیل می‌دهند. هادوپ می‌تواند از یک گره واحد تا هر تعداد گره که هر کدام ذخیره‌سازی و محاسبات محلی ارائه می‌دهند، مقیاس‌پذیر شود. هادوپ یک راه‌حل قابل اعتماد، مقیاس‌پذیر و مقرون‌به‌صرفه برای ذخیره‌سازی داده‌ها بدون نیاز به فرمت ارائه می‌دهد. با استفاده از هادوپ، می‌توانید: فرمت‌های داده نوظهور، مانند پخش صدا، ویدئو، احساسات رسانه‌های اجتماعی و داده‌های کلیک استریم را همراه با داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار که به‌طور سنتی در انبار داده استفاده نمی‌شوند، ادغام کنید. دسترسی سلف سرویس و بلادرنگ را برای همه ذینفعان فراهم کنید. با تجمیع داده‌ها در سراسر سازمان و انتقال داده‌های «سرد»، یعنی داده‌هایی که به‌طور مکرر استفاده نمی‌شوند، به یک سیستم مبتنی بر هادوپ، هزینه‌ها را در انبار داده سازمانی خود بهینه و ساده کنید. یکی از چهار مؤلفه اصلی هادوپ، سیستم فایل توزیع‌شده هادوپ یا HDFS است که یک سیستم ذخیره‌سازی برای داده‌های بزرگ است که بر روی چندین سخت‌افزار متصل از طریق یک شبکه اجرا می‌شود. HDFS با تقسیم فایل‌ها بر روی چندین گره، ذخیره‌سازی داده‌های بزرگ مقیاس‌پذیر و قابل اعتماد را فراهم می‌کند. این سیستم، فایل‌های بزرگ را در چندین کامپیوتر تقسیم می‌کند و امکان دسترسی موازی به آن‌ها را فراهم می‌کند. بنابراین، محاسبات می‌توانند به‌طور موازی روی هر گره‌ای که داده‌ها در آن ذخیره می‌شوند، اجرا شوند. همچنین بلوک‌های فایل را در گره‌های مختلف تکرار می‌کند تا از از دست رفتن داده‌ها جلوگیری کند و آن را در برابر خطا مقاوم سازد. بیایید این را از طریق یک مثال درک کنیم. فایلی را در نظر بگیرید که شامل شماره تلفن‌های همه افراد در ایالات متحده است. شماره افرادی که نام خانوادگی آن‌ها با A شروع می‌شود ممکن است در سرور 1، B در سرور 2 و غیره ذخیره شود. با هادوپ، قطعات این دفترچه تلفن در سراسر خوشه ذخیره می‌شوند. برای بازسازی کل دفترچه تلفن، برنامه شما به بلوک‌های هر سرور در خوشه نیاز دارد. HDFS همچنین این قطعات کوچکتر را به طور پیش‌فرض در دو سرور اضافی تکرار می‌کند و در صورت خرابی یک سرور، قابلیت دسترسی را تضمین می‌کند. علاوه بر قابلیت دسترسی بالاتر، این مزایای متعددی را ارائه می‌دهد. این به خوشه هادوپ اجازه می‌دهد تا کار را به قطعات کوچکتر تقسیم کند و آن کارها را برای مقیاس‌پذیری بهتر روی همه سرورهای خوشه اجرا کند. در نهایت، شما از مزیت محلی بودن داده‌ها بهره‌مند می‌شوید، که فرآیندی است که محاسبات را به گره‌ای که داده‌ها در آن قرار دارند نزدیک‌تر می‌کند. این امر هنگام کار با مجموعه داده‌های بزرگ بسیار مهم است زیرا تراکم شبکه را به حداقل می‌رساند و توان عملیاتی را افزایش می‌دهد. برخی از مزایای دیگر استفاده از HDFS عبارتند از: بازیابی سریع از خرابی‌های سخت‌افزاری، زیرا HDFS برای تشخیص خطاها و بازیابی خودکار ساخته شده است. دسترسی به داده‌های جریانی، زیرا HDFS از نرخ بالای توان عملیاتی داده‌ها پشتیبانی می‌کند. جایگذاری مجموعه داده‌های بزرگ، زیرا HDFS می‌تواند به صدها گره یا رایانه در یک خوشه واحد مقیاس‌پذیر باشد. قابلیت حمل، زیرا HDFS در پلتفرم‌های سخت‌افزاری متعدد قابل حمل است و با انواع سیستم عامل‌های اساسی سازگار است. هایو یک نرم‌افزار انبار داده متن‌باز برای خواندن، نوشتن و مدیریت فایل‌های مجموعه داده‌های بزرگ است که مستقیماً در HDFS یا سایر سیستم‌های ذخیره‌سازی داده مانند Apache HBase ذخیره می‌شوند. هادوپ برای اسکن‌های متوالی طولانی در نظر گرفته شده است و از آنجا که هایو مبتنی بر هادوپ است، پرس‌وجوها تأخیر بسیار بالایی دارند - به این معنی که هایو برای برنامه‌هایی که به زمان پاسخ بسیار سریع نیاز دارند، کمتر مناسب است. هایو برای پردازش تراکنش‌ها که معمولاً شامل درصد بالایی از عملیات نوشتن است، مناسب نیست. هایو برای وظایف انبارداری داده‌ها مانند ETL، گزارش‌گیری و تحلیل داده‌ها مناسب‌تر است و شامل ابزارهایی است که دسترسی آسان به داده‌ها را از طریق SQL امکان‌پذیر می‌کند. این ما را به اسپارک می‌رساند، یک موتور پردازش داده همه منظوره که برای استخراج و پردازش حجم زیادی از داده‌ها برای طیف وسیعی از برنامه‌ها، از جمله تحلیل تعاملی، پردازش جریان‌ها، یادگیری ماشین، ادغام داده‌ها و ETL طراحی شده است. این موتور از پردازش درون حافظه‌ای برای افزایش قابل توجه سرعت محاسبات و ریختن داده‌ها روی دیسک فقط در صورت محدودیت حافظه استفاده می‌کند. اسپارک دارای رابط‌هایی برای زبان‌های برنامه‌نویسی اصلی، از جمله جاوا، اسکالا، پایتون، R و SQL است. این موتور می‌تواند با استفاده از فناوری خوشه‌بندی مستقل خود و همچنین بر روی زیرساخت‌های دیگر مانند هادوپ اجرا شود. و می‌تواند به داده‌ها در طیف وسیعی از منابع داده، از جمله HDFS و هایو، دسترسی داشته باشد که آن را بسیار متنوع می‌کند. توانایی پردازش سریع داده‌های جریانی و انجام تحلیل‌های پیچیده در زمان واقعی، مورد استفاده کلیدی برای آپاچی اسپارک است.

ابزارهای پردازش کلان داده

استاد روژین ناصری

توضیحات

فناوری‌های متن‌باز برای تحلیل کلان‌داده

هزینه دوره:

1,000,000 تومان600,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه

68 قسمت

1. ماژول 1-تحلیل داده چیست؟

2. ماژول 2-اکوسیستم داده

3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده

4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط

5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل