
متن پادکست
به گفتگوی کاربردی خوش آمدید. خیل عالییه که به ماژول 2 رسیدیم آره، کاملا موافقم و با موفقیت ماژول 1 رو پشت سر گذاشتیم. و حالا شما در حال برداشتن قدم بعدی که واقعا مهم هست، هستید. درسته. بنابراین در این ماژول، اکوسیستم داده، ما واقعاً قصد داریم اصول را بررسی کنیم. چیزهایی مثل ساختمانهای داده، انبارها، ابزارهای پردازش، و زبان های مرتبط. اساساً داده ها چگونه در جهان زندگی می کنند. دقيقا این موضوع درباره فهم چگونگی وجود آن است، کجا آن را پیدا می کنید و از نظر انتقادی، چگونه می توانیم واقعاً به طور موثر با آن کار کنیم. و ببینید، این فقط شبیه تئوری انتزاعی نیست و درکی بنیادی است که همه چیز، تمام تحلیل ها و بینش هایی که مردم ایجاد می کنند، به این درک بستگی دارد. درسته و هر صنعتی که می توانید به آن فکر کنید، امور مالی، مراقبت های بهداشتی. تحقیقات دارویی، تدارکات جهانی، خرده فروشی و موارد دیگر. و بدون درک این ایده اکوسیستم، به نظر میرسه که کاملا گم شده ایم، مگه نه؟ اوه، کاملا مثل این است که برای اولین بار بخواهید در یک شهر بزرگ و شلوغ راه بروید. بدون نقشه آره یا جی پی اس. آره یا حتی دانستن تفاوت بین ایستگاه مترو و ایستگاه اتوبوس. ممکن است اتفاقی به چیزی مفید برخورد کنید، و به جایی برسید که باید می رسیدید. سخته قبلا در مورد آن شرکت خرده فروشی صحبت کردیم، یادتان است؟ آره آنها تعداد زیادی نقطه داده داشتند. اوه هاه. داده های فروش اینجا کلیک های وب سایت آنجا گفتگوی رسانه های اجتماعی، سطوح موجودی. آره اما ارتباط همه اینها قطع شده بود، و در مکان های مختلف قفل شده بودند. درسته و مشکل اصلی آنها واقعاً کمبود داده ها نبود، مگه نه؟ این بود که آنها اکوسیستم داده های خود را درک نمی کردند، چگونه این تکه ها می توانند ارتباط داشته باشند. پس زمانی که آنها شروع به نقشه برداری کردند، فهمیدند که داده ها از کجا آمده اند، چگونه می توانند جریان داشته باشند. اين نکته کليدی هست این یعنی درک اکوسیستم. بعد از این اونها می تونن ابزارهای ادغام روبیارن. و ناگهان، آنها تصویر کلی مشتری را می بینند. دقيقا که منجر به بازاریابی هوشمندانه تر و مدیریت موجودی بهتر شد. این نشان می دهد که معماری ساختار اطراف داده ها به اندازه نقاط داده ها حیاتی است. به یک سناریوی متفاوت فکر کنید. شاید چیزی که نیاز به تصمیمات بسیار سریع داشته باشد، مثل یک شرکت بزرگ لجستیک. آره، مثال عالییه آنها تلاش می کنند مسیرهای تحویل را به معنای واقعی کلمه لحظه به لحظه بهینه کنند، برخورد با ترافیک، آب و هوا، شاید بسته شدن جاده های غیر منتظره. این یک جریان ثابت عظیم از اطلاعات است، درسته؟ آره و برای انجام اون تماسهای فوری که باعث صرفهجویی در سوخت و زمان میشه شما به ابزارهای مناسب نیاز دارید. مطمئناً آنها باید از فناوری داده های بزرگ و ابزارهای پردازشی خاصِ طراحی شده برای این نوع داده های با سرعت بالا استفاده کنند. دانستن اینکه کدام ابزار در کجای مجموعه کلی و اکوسیستم آنها قرار میگیرد، بسیار مهم است. این فقط در مورد سرعت نیست! در مورد فرزی، واکنش به تغییر است. بنابراین درک اکوسیستم به آنها اجازه میدهد تا واکنشپذیر باشند، و یا حتی پیشگیرانه عمل کنند. آره، دقیقا خب، پس بیایید در مورد تفکر کلی اینجا صحبت کنیم. شما مقایسه ای با مثال شهر داشتید. نظر شما در مورد کاوش در یک سیستم غار بزرگ چطوره؟ اوه، فکر می کنم خوب باشه خیلی خوب پس تصور کنید که یک کاوشگر وارد غار می شود، بدون نور، بدون نقشه. فقط داشتند توی تاریکی راهشون رو پیدا میکردن. آره به دیوارها برخورد میکنند، آنها هیچ ایدهای در مورد شبکه بزرگتر، غارهای بزرگی که در گوشه و کنار هستند، ندارند. خوب و دومین کاوشگر؟ مورد دوم دارای چراغ جلو قدرتمند و مهمتر از همه نقشه دقیق غارها است. آه، پس می تواند مسیرها و اتاقها را ببینند. آنها میدانند کجا میروند. آنها میتوانند به صورت استراتژیک جهتیابی کنند. درک اکوسیستم دادهها مانند داشتن آن چراغ و نقشه برای دنیای دادهها است. این کار شما را از سردرگمی با تکههای پراکندهی اطلاعات نجات میدهد. برای پیمایش مطمئن در این چشماندازهای پیچیده داده. میبینید که چطور همه چیز به هم مرتبط است. میدانید برای هر کار از چه ابزاری استفاده کنید. این همه چیز را از احساس غرق شدن در کار به احساس خوشایند و توانمندسازی تغییر میدهد. این یک تغییر واقعا قدرتمند است. خوب، همانطور که افراد این ماژول را شروع می کنند، چه کار عملی رو می توانند بلافاصله انجام بدن؟ سوال خوبیه یک نکته: وقتی برای اولین بار با دادههای جدیدی روبرو میشوید، در برابر آن میل فوری برای شروع تحلیل و بررسی مقاومت کنید. اوه، درسته پس اول باید مکث کنند؟ فقط یک لحظه مکث کنید و از خودتان بپرسید که این داده ها واقعا از کجا آمده است؟ چه شکلی دارد؟ آیا ساختار یافته است، مانند یک صفحه گسترده زیبا و مرتب؟ یا شاید نیمه ساختار یافته، مانند یک فایل JSON. یا کاملاً بدون ساختار، مانند ایمیل یا اسناد متنی؟ اول از همه، طبقهبندی آن به شما چیزهای زیادی در مورد نحوهی برخورد با آن میگوید. بعداً کلی در وقت صرفهجویی میشود. منطقی است اول از همه، شرایط را مشخص کنید. و شاید یک نکته دیگر. سعی کنید نقشه ذهنی همه چیز را ترسیم کنید. منظورت چیه؟ حتی در چیزهای روزمره. به یک سفارش آنلاین که انجام می دهید فکر کنید. این اطلاعات از کجا شروع می شود؟ در طول مسیر کجا ذخیره می شود؟ چطور از کلیک روی خرید، به انبار (warehouse) و به کامیون تحویل حرکت می کند؟ آه، میفهمم ردیابی جریان داده ها. آره حتی در موارد ساده. این باعث ایجاد شهود در مورد نحوه کار این اکوسیستمها میشود. نحوه انتقال دادهها. این یک عادت عالی برای ساختن است. شما شروع به دیدن ارتباطات، وابستگیها، در همه جا میکنید. خب، همینطور که افراد به جزئیات این ماژول میپردازند، در مورد پایگاههای داده، انبارهای داده و دریاچههای داده یاد میگیرند. آره انواع مختلف مخازن. درسته گام بعدی مشخص اینه که همانطور که در مورد هر نوع یاد میگیرید، سعی کنید به یک مثال در دنیای واقعی فکر کنید. فقط یکی که در مورد آن شنیدهاید یا با آن مواجه شدهاید. مثل یک کتابخانه محلی کوچک که از یک پایگاه داده ساده برای کتابهایش استفاده کند؟ عالی. یا شاید یک سرویس پخش آنلاین غولپیکر از چیزی پیچیدهتر، مانند یک دریاچه داده، برای تمام دادههای مشاهده خود استفاده کند. فهميدم آره بنابراین اتصال مفهوم به یک موجودی واقعی. دقيقا این آن را بسیار ملموس تر می کند. کمتر انتزاعی خیلی خوب عالی. و شاید آخرین فکر برای آنها وارد شده به ماژول باشد. آره یک سوال انعکاسی همانطور که در حال یادگیری این اجزا، یعنی جریان دادهها، ذخیرهسازی، پردازش، هستید، به حوزه مورد علاقه خود یا شاید پروژهای که به خوبی میشناسید فکر کنید. اکنون که از دریچه این اکوسیستم داده به آن نگاه میکنید، کجاها را دارای گلوگاههای بالقوه میدانید؟ یا شاید حوزههایی برای بهبود داشته باشید. آه، به کار بردن آن در دانستههایشان، و توسعهی آگاهی از دادهها. هدف همین است. فوق العاده است. خب، ممنون که گوش دادي به ما به ماژول 2 خوش آمدید. از یادگیری خود لذت ببرید این یک گفتگوی کاربردی بود.
گفتگوی کاربردی-دادهها حقیقتاًَ کجا زندگی میکنند؟
توضیحات
در این ماژول، شما با انواع مختلف ساختارهای داده، فرمتهای فایل، منابع داده و زبانهایی که متخصصان داده در فعالیتهای روزانه خود استفاده میکنند، آشنا خواهید شد. همچنین درک بهتری از انواع مخازن داده مانند پایگاههای داده (Databases)، انبارهای داده (Data Warehouses)، فروشگاههای داده (Data Marts)، دریاچههای داده (Data Lakes) و خط لولههای داده (Data Pipelines) به دست خواهید آورد. علاوه بر این، با فرایند استخراج، تبدیل و بارگذاری (ETL) آشنا میشوید که برای استخراج، تبدیل و بارگذاری دادهها در مخازن داده به کار میرود. در ادامه، شما درک پایهای از کلانداده (Big Data) و ابزارهای پردازش کلانداده مانند Hadoop، سیستم فایل توزیعشده هادوپ (HDFS)، Hive و Spark کسب خواهید کرد. اهداف یادگیری توصیف و تمایز میان سیستمهای مدیریت پایگاه داده رابطهای و غیررابطهای. طبقهبندی ساختارهای داده، فرمتهای فایل و منابع داده بر اساس انواع مختلف آنها. توضیح ویژگیها و کاربرد زبانهای مختلفی که توسط متخصصان داده استفاده میشوند. تشریح نحوه عملکرد انبارهای داده، فروشگاههای داده، دریاچههای داده و خط لولههای داده. توضیح نحوه عملکرد فرایند استخراج، تبدیل و بارگذاری برای آمادهسازی داده خام جهت تحلیل. توضیح مفهوم کلانداده (Big Data). خلاصه کردن ویژگیها و کاربرد برخی از ابزارهای پردازش کلانداده.