متن فیلم
اکوسیستم داده به مجموعهای از ابزارها، افراد، فرایندها و فنآوریها گفته میشه که در کنار هم جمعآوری، ذخیره، پردازش و تحلیل دادهها رو ممکن میکنند. مثل یک اکو سیستم طبیعی، هر بخشی به بخش دیگه وابسته است و همه با هم کار میکنند تا ارزش از داده استخراج بشه. ابر و باد و مه و خورشید و فلک درکارند، تا تو نانی به کف آری و به غفلت نخوری. به نقل از گزارش فوربس ۲۰۲۰ در مورد دادهها در دهه آینده، «افزایش مداوم سرعت پردازش دادهها و پهنای باند، اختراع بیوقفه ابزارهای جدید برای ایجاد، اشتراکگذاری و مصرف دادهها، و افزایش مداوم تولیدکنندگان و مصرفکنندگان جدید دادهها در سراسر جهان، تضمین میکند که رشد دادهها بدون وقفه ادامه یابد. دادهها در یک چرخه پایدار، دادههای بیشتری تولید میکنند.» یک اکوسیستم داده مدرن شامل یک شبکه کامل از موجودیتهای به هم پیوسته، مستقل و در حال تکامل مداوم است. این اکوسیستم شامل دادههایی است که باید از منابع مختلف، انواع مختلف تحلیل و مهارتها برای ایجاد بینش، یکپارچه شوند. ذینفعان فعال برای همکاری و اقدام بر اساس بینشهای تولید شده و ابزارها، برنامهها و زیرساختها برای ذخیره، پردازش و انتشار دادهها در صورت نیاز. بیایید با منابع داده شروع کنیم. دادهها در انواع مجموعه دادههای ساختار یافته و بدون ساختار، موجود در متن، تصاویر، ویدیوها، جریانهای کلیک، مکالمات کاربر، پلتفرمهای رسانههای اجتماعی، اینترنت اشیا یا دستگاههای IoT، رویدادهای بلادرنگ که دادهها را جریان میدهند، پایگاههای داده قدیمی و دادههایی که از ارائه دهندگان و آژانسهای حرفهای داده تهیه میشوند، در دسترس هستند. منابع هرگز تا این حد متنوع و پویا نبودهاند. وقتی با منابع داده بسیار مختلفی کار میکنید، اولین قدم این است که یک کپی از دادهها را از منابع اصلی به یک مخزن داده منتقل کنید. در این مرحله، شما فقط به دنبال جمعآوری دادههای مورد نیاز خود با استفاده از قالبهای داده، منابع و رابطهایی هستید که از طریق آنها میتوان این دادهها را دریافت کرد. قابلیت اطمینان، امنیت و یکپارچگی دادههای جمعآوریشده، برخی از چالشهایی هستند که در این مرحله با آنها روبرو میشوید. هنگامی که دادههای خام در یک مکان مشترک قرار گرفتند، باید سازماندهی، پاکسازی و برای دسترسی کاربران نهایی بهینه شوند. دادهها همچنین باید با الزامات و استانداردهای اعمالشده در سازمان مطابقت داشته باشند. به عنوان مثال، مطابقت با دستورالعملهایی که ذخیرهسازی و استفاده از دادههای شخصی، مانند سلامت، بیومتریک یا دادههای خانوار در مورد دستگاههای اینترنت اشیا را تنظیم میکنند. پایبندی به جداول دادههای اصلی در سازمان برای اطمینان از استانداردسازی دادههای اصلی در تمام برنامهها و سیستمهای یک سازمان، نمونه دیگری است. چالشهای کلیدی در این مرحله میتواند شامل مدیریت دادهها و کار با مخازن دادهای باشد که در دسترس بودن، انعطافپذیری، دسترسپذیری و امنیت بالایی را فراهم میکنند. در نهایت، ما ذینفعان کسبوکار خود را داریم: برنامهها، برنامهنویسان، تحلیلگران و موارد استفاده از علم داده، که همگی این دادهها را از مخزن دادههای سازمانی استخراج میکنند. چالشهای کلیدی در این مرحله میتواند شامل رابطها، APIها و برنامههایی باشد که میتوانند این دادهها را مطابق با نیازهای خاص کاربران نهایی به آنها برسانند. به عنوان مثال، تحلیلگران داده ممکن است به دادههای خام برای کار نیاز داشته باشند. ذینفعان کسبوکار ممکن است به گزارشها و داشبوردها نیاز داشته باشند. برنامهها ممکن است برای استخراج این دادهها به APIهای سفارشی نیاز داشته باشند. توجه به تأثیر برخی از فناوریهای جدید و نوظهور که اکوسیستم داده امروزی و امکانات آن را شکل میدهند، مهم است، به عنوان مثال: محاسبات ابری، یادگیری ماشین و کلانداده، که چند نمونه از آنها هستند. به لطف فناوریهای ابری، هر سازمانی امروزه به فضای ذخیرهسازی نامحدود، محاسبات با کارایی بالا، فناوریهای متن باز، فناوریهای یادگیری ماشین و جدیدترین ابزارها و کتابخانهها دسترسی دارد. دانشمندان داده با آموزش الگوریتمهای یادگیری ماشین بر روی دادههای گذشته، همچنین کلانداده، مدلهای پیشبینی ایجاد میکنند. امروزه، ما با مجموعه دادههایی سروکار داریم که آنقدر عظیم و متنوع هستند که ابزارها و روشهای تحلیل سنتی دیگر کافی نیستند و راه را برای ابزارها و تکنیکهای جدید و همچنین دانش و بینشهای جدید هموار میکنند. در ادامه این دوره، درباره کلانداده و تأثیر آن در شکلدهی به تصمیمات تجاری بیشتر خواهیم آموخت.