صفحه اصلی

مقدمه‌ای بر تحلیل داده

منابع داده

منابع داده

برای مشاهده ویدیو ، لطفا دوره را خریداری نمایید.یا در صورتی که دوره را خریداری کرده اید وارد حساب کاربری خود شوید.

متن فیلم

منابع داده برای تحلیل که خیلی هم متنوع هستند شامل پایگاه‌های داده رابطه‌ای، فایل‌های مسطح و صفحه‌گسترده، فایل‌های XML، APIها و سرویس‌های وب، وب اسکرپینگ، جریان‌های داده و فیدهای RSS هستند. این منابع داده‌های ساختاریافته، نیمه‌ساختاریافته و بدون ساختار را ارائه می‌دهند و بسته به نوع داده و هدف تحلیل، ابزارها و روش‌های مناسب رو برای جمع‌آوری و پردازش فراهم می‌کنند. همانطور که در یکی از ویدیوهای قبلی خود به آن اشاره کردیم، منابع داده هرگز به اندازه امروز پویا و متنوع نبوده‌اند. در این ویدیو، به برخی از منابع رایج مانند: پایگاه‌های داده رابطه‌ای، فایل‌های مسطح و مجموعه داده‌های XML، APIها و سرویس‌های وب، Web Scraping، جریان‌های داده و Feedها خواهیم پرداخت. معمولاً سازمان‌ها برنامه‌های داخلی دارند که از آن‌ها در مدیریت فعالیت‌های روزمره تجاری، تراکنش‌های مشتری، فعالیت‌های منابع انسانی و گردش‌های کاری خود پشتیبانی می‌کنند. این سیستم‌ها از پایگاه‌های داده رابطه‌ای مانند SQL Server، Oracle، MySQL و IBM DB2 برای ذخیره ساختاریافته داده‌ها استفاده می‌کنند. داده‌های ذخیره شده در پایگاه‌های داده و انبارهای داده می‌توانند به عنوان منبعی برای تحلیل استفاده شوند. به عنوان مثال، داده‌های سیستم تراکنش‌های خرده‌فروشی می‌توانند برای تحلیل فروش در مناطق مختلف و داده‌های یک سیستم مدیریت ارتباط با مشتری می‌توانند برای پیش‌بینی فروش استفاده شوند. در خارج از سازمان، مجموعه داده‌های عمومی و خصوصی دیگری نیز وجود دارد. به عنوان مثال، سازمان‌های دولتی به طور مداوم مجموعه داده‌های جمعیتی و اقتصادی را منتشر می‌کنند. سپس شرکت‌هایی وجود دارند که داده‌های خاصی را می‌فروشند، به عنوان مثال، داده‌های نقطه فروش یا داده‌های مالی یا داده‌های آب و هوا، که کسب‌وکارها می‌توانند از آن‌ها برای تعریف استراتژی، پیش‌بینی تقاضا و تصمیم‌گیری در مورد توزیع یا تبلیغات بازاریابی و موارد دیگر استفاده کنند. چنین مجموعه داده‌هایی معمولاً به صورت فایل‌های مسطح، فایل‌های صفحه گسترده یا اسناد XML در دسترس قرار می‌گیرند. فایل‌های مسطح، داده‌ها را در قالب متن ساده ذخیره می‌کنند، با یک رکورد یا ردیف در هر خط، و هر مقدار با جداکننده‌هایی مانند کاما، نقطه کاما یا تب از هم جدا می‌شود. داده‌ها در یک فایل مسطح، برخلاف پایگاه‌های داده رابطه‌ای که شامل چندین جدول هستند، به یک جدول واحد نگاشت می‌شوند. یکی از رایج‌ترین فرمت‌های فایل مسطح، CSV است که در آن مقادیر با کاما از هم جدا می‌شوند. فایل‌های صفحه گسترده نوع خاصی از فایل‌های مسطح هستند که داده‌ها را در قالب جدولی - ردیف‌ها و ستون‌ها - سازماندهی می‌کنند. اما یک صفحه گسترده می‌تواند شامل چندین کاربرگ باشد و هر کاربرگ می‌تواند به یک جدول متفاوت نگاشت شود. اگرچه داده‌ها در صفحات گسترده به صورت متن ساده هستند، اما فایل‌ها می‌توانند در قالب‌های سفارشی ذخیره شوند و شامل اطلاعات اضافی مانند قالب‌بندی، فرمول‌ها و غیره باشند. مایکروسافت اکسل که داده‌ها را با فرمت XLS یا XLSX ذخیره می‌کند، احتمالاً رایج‌ترین صفحه گسترده است. سایر نرم‌افزارها شامل Google sheets، Apple Numbers و LibreOffice هستند. فایل‌های XML حاوی مقادیر داده‌ای هستند که با استفاده از برچسب‌ها شناسایی یا علامت‌گذاری می‌شوند. در حالی که داده‌ها در فایل‌های مسطح "مسطح" هستند یا به یک جدول واحد نگاشت می‌شوند، فایل‌های XML می‌توانند از ساختارهای داده پیچیده‌تری مانند سلسله مراتبی پشتیبانی کنند. برخی از کاربردهای رایج XML شامل داده‌های حاصل از نظرسنجی‌های آنلاین، صورت‌حساب‌های بانکی و سایر مجموعه داده‌های بدون ساختار است. بسیاری از ارائه‌دهندگان داده و وب‌سایت‌ها، APIها یا رابط‌های برنامه کاربردی و سرویس‌های وب را ارائه می‌دهند که چندین کاربر یا برنامه می‌توانند با آن‌ها تعامل داشته باشند و داده‌ها را برای پردازش یا تحلیل دریافت کنند. APIها و سرویس‌های وب معمولاً به درخواست‌های ورودی گوش می‌دهند که می‌تواند به صورت درخواست‌های وب از کاربران یا درخواست‌های شبکه از برنامه‌ها باشد و داده‌ها را به صورت متن ساده، XML، HTML، JSON یا فایل‌های رسانه‌ای برمی‌گردانند. بیایید به چند نمونه محبوب از APIهایی که به عنوان منبع داده برای تحلیل داده‌ها استفاده می‌شوند، نگاهی بیندازیم: استفاده از APIهای توییتر و فیس‌بوک برای تهیه داده‌ها از توییت‌ها و پست‌ها برای انجام کارهایی مانند کاوش افکار یا تحلیل احساسات، که خلاصه کردن میزان قدردانی و انتقاد در مورد یک موضوع خاص، مانند سیاست‌های یک دولت، یک محصول، یک سرویس یا رضایت مشتری به طور کلی است. APIهای بازار سهام که برای استخراج داده‌هایی مانند قیمت سهام و کالاها، سود هر سهم و قیمت‌های تاریخی، برای تجارت و تحلیل استفاده می‌شوند. APIهای جستجوی داده‌ها و اعتبارسنجی، که می‌توانند برای تحلیلگران داده برای پاکسازی و آماده‌سازی داده‌ها و همچنین برای مرتبط‌سازی داده‌ها بسیار مفید باشند - به عنوان مثال، برای بررسی اینکه یک کد پستی به کدام شهر یا ایالت تعلق دارد. APIها همچنین می‌توانند برای استخراج داده‌ها از منابع پایگاه داده، در داخل و خارج از سازمان استفاده می‌شوند. وب اسکرپینگ برای استخراج داده‌های مرتبط از منابع بدون ساختار استفاده می‌شود. وب اسکرپینگ که با نام‌های اسکرین اسکرپینگ، برداشت وب و استخراج داده‌های وب نیز شناخته می‌شود، امکان دانلود داده‌های خاص از صفحات وب را بر اساس پارامترهای تعریف شده فراهم می‌کند. وب اسکرپینگ‌ها می‌توانند، از جمله موارد دیگر، متن، اطلاعات تماس، تصاویر، ویدیوها، اقلام محصول را از یک وب‌سایت استخراج کنند. برخی از کاربردهای محبوب وب اسکرپینگ عبارتند از: جمع‌آوری جزئیات محصول از خرده‌فروشان، تولیدکنندگان و وب‌سایت‌های تجارت الکترونیک برای ارائه مقایسه قیمت، ایجاد سرنخ‌های فروش از طریق منابع داده عمومی، استخراج داده‌ها از پست‌ها و نویسندگان در انجمن‌ها و جوامع مختلف و جمع‌آوری مجموعه داده‌های آموزشی و آزمایشی برای مدل‌های یادگیری ماشین. برخی از ابزارهای محبوب وب اسکرپینگ شامل BeautifulSoup، Scrapy، Pandas و Selenium هستند. جریان‌های داده یکی دیگر از منابع پرکاربرد برای جمع‌آوری جریان‌های ثابت داده‌ها از منابعی مانند ابزارها، دستگاه‌ها و برنامه‌های اینترنت اشیا، داده‌های GPS از خودروها، برنامه‌های کامپیوتری، وب‌سایت‌ها و پست‌های رسانه‌های اجتماعی هستند. این داده‌ها عموماً دارای برچسب زمانی و همچنین برچسب جغرافیایی برای شناسایی جغرافیایی هستند. برخی از جریان‌های داده و روش‌هایی که می‌توان از آن‌ها استفاده کرد عبارتند از: شاخص‌های سهام و بازار برای معاملات مالی، جریان‌های معاملات خرده‌فروشی برای پیش‌بینی تقاضا و مدیریت زنجیره تأمین، فیدهای نظارتی و ویدیویی برای تشخیص تهدید، فیدهای رسانه‌های اجتماعی برای تحلیل احساسات، فیدهای داده حسگر برای نظارت بر ماشین‌آلات صنعتی یا کشاورزی، فیدهای کلیک وب برای نظارت بر عملکرد وب و بهبود طراحی و رویدادهای پرواز در زمان واقعی برای رزرو مجدد و برنامه‌ریزی مجدد. برخی از برنامه‌های محبوب مورد استفاده برای پردازش جریان‌های داده عبارتند از Apache Kafka، Apache Spark Streaming و Apache Storm. فیدهای RSS (یا Really Simple Syndication) یکی دیگر از منابع داده محبوب هستند. اینها معمولاً برای گرفتن داده‌های به‌روز از انجمن‌های آنلاین و سایت‌های خبری که داده‌ها به طور مداوم به‌روزرسانی می‌شوند، استفاده می‌شوند. با استفاده از یک فیدخوان، که رابطی است که فایل‌های متنی RSS را به جریانی از داده‌های به‌روزرسانی‌شده تبدیل می‌کند، به‌روزرسانی‌ها به دستگاه‌های کاربر ارسال می‌شوند.

منابع داده

استاد روژین ناصری

توضیحات

منابع داده برای انواع مختلف داده و ابزارها و روش‌های مناسب برای تحلیل هر نوع داده

هزینه دوره:

1,000,000 تومان300,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه

68 قسمت

1. ماژول 1-تحلیل داده چیست؟

2. ماژول 2-اکوسیستم داده

3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده

4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط

5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل

قسمت های جدید هر هفته به این دوره اضافه خواهد شد.