
متن فیلم
منابع داده برای تحلیل که خیلی هم متنوع هستند شامل پایگاههای داده رابطهای، فایلهای مسطح و صفحهگسترده، فایلهای XML، APIها و سرویسهای وب، وب اسکرپینگ، جریانهای داده و فیدهای RSS هستند. این منابع دادههای ساختاریافته، نیمهساختاریافته و بدون ساختار را ارائه میدهند و بسته به نوع داده و هدف تحلیل، ابزارها و روشهای مناسب رو برای جمعآوری و پردازش فراهم میکنند. همانطور که در یکی از ویدیوهای قبلی خود به آن اشاره کردیم، منابع داده هرگز به اندازه امروز پویا و متنوع نبودهاند. در این ویدیو، به برخی از منابع رایج مانند: پایگاههای داده رابطهای، فایلهای مسطح و مجموعه دادههای XML، APIها و سرویسهای وب، Web Scraping، جریانهای داده و Feedها خواهیم پرداخت. معمولاً سازمانها برنامههای داخلی دارند که از آنها در مدیریت فعالیتهای روزمره تجاری، تراکنشهای مشتری، فعالیتهای منابع انسانی و گردشهای کاری خود پشتیبانی میکنند. این سیستمها از پایگاههای داده رابطهای مانند SQL Server، Oracle، MySQL و IBM DB2 برای ذخیره ساختاریافته دادهها استفاده میکنند. دادههای ذخیره شده در پایگاههای داده و انبارهای داده میتوانند به عنوان منبعی برای تحلیل استفاده شوند. به عنوان مثال، دادههای سیستم تراکنشهای خردهفروشی میتوانند برای تحلیل فروش در مناطق مختلف و دادههای یک سیستم مدیریت ارتباط با مشتری میتوانند برای پیشبینی فروش استفاده شوند. در خارج از سازمان، مجموعه دادههای عمومی و خصوصی دیگری نیز وجود دارد. به عنوان مثال، سازمانهای دولتی به طور مداوم مجموعه دادههای جمعیتی و اقتصادی را منتشر میکنند. سپس شرکتهایی وجود دارند که دادههای خاصی را میفروشند، به عنوان مثال، دادههای نقطه فروش یا دادههای مالی یا دادههای آب و هوا، که کسبوکارها میتوانند از آنها برای تعریف استراتژی، پیشبینی تقاضا و تصمیمگیری در مورد توزیع یا تبلیغات بازاریابی و موارد دیگر استفاده کنند. چنین مجموعه دادههایی معمولاً به صورت فایلهای مسطح، فایلهای صفحه گسترده یا اسناد XML در دسترس قرار میگیرند. فایلهای مسطح، دادهها را در قالب متن ساده ذخیره میکنند، با یک رکورد یا ردیف در هر خط، و هر مقدار با جداکنندههایی مانند کاما، نقطه کاما یا تب از هم جدا میشود. دادهها در یک فایل مسطح، برخلاف پایگاههای داده رابطهای که شامل چندین جدول هستند، به یک جدول واحد نگاشت میشوند. یکی از رایجترین فرمتهای فایل مسطح، CSV است که در آن مقادیر با کاما از هم جدا میشوند. فایلهای صفحه گسترده نوع خاصی از فایلهای مسطح هستند که دادهها را در قالب جدولی - ردیفها و ستونها - سازماندهی میکنند. اما یک صفحه گسترده میتواند شامل چندین کاربرگ باشد و هر کاربرگ میتواند به یک جدول متفاوت نگاشت شود. اگرچه دادهها در صفحات گسترده به صورت متن ساده هستند، اما فایلها میتوانند در قالبهای سفارشی ذخیره شوند و شامل اطلاعات اضافی مانند قالببندی، فرمولها و غیره باشند. مایکروسافت اکسل که دادهها را با فرمت XLS یا XLSX ذخیره میکند، احتمالاً رایجترین صفحه گسترده است. سایر نرمافزارها شامل Google sheets، Apple Numbers و LibreOffice هستند. فایلهای XML حاوی مقادیر دادهای هستند که با استفاده از برچسبها شناسایی یا علامتگذاری میشوند. در حالی که دادهها در فایلهای مسطح "مسطح" هستند یا به یک جدول واحد نگاشت میشوند، فایلهای XML میتوانند از ساختارهای داده پیچیدهتری مانند سلسله مراتبی پشتیبانی کنند. برخی از کاربردهای رایج XML شامل دادههای حاصل از نظرسنجیهای آنلاین، صورتحسابهای بانکی و سایر مجموعه دادههای بدون ساختار است. بسیاری از ارائهدهندگان داده و وبسایتها، APIها یا رابطهای برنامه کاربردی و سرویسهای وب را ارائه میدهند که چندین کاربر یا برنامه میتوانند با آنها تعامل داشته باشند و دادهها را برای پردازش یا تحلیل دریافت کنند. APIها و سرویسهای وب معمولاً به درخواستهای ورودی گوش میدهند که میتواند به صورت درخواستهای وب از کاربران یا درخواستهای شبکه از برنامهها باشد و دادهها را به صورت متن ساده، XML، HTML، JSON یا فایلهای رسانهای برمیگردانند. بیایید به چند نمونه محبوب از APIهایی که به عنوان منبع داده برای تحلیل دادهها استفاده میشوند، نگاهی بیندازیم: استفاده از APIهای توییتر و فیسبوک برای تهیه دادهها از توییتها و پستها برای انجام کارهایی مانند کاوش افکار یا تحلیل احساسات، که خلاصه کردن میزان قدردانی و انتقاد در مورد یک موضوع خاص، مانند سیاستهای یک دولت، یک محصول، یک سرویس یا رضایت مشتری به طور کلی است. APIهای بازار سهام که برای استخراج دادههایی مانند قیمت سهام و کالاها، سود هر سهم و قیمتهای تاریخی، برای تجارت و تحلیل استفاده میشوند. APIهای جستجوی دادهها و اعتبارسنجی، که میتوانند برای تحلیلگران داده برای پاکسازی و آمادهسازی دادهها و همچنین برای مرتبطسازی دادهها بسیار مفید باشند - به عنوان مثال، برای بررسی اینکه یک کد پستی به کدام شهر یا ایالت تعلق دارد. APIها همچنین میتوانند برای استخراج دادهها از منابع پایگاه داده، در داخل و خارج از سازمان استفاده میشوند. وب اسکرپینگ برای استخراج دادههای مرتبط از منابع بدون ساختار استفاده میشود. وب اسکرپینگ که با نامهای اسکرین اسکرپینگ، برداشت وب و استخراج دادههای وب نیز شناخته میشود، امکان دانلود دادههای خاص از صفحات وب را بر اساس پارامترهای تعریف شده فراهم میکند. وب اسکرپینگها میتوانند، از جمله موارد دیگر، متن، اطلاعات تماس، تصاویر، ویدیوها، اقلام محصول را از یک وبسایت استخراج کنند. برخی از کاربردهای محبوب وب اسکرپینگ عبارتند از: جمعآوری جزئیات محصول از خردهفروشان، تولیدکنندگان و وبسایتهای تجارت الکترونیک برای ارائه مقایسه قیمت، ایجاد سرنخهای فروش از طریق منابع داده عمومی، استخراج دادهها از پستها و نویسندگان در انجمنها و جوامع مختلف و جمعآوری مجموعه دادههای آموزشی و آزمایشی برای مدلهای یادگیری ماشین. برخی از ابزارهای محبوب وب اسکرپینگ شامل BeautifulSoup، Scrapy، Pandas و Selenium هستند. جریانهای داده یکی دیگر از منابع پرکاربرد برای جمعآوری جریانهای ثابت دادهها از منابعی مانند ابزارها، دستگاهها و برنامههای اینترنت اشیا، دادههای GPS از خودروها، برنامههای کامپیوتری، وبسایتها و پستهای رسانههای اجتماعی هستند. این دادهها عموماً دارای برچسب زمانی و همچنین برچسب جغرافیایی برای شناسایی جغرافیایی هستند. برخی از جریانهای داده و روشهایی که میتوان از آنها استفاده کرد عبارتند از: شاخصهای سهام و بازار برای معاملات مالی، جریانهای معاملات خردهفروشی برای پیشبینی تقاضا و مدیریت زنجیره تأمین، فیدهای نظارتی و ویدیویی برای تشخیص تهدید، فیدهای رسانههای اجتماعی برای تحلیل احساسات، فیدهای داده حسگر برای نظارت بر ماشینآلات صنعتی یا کشاورزی، فیدهای کلیک وب برای نظارت بر عملکرد وب و بهبود طراحی و رویدادهای پرواز در زمان واقعی برای رزرو مجدد و برنامهریزی مجدد. برخی از برنامههای محبوب مورد استفاده برای پردازش جریانهای داده عبارتند از Apache Kafka، Apache Spark Streaming و Apache Storm. فیدهای RSS (یا Really Simple Syndication) یکی دیگر از منابع داده محبوب هستند. اینها معمولاً برای گرفتن دادههای بهروز از انجمنهای آنلاین و سایتهای خبری که دادهها به طور مداوم بهروزرسانی میشوند، استفاده میشوند. با استفاده از یک فیدخوان، که رابطی است که فایلهای متنی RSS را به جریانی از دادههای بهروزرسانیشده تبدیل میکند، بهروزرسانیها به دستگاههای کاربر ارسال میشوند.
منابع داده
توضیحات
منابع داده برای انواع مختلف داده و ابزارها و روشهای مناسب برای تحلیل هر نوع داده