
متن فیلم
در این ویدیو، با روشها و ابزارهای مختلف موجود برای جمعآوری دادهها از منابع داده مختلفی که قبلاً در این دوره در مورد اونها صحبت کردیم - مانند پایگاههای داده، وب، دادههای حسگر، تبادل دادهها و چندین منبع دیگر که برای نیازهای خاص داده استفاده میشن - آشنا میشیم. همچنین وارد کردن دادهها به انواع مختلف مخازن داده رو یاد میگیریم. SQL یا زبان پرسوجوی ساختاریافته، یک زبان پرسوجو است که برای استخراج اطلاعات از پایگاههای داده رابطهای استفاده میشود. SQL دستورات سادهای را برای مشخص کردن آنچه که باید از پایگاه داده بازیابی شود، جدولی که باید از آن استخراج شود، گروهبندی رکوردها با مقادیر منطبق، تعیین توالی نمایش نتایج پرسوجو و محدود کردن تعداد نتایجی که میتوانند توسط پرسوجو بازگردانده شوند، در میان مجموعهای از ویژگیها و قابلیتهای دیگر ارائه میدهد. پایگاههای داده غیررابطهای را میتوان با استفاده از SQL یا ابزارهای پرسوجوی مشابه SQL پرسوجو کرد. برخی از پایگاههای داده غیررابطهای با ابزارهای پرسوجوی مخصوص به خود مانند CQL برای Cassandra و GraphQL برای Neo4J ارائه میشوند. رابطهای برنامهنویسی کاربردی (یا APIها) نیز به طور رایج برای استخراج دادهها از منابع مختلف داده استفاده میشوند. APIها از برنامههایی که به دادهها نیاز دارند و به یک نقطه پایانی حاوی دادهها دسترسی دارند، فراخوانی میشوند. نقاط پایانی میتوانند شامل پایگاههای داده، سرویسهای وب و بازارهای داده باشند. APIها همچنین برای اعتبارسنجی دادهها استفاده میشوند. به عنوان مثال، یک تحلیلگر داده ممکن است از یک API برای اعتبارسنجی آدرسهای پستی و کدهای پستی استفاده کند. وب اسکرپینگ، که به عنوان اسکرین اسکرپینگ یا برداشت وب نیز شناخته میشود، برای دانلود دادههای خاص از صفحات وب بر اساس پارامترهای تعریف شده استفاده میشود. وب اسکرپینگ برای استخراج دادههایی مانند متن، اطلاعات تماس، تصاویر، ویدیوها، پادکستها و اقلام محصول از ویژگی وب استفاده میشود. فیدهای RSS منبع دیگری هستند که معمولاً برای گرفتن دادههای بهروز شده از انجمنهای آنلاین و سایتهای خبری استفاده میشوند که در آنها دادهها به طور مداوم بهروزرسانی میشوند. جریانهای داده منبع محبوبی برای جمعآوری جریانهای ثابت دادههای جاری از منابعی مانند ابزارها، دستگاهها و برنامههای IoT و دادههای GPS از خودروها هستند. جریانها و فیدهای داده همچنین برای استخراج دادهها از سایتهای رسانههای اجتماعی و پلتفرمهای تعاملی استفاده میشوند. پلتفرمهای تبادل داده امکان تبادل دادهها بین ارائهدهندگان داده و مصرفکنندگان داده را فراهم میکنند. تبادل دادهها مجموعهای از استانداردها، پروتکلها و قالبهای تبادل کاملاً تعریفشده مربوط به تبادل دادهها را دارند. این پلتفرمها نه تنها تبادل دادهها را تسهیل میکنند، بلکه تضمین میکنند که امنیت و حاکمیت حفظ شود. آنها گردشهای کاری صدور مجوز دادهها، عدم شناسایی و محافظت از اطلاعات شخصی، چارچوبهای قانونی و یک محیط تحلیلی قرنطینهشده را ارائه میدهند. نمونههایی از پلتفرمهای تبادل داده محبوب شامل AWS Data Exchange، Crunchbase، Lotame و Snowflake هستند. منابع داده متعدد دیگری را میتوان برای نیازهای خاص داده مورد استفاده قرار داد. به عنوان مثال، برای روندهای بازاریابی و هزینههای تبلیغات، شرکتهای تحقیقاتی مانند Forrester و Business Insider به ارائه دادههای قابل اعتماد شناخته شدهاند. شرکتهای تحقیقاتی و مشاورهای مانند Gartner و Forrester منابع بسیار معتبری برای راهنماییهای استراتژیک و عملیاتی هستند. به طور مشابه، نامهای معتبر زیادی در زمینه دادههای رفتار کاربر، استفاده از موبایل و وب، بررسیهای بازار و مطالعات جمعیتشناختی وجود دارد. دادههایی که از منابع داده مختلف شناسایی و جمعآوری شدهاند، اکنون باید قبل از بررسی، استخراج و تحلیل، در یک مخزن داده بارگذاری یا وارد شوند. فرآیند وارد کردن شامل ترکیب دادهها از منابع مختلف برای ارائه یک نمای ترکیبی و یک رابط واحد است که با استفاده از آن میتوانید دادهها را جستجو و دستکاری کنید. بسته به نوع داده، حجم دادهها و نوع مخزن مقصد، ممکن است به ابزارها و روشهای مختلفی نیاز داشته باشید. مخازن داده خاص برای انواع خاصی از دادهها بهینه شدهاند. پایگاههای داده رابطهای، دادههای ساختاریافته را با یک طرحواره (schema) خوشتعریف ذخیره میکنند. اگر از یک پایگاه داده رابطهای به عنوان سیستم مقصد استفاده میکنید، فقط میتوانید دادههای ساختاریافته مانند دادههای سیستمهای OLTP، صفحات گسترده، فرمهای آنلاین، حسگرها، شبکه و گزارشهای وب را ذخیره کنید. دادههای ساختاریافته همچنین میتوانند در NoSQL ذخیره شوند. دادههای نیمه ساختاریافته، دادههایی هستند که برخی از ویژگیهای سازمانی را دارند اما یک طرحواره سفت و سخت ندارند، مانند دادههای ایمیلها، XML، فایلهای فشرده، فایلهای اجرایی باینری و پروتکلهای TCP/IP. دادههای نیمه ساختاریافته را میتوان در خوشههای NoSQL ذخیره کرد. XML و JSON معمولاً برای ذخیره و تبادل دادههای نیمه ساختاریافته استفاده میشوند. JSON همچنین نوع داده ترجیحی برای سرویسهای وب است. دادههای بدون ساختار، دادههایی هستند که ساختار ندارند و نمیتوان آنها را در یک طرحواره سازماندهی کرد، مانند دادههای صفحات وب، فیدهای رسانههای اجتماعی، تصاویر، ویدیوها، اسناد، گزارشهای رسانهای و نظرسنجیها. پایگاههای داده NoSQL و دریاچههای داده گزینه خوبی برای ذخیره و دستکاری حجم زیادی از دادههای بدون ساختار ارائه میدهند. دریاچههای داده میتوانند انواع دادهها و طرحها را در خود جای دهند. ابزارهای ETL و خطوط لوله داده، توابع خودکاری را ارائه میدهند که فرآیند وارد کردن دادهها را تسهیل میکنند. ابزارهایی مانند Talend و Informatica و زبانهای برنامهنویسی مانند Python و R و کتابخانههای آنها به طور گسترده برای وارد کردن دادهها استفاده میشوند.
نحوه جمعآوری و وارد کردن دادهها
توضیحات
روشها و ابزارهای مختلف موجود برای جمعآوری دادهها از منابع داده مختلف