صفحه اصلی

مقدمه‌ای بر تحلیل داده

نحوه جمع‌آوری و وارد کردن داده‌ها

نحوه جمع‌آوری و وارد کردن داده‌ها

🔒

محتوای دوره

مشاهده ویدیو قفل است

برای مشاهده مشاهده ویدیو، ابتدا این دوره را خریداری کنید.

اگر قبلاً این دوره را خریداری کرده‌اید، وارد حساب خود شوید.

متن فیلم

در این ویدیو، با روش‌ها و ابزارهای مختلف موجود برای جمع‌آوری داده‌ها از منابع داده‌ مختلفی که قبلاً در این دوره در مورد اونها صحبت کردیم - مانند پایگاه‌های داده، وب، داده‌های حسگر، تبادل داده‌ها و چندین منبع دیگر که برای نیازهای خاص داده استفاده میشن - آشنا میشیم. همچنین وارد کردن داده‌ها به انواع مختلف مخازن داده رو یاد می‌گیریم. SQL یا زبان پرس‌وجوی ساختاریافته، یک زبان پرس‌وجو است که برای استخراج اطلاعات از پایگاه‌های داده رابطه‌ای استفاده می‌شود. SQL دستورات ساده‌ای را برای مشخص کردن آنچه که باید از پایگاه داده بازیابی شود، جدولی که باید از آن استخراج شود، گروه‌بندی رکوردها با مقادیر منطبق، تعیین توالی نمایش نتایج پرس‌وجو و محدود کردن تعداد نتایجی که می‌توانند توسط پرس‌وجو بازگردانده شوند، در میان مجموعه‌ای از ویژگی‌ها و قابلیت‌های دیگر ارائه می‌دهد. پایگاه‌های داده غیررابطه‌ای را می‌توان با استفاده از SQL یا ابزارهای پرس‌وجوی مشابه SQL پرس‌وجو کرد. برخی از پایگاه‌های داده غیررابطه‌ای با ابزارهای پرس‌وجوی مخصوص به خود مانند CQL برای Cassandra و GraphQL برای Neo4J ارائه می‌شوند. رابط‌های برنامه‌نویسی کاربردی (یا APIها) نیز به طور رایج برای استخراج داده‌ها از منابع مختلف داده استفاده می‌شوند. APIها از برنامه‌هایی که به داده‌ها نیاز دارند و به یک نقطه پایانی حاوی داده‌ها دسترسی دارند، فراخوانی می‌شوند. نقاط پایانی می‌توانند شامل پایگاه‌های داده، سرویس‌های وب و بازارهای داده باشند. APIها همچنین برای اعتبارسنجی داده‌ها استفاده می‌شوند. به عنوان مثال، یک تحلیلگر داده ممکن است از یک API برای اعتبارسنجی آدرس‌های پستی و کدهای پستی استفاده کند. وب اسکرپینگ، که به عنوان اسکرین اسکرپینگ یا برداشت وب نیز شناخته می‌شود، برای دانلود داده‌های خاص از صفحات وب بر اساس پارامترهای تعریف شده استفاده می‌شود. وب اسکرپینگ برای استخراج داده‌هایی مانند متن، اطلاعات تماس، تصاویر، ویدیوها، پادکست‌ها و اقلام محصول از ویژگی وب استفاده می‌شود. فیدهای RSS منبع دیگری هستند که معمولاً برای گرفتن داده‌های به‌روز شده از انجمن‌های آنلاین و سایت‌های خبری استفاده می‌شوند که در آن‌ها داده‌ها به طور مداوم به‌روزرسانی می‌شوند. جریان‌های داده منبع محبوبی برای جمع‌آوری جریان‌های ثابت داده‌های جاری از منابعی مانند ابزارها، دستگاه‌ها و برنامه‌های IoT و داده‌های GPS از خودروها هستند. جریان‌ها و فیدهای داده همچنین برای استخراج داده‌ها از سایت‌های رسانه‌های اجتماعی و پلتفرم‌های تعاملی استفاده می‌شوند. پلتفرم‌های تبادل داده امکان تبادل داده‌ها بین ارائه‌دهندگان داده و مصرف‌کنندگان داده را فراهم می‌کنند. تبادل داده‌ها مجموعه‌ای از استانداردها، پروتکل‌ها و قالب‌های تبادل کاملاً تعریف‌شده مربوط به تبادل داده‌ها را دارند. این پلتفرم‌ها نه تنها تبادل داده‌ها را تسهیل می‌کنند، بلکه تضمین می‌کنند که امنیت و حاکمیت حفظ شود. آن‌ها گردش‌های کاری صدور مجوز داده‌ها، عدم شناسایی و محافظت از اطلاعات شخصی، چارچوب‌های قانونی و یک محیط تحلیلی قرنطینه‌شده را ارائه می‌دهند. نمونه‌هایی از پلتفرم‌های تبادل داده محبوب شامل AWS Data Exchange، Crunchbase، Lotame و Snowflake هستند. منابع داده متعدد دیگری را می‌توان برای نیازهای خاص داده مورد استفاده قرار داد. به عنوان مثال، برای روندهای بازاریابی و هزینه‌های تبلیغات، شرکت‌های تحقیقاتی مانند Forrester و Business Insider به ارائه داده‌های قابل اعتماد شناخته شده‌اند. شرکت‌های تحقیقاتی و مشاوره‌ای مانند Gartner و Forrester منابع بسیار معتبری برای راهنمایی‌های استراتژیک و عملیاتی هستند. به طور مشابه، نام‌های معتبر زیادی در زمینه داده‌های رفتار کاربر، استفاده از موبایل و وب، بررسی‌های بازار و مطالعات جمعیت‌شناختی وجود دارد. داده‌هایی که از منابع داده مختلف شناسایی و جمع‌آوری شده‌اند، اکنون باید قبل از بررسی، استخراج و تحلیل، در یک مخزن داده بارگذاری یا وارد شوند. فرآیند وارد کردن شامل ترکیب داده‌ها از منابع مختلف برای ارائه یک نمای ترکیبی و یک رابط واحد است که با استفاده از آن می‌توانید داده‌ها را جستجو و دستکاری کنید. بسته به نوع داده، حجم داده‌ها و نوع مخزن مقصد، ممکن است به ابزارها و روش‌های مختلفی نیاز داشته باشید. مخازن داده خاص برای انواع خاصی از داده‌ها بهینه شده‌اند. پایگاه‌های داده رابطه‌ای، داده‌های ساختاریافته را با یک طرحواره (schema) خوش‌تعریف ذخیره می‌کنند. اگر از یک پایگاه داده رابطه‌ای به عنوان سیستم مقصد استفاده می‌کنید، فقط می‌توانید داده‌های ساختاریافته مانند داده‌های سیستم‌های OLTP، صفحات گسترده، فرم‌های آنلاین، حسگرها، شبکه و گزارش‌های وب را ذخیره کنید. داده‌های ساختاریافته همچنین می‌توانند در NoSQL ذخیره شوند. داده‌های نیمه ساختاریافته، داده‌هایی هستند که برخی از ویژگی‌های سازمانی را دارند اما یک طرحواره سفت و سخت ندارند، مانند داده‌های ایمیل‌ها، XML، فایل‌های فشرده، فایل‌های اجرایی باینری و پروتکل‌های TCP/IP. داده‌های نیمه ساختاریافته را می‌توان در خوشه‌های NoSQL ذخیره کرد. XML و JSON معمولاً برای ذخیره و تبادل داده‌های نیمه ساختاریافته استفاده می‌شوند. JSON همچنین نوع داده ترجیحی برای سرویس‌های وب است. داده‌های بدون ساختار، داده‌هایی هستند که ساختار ندارند و نمی‌توان آن‌ها را در یک طرحواره سازماندهی کرد، مانند داده‌های صفحات وب، فیدهای رسانه‌های اجتماعی، تصاویر، ویدیوها، اسناد، گزارش‌های رسانه‌ای و نظرسنجی‌ها. پایگاه‌های داده NoSQL و دریاچه‌های داده گزینه خوبی برای ذخیره و دستکاری حجم زیادی از داده‌های بدون ساختار ارائه می‌دهند. دریاچه‌های داده می‌توانند انواع داده‌ها و طرح‌ها را در خود جای دهند. ابزارهای ETL و خطوط لوله داده، توابع خودکاری را ارائه می‌دهند که فرآیند وارد کردن داده‌ها را تسهیل می‌کنند. ابزارهایی مانند Talend و Informatica و زبان‌های برنامه‌نویسی مانند Python و R و کتابخانه‌های آن‌ها به طور گسترده برای وارد کردن داده‌ها استفاده می‌شوند.

نحوه جمع‌آوری و وارد کردن داده‌ها

استاد روژین ناصری

توضیحات

روش‌ها و ابزارهای مختلف موجود برای جمع‌آوری داده‌ها از منابع داده‌ مختلف

دسترسی محدود

برای مشاهده کامل این قسمت، دوره را تهیه کنید

پس از خرید، به همه قسمت‌های این دوره دسترسی خواهید داشت.

هزینه دوره40٪ تخفیف

1,000,000 تومان600,000 تومان

فهرست دوره

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه

68 قسمت