خلاصه و نکات مهم
خلاصه و نکات مهم
خلاصه و نکات مهم
در این درس، اطلاعات زیر را آموختهاید:
یک اکوسیستم تحلیلگر داده شامل زیرساخت، نرمافزار، ابزارها، چارچوبها و فرآیندهایی است که برای جمعآوری، پاکسازی، تحلیل، کاوش و مصورسازی دادهها استفاده میشوند.
بر اساس اینکه ساختار دادهها چقدر خوب تعریف شده است، دادهها را میتوان به صورت زیر طبقهبندی کرد:
- دادههای ساختاریافته، یعنی دادههایی که به خوبی در قالبهایی سازماندهی شدهاند که میتوانند در پایگاههای داده ذخیره شوند.
- دادههای نیمهساختاریافته، یعنی دادههایی که تا حدی سازمانیافته و تا حدی آزاد هستند.
- دادههای بدون ساختار، یعنی دادههایی که نمیتوان آنها را به طور مرسوم در ردیفها و ستونها سازماندهی کرد.
دادهها در طیف گستردهای از قالبهای فایل، مانند فایلهای متنی با جداکننده، صفحات گسترده، XML، PDF و JSON، ارائه میشوند که هر کدام لیست مزایا و محدودیتهای استفاده خود را دارند. دادهها از منابع داده متعددی استخراج میشوند، از پایگاههای داده رابطهای و غیررابطهای گرفته تا APIها، سرویسهای وب، جریانهای داده، پلتفرمهای اجتماعی و دستگاههای حسگر.
پس از شناسایی و جمعآوری دادهها از منابع مختلف، باید در یک مخزن داده قرار داده شوند تا بتوان آنها را برای تحلیل آماده کرد. نوع، قالب و منابع دادهها بر نوع مخزن دادهای که میتوان استفاده کرد، تأثیر میگذارند. متخصصان داده به مجموعهای از زبانها نیاز دارند که بتوانند به آنها در استخراج، آمادهسازی و تحلیل دادهها کمک کنند. این زبانها را میتوان به صورت زیر طبقهبندی کرد:
- زبانهای پرسوجو، مانند SQL، که برای دسترسی و دستکاری دادهها از پایگاههای داده استفاده میشوند.
- زبانهای برنامهنویسی مانند پایتون، R و جاوا، برای توسعه برنامهها و کنترل رفتار برنامهها.
- زبانهای Shell و اسکریپتنویسی، مانند Unix/Linux Shell و PowerShell، برای خودکارسازی وظایف عملیاتی تکراری.