
متن فیلم
دادهها اطلاعات خامی هستند که برای معنادار شدن نیاز به پردازش دارند. در این ویدیو ساختار داده ها رو با جزئیات بیشتری مورد بررسی قرار میدیم. دادهها اطلاعات سازمان نیافتهای هستند که برای معنادار شدن پردازش میشوند. بهطورکلی، دادهها شامل حقایق، مشاهدات، ادراکات، اعداد، کاراکترها، نمادها و تصاویری هستند که میتوانند برای استخراج معنا تفسیر شوند. یکی از راههایی که میتوان دادهها را طبقهبندی کرد، ساختار آنهاست. دادهها میتوانند: ساختاریافته؛ نیمه ساختاریافته یا بدون ساختار باشند. دادههای ساختاریافته ساختار مشخصی دارند یا به یک مدل داده مشخص پایبند هستند، میتوانند در طرحهای مشخصی مانند پایگاههای داده ذخیره شوند و در بسیاری از موارد میتوانند به صورت جدولی با ردیفها و ستونها نمایش داده شوند. دادههای ساختاریافته حقایق و اعداد عینی هستند که میتوانند در پایگاههای داده معمولی جمعآوری، صادر، ذخیره و سازماندهی شوند. برخی از منابع دادههای ساختاریافته میتوانند شامل موارد زیر باشند: پایگاههای داده SQL و سیستمهای پردازش تراکنش آنلاین (یا OLTP) که بر تراکنشهای تجاری تمرکز دارند، صفحات گسترده مانند اکسل و صفحات گسترده گوگل، فرمهای آنلاین، حسگرهایی مانند سیستمهای موقعیتیابی جهانی (یا GPS) و برچسبهای شناسایی فرکانس رادیویی (یا RFID) و گزارشهای شبکه و سرور وب. معمولاً میتوانید دادههای ساختاریافته را در پایگاههای داده رابطهای یا SQL ذخیره کنید. همچنین میتوانید به راحتی دادههای ساختاریافته را با روشها و ابزارهای استاندارد تحلیل داده بررسی کنید. دادههای نیمهساختاریافته، دادههایی هستند که برخی ویژگیهای سازمانی دارند اما فاقد یک طرحواره ثابت یا سفت و سخت هستند. دادههای نیمهساختاریافته را نمیتوان مانند پایگاههای داده به شکل ردیفها و ستونها ذخیره کرد. این دادهها شامل برچسبها و عناصر یا فرادادههایی هستند که برای گروهبندی دادهها و سازماندهی آنها در یک سلسله مراتب استفاده میشوند. برخی از منابع دادههای نیمهساختاریافته میتوانند شامل موارد زیر باشند: ایمیلها، XML و سایر زبانهای نشانهگذاری، فایلهای اجرایی دودویی، بستههای TCP/IP، فایلهای فشرده، ادغام دادهها از منابع مختلف. XML و JSON به کاربران امکان میدهند برچسبها و ویژگیهایی را برای ذخیره دادهها به صورت سلسله مراتبی تعریف کنند و به طور گسترده برای ذخیره و تبادل دادههای نیمهساختاریافته استفاده میشوند. دادههای بدون ساختار، دادههایی هستند که ساختار قابل شناسایی ندارند و بنابراین نمیتوان آنها را در یک پایگاه داده رابطهای رایج به شکل ردیفها و ستونها سازماندهی کرد. این دادهها از هیچ قالب، توالی، معناشناسی یا قانون خاصی پیروی نمیکنند. دادههای بدون ساختار میتوانند با ناهمگونی منابع سروکار داشته باشند و کاربردهای متنوعی در هوش تجاری و تحلیل دارند. برخی از منابع دادههای بدون ساختار میتوانند شامل موارد زیر باشند: صفحات وب، فیدهای رسانههای اجتماعی، تصاویر در قالبهای مختلف فایل (مانند JPEG، GIF و PNG)، فایلهای ویدیویی و صوتی، اسناد و فایلهای PDF، ارائههای پاورپوینت، گزارشهای رسانهای؛ و نظرسنجیها. دادههای بدون ساختار را میتوان در فایلها و اسناد (مانند فایل Word doc) برای تحلیل دستی یا در پایگاههای داده NoSQL که ابزارهای تحلیل خاص خود را برای بررسی این نوع دادهها دارند، ذخیره کرد. به طور خلاصه، دادههای ساختاریافته، دادههایی هستند که به خوبی در قالبهایی سازماندهی شدهاند که میتوانند در پایگاههای داده ذخیره شوند و خود را با روشها و ابزارهای استاندارد تحلیل دادهها وفق میدهند. دادههای نیمه ساختاریافته، دادههایی هستند که تا حدودی سازمانیافتهاند و برای گروهبندی و سلسله مراتب به متا تگهایی متکی هستند. و دادههای بدون ساختار، دادههایی هستند که به طور مرسوم به شکل ردیفها و ستونها در یک قالب خاص سازماندهی نشدهاند.