درک انواع مختلف فرمت‌های فایل

متن فیلم

هر فرمت فایل ویژگی‌ها، مزایا و محدودیت‌های خاص خودش را دارد و انتخاب صحیح اون بسته به نوع داده و کاربرد تحلیل، اهمیت زیادی دارد. به عنوان یک متخصص داده، شما با انواع و فرمت‌های فایل‌های داده کار خواهید کرد. درک ساختار اساسی فرمت‌های فایل به همراه مزایا و محدودیت‌های آن‌ها بسیار مهم است. این درک به شما کمک می‌کند تا در مورد فرمت‌هایی که برای نیازهای داده و عملکرد شما مناسب‌تر هستند، تصمیمات درستی بگیرید. برخی از فرمت‌های استاندارد فایل که در این ویدیو به آن‌ها خواهیم پرداخت عبارتند از: فرمت‌های فایل متنی با جدا کننده، Microsoft Excel Open XML Spreadsheet، یا XLSX Extensible Markup Language، یا XML، Portable Document Format، یا PDF، JavaScript Object Notation، یا JSON. فایل‌های متنی با جداکننده، فایل‌های متنی هستند که برای ذخیره داده‌ها به صورت متن استفاده می‌شوند که در آن‌ها هر خط یا ردیف دارای مقادیری است که توسط یک جداکننده از هم جدا شده‌اند. در اینجا یک جداکننده دنباله ای از یک یا چند کاراکتر برای مشخص کردن مرز بین موجودیت‌ها یا مقادیر مستقل است. از هر کاراکتری می‌توان برای جدا کردن مقادیر استفاده کرد، اما رایج‌ترین جداکننده‌ها کاما، تب، دونقطه، نوار عمودی و فاصله هستند. مقادیر جدا شده با کاما (یا CSV) و مقادیر جدا شده با تب (یا TSV) رایج‌ترین انواع فایل در این دسته هستند. در CSV، جداکننده یک کاما است در حالی که در TSV، جداکننده یک تب است. وقتی کاراکتر کاما در داده‌های متنی وجود دارند و بنابراین نمی‌توان از آن‌ها به عنوان جداکننده استفاده کرد، TSVها به عنوان جایگزینی برای فرمت CSV عمل می‌کنند. تب استاپ‌ها در متن در حال اجرا به ندرت استفاده می‌شوند. هر سطر یا خط افقی در فایل متنی مجموعه‌ای از مقادیر را دارد که توسط جداکننده از هم جدا شده‌اند و یک رکورد را نشان می‌دهند. سطر اول به عنوان سرستون عمل می‌کند، جایی که هر ستون می‌تواند نوع داده متفاوتی داشته باشد. به عنوان مثال، یک ستون می‌تواند از نوع تاریخ باشد، در حالی که دیگری می‌تواند از نوع رشته یا عدد صحیح باشد. فایل‌های جداشده امکان مقادیر فیلد با هر طولی را فراهم می‌کنند و یک فرمت استاندارد برای ارائه طرحواره اطلاعاتی ساده در نظر گرفته می‌شوند. آن‌ها می‌توانند توسط تقریباً همه برنامه‌های موجود پردازش شوند. جداکننده‌ها همچنین یکی از روش‌های مختلف برای مشخص کردن مرزها در یک جریان داده را نشان می‌دهند. Microsoft Excel Open XML Spreadsheet یک فرمت فایل Microsoft Excel Open XML است که تحت فرمت فایل صفحه گسترده قرار می‌گیرد. این یک فرمت فایل مبتنی بر XML است که توسط مایکروسافت ایجاد شده است. در یک فایل XLSX که به عنوان یک فایل workbook نیز شناخته می‌شود، می‌تواند چندین برگه کاری وجود داشته باشد. و هر برگه کاری به ردیف‌ها و ستون‌هایی سازماندهی شده است که در تقاطع آن‌ها سلول قرار دارد. هر سلول حاوی داده‌ها است. XLSX از فرمت فایل باز استفاده می‌کند، به این معنی که به طور کلی برای اکثر برنامه‌های دیگر قابل دسترسی است. می‌تواند از تمام توابع موجود در اکسل استفاده و آن‌ها را ذخیره کند و همچنین به عنوان یکی از امن‌ترین فرمت‌های فایل شناخته می‌شود زیرا نمی‌تواند کد مخرب را ذخیره کند. زبان نشانه‌گذاری توسعه‌پذیر یا XML، یک زبان نشانه‌گذاری با قوانین تعیین شده برای رمزگذاری داده‌ها است. فرمت فایل XML هم توسط انسان و هم توسط ماشین قابل خواندن است. این یک زبان خودتوصیفی است که برای ارسال اطلاعات از طریق اینترنت طراحی شده است. XML از برخی جهات شبیه HTML است، اما تفاوت‌هایی نیز دارد. به عنوان مثال، یک فایل .XML از برچسب‌های از پیش تعریف شده مانند HTML استفاده نمی‌کند. XML مستقل از پلتفرم و مستقل از زبان برنامه‌نویسی است و بنابراین اشتراک‌گذاری داده‌ها بین سیستم‌های مختلف را ساده می‌کند. فرمت سند قابل حمل یا PDF، یک فرمت فایل است که توسط Adobe برای ارائه اسناد مستقل از نرم‌افزار کاربردی، سخت‌افزار و سیستم‌عامل‌ها توسعه داده شده است، به این معنی که می‌توان آن را به همان شکل در هر دستگاهی مشاهده کرد. این فرمت اغلب در اسناد حقوقی و مالی استفاده می‌شود و همچنین می‌تواند برای پر کردن داده‌هایی مانند فرم‌ها استفاده شود. نشانه‌گذاری شیء جاوا اسکریپت یا JSON، یک استاندارد باز مبتنی بر متن است که برای انتقال داده‌های ساختاریافته از طریق وب طراحی شده است. این فرمت فایل، یک فرمت داده مستقل از زبان است که می‌تواند در هر زبان برنامه‌نویسی خوانده شود. استفاده از JSON آسان است، با طیف گسترده‌ای از مرورگرها سازگار است و به عنوان یکی از بهترین ابزارها برای به اشتراک گذاری داده‌ها از هر اندازه و نوع، حتی صدا و تصویر، در نظر گرفته می‌شود. به همین دلیل است که بسیاری از APIها و سرویس‌های وب، داده‌ها را به صورت JSON برمی‌گردانند.

درک انواع مختلف فرمت‌های فایل

توضیحات

ساختار اساسی فرمت‌های فایل به همراه مزایا و محدودیت‌های آن‌ها

هزینه دوره:
1,000,000 تومان300,000 تومان

مقدمه‌ای بر تحلیل داده

8 ساعت و 32 دقیقه
68 قسمت
1. ماژول 1-تحلیل داده چیست؟
2. ماژول 2-اکوسیستم داده
3. ماژول 3-جمع‌آوری و رنگل کردن (wrangle) داده
4. ماژول 4-کاوش و مصورسازی داده و نتایج ارتباط
5. ماژول 5-فرصت‌های شغلی و تحلیل داده در عمل
قسمت های جدید هر هفته به این دوره اضافه خواهد شد.