متن فیلم
هر فرمت فایل ویژگیها، مزایا و محدودیتهای خاص خودش را دارد و انتخاب صحیح اون بسته به نوع داده و کاربرد تحلیل، اهمیت زیادی دارد. به عنوان یک متخصص داده، شما با انواع و فرمتهای فایلهای داده کار خواهید کرد. درک ساختار اساسی فرمتهای فایل به همراه مزایا و محدودیتهای آنها بسیار مهم است. این درک به شما کمک میکند تا در مورد فرمتهایی که برای نیازهای داده و عملکرد شما مناسبتر هستند، تصمیمات درستی بگیرید. برخی از فرمتهای استاندارد فایل که در این ویدیو به آنها خواهیم پرداخت عبارتند از: فرمتهای فایل متنی با جدا کننده، Microsoft Excel Open XML Spreadsheet، یا XLSX Extensible Markup Language، یا XML، Portable Document Format، یا PDF، JavaScript Object Notation، یا JSON. فایلهای متنی با جداکننده، فایلهای متنی هستند که برای ذخیره دادهها به صورت متن استفاده میشوند که در آنها هر خط یا ردیف دارای مقادیری است که توسط یک جداکننده از هم جدا شدهاند. در اینجا یک جداکننده دنباله ای از یک یا چند کاراکتر برای مشخص کردن مرز بین موجودیتها یا مقادیر مستقل است. از هر کاراکتری میتوان برای جدا کردن مقادیر استفاده کرد، اما رایجترین جداکنندهها کاما، تب، دونقطه، نوار عمودی و فاصله هستند. مقادیر جدا شده با کاما (یا CSV) و مقادیر جدا شده با تب (یا TSV) رایجترین انواع فایل در این دسته هستند. در CSV، جداکننده یک کاما است در حالی که در TSV، جداکننده یک تب است. وقتی کاراکتر کاما در دادههای متنی وجود دارند و بنابراین نمیتوان از آنها به عنوان جداکننده استفاده کرد، TSVها به عنوان جایگزینی برای فرمت CSV عمل میکنند. تب استاپها در متن در حال اجرا به ندرت استفاده میشوند. هر سطر یا خط افقی در فایل متنی مجموعهای از مقادیر را دارد که توسط جداکننده از هم جدا شدهاند و یک رکورد را نشان میدهند. سطر اول به عنوان سرستون عمل میکند، جایی که هر ستون میتواند نوع داده متفاوتی داشته باشد. به عنوان مثال، یک ستون میتواند از نوع تاریخ باشد، در حالی که دیگری میتواند از نوع رشته یا عدد صحیح باشد. فایلهای جداشده امکان مقادیر فیلد با هر طولی را فراهم میکنند و یک فرمت استاندارد برای ارائه طرحواره اطلاعاتی ساده در نظر گرفته میشوند. آنها میتوانند توسط تقریباً همه برنامههای موجود پردازش شوند. جداکنندهها همچنین یکی از روشهای مختلف برای مشخص کردن مرزها در یک جریان داده را نشان میدهند. Microsoft Excel Open XML Spreadsheet یک فرمت فایل Microsoft Excel Open XML است که تحت فرمت فایل صفحه گسترده قرار میگیرد. این یک فرمت فایل مبتنی بر XML است که توسط مایکروسافت ایجاد شده است. در یک فایل XLSX که به عنوان یک فایل workbook نیز شناخته میشود، میتواند چندین برگه کاری وجود داشته باشد. و هر برگه کاری به ردیفها و ستونهایی سازماندهی شده است که در تقاطع آنها سلول قرار دارد. هر سلول حاوی دادهها است. XLSX از فرمت فایل باز استفاده میکند، به این معنی که به طور کلی برای اکثر برنامههای دیگر قابل دسترسی است. میتواند از تمام توابع موجود در اکسل استفاده و آنها را ذخیره کند و همچنین به عنوان یکی از امنترین فرمتهای فایل شناخته میشود زیرا نمیتواند کد مخرب را ذخیره کند. زبان نشانهگذاری توسعهپذیر یا XML، یک زبان نشانهگذاری با قوانین تعیین شده برای رمزگذاری دادهها است. فرمت فایل XML هم توسط انسان و هم توسط ماشین قابل خواندن است. این یک زبان خودتوصیفی است که برای ارسال اطلاعات از طریق اینترنت طراحی شده است. XML از برخی جهات شبیه HTML است، اما تفاوتهایی نیز دارد. به عنوان مثال، یک فایل .XML از برچسبهای از پیش تعریف شده مانند HTML استفاده نمیکند. XML مستقل از پلتفرم و مستقل از زبان برنامهنویسی است و بنابراین اشتراکگذاری دادهها بین سیستمهای مختلف را ساده میکند. فرمت سند قابل حمل یا PDF، یک فرمت فایل است که توسط Adobe برای ارائه اسناد مستقل از نرمافزار کاربردی، سختافزار و سیستمعاملها توسعه داده شده است، به این معنی که میتوان آن را به همان شکل در هر دستگاهی مشاهده کرد. این فرمت اغلب در اسناد حقوقی و مالی استفاده میشود و همچنین میتواند برای پر کردن دادههایی مانند فرمها استفاده شود. نشانهگذاری شیء جاوا اسکریپت یا JSON، یک استاندارد باز مبتنی بر متن است که برای انتقال دادههای ساختاریافته از طریق وب طراحی شده است. این فرمت فایل، یک فرمت داده مستقل از زبان است که میتواند در هر زبان برنامهنویسی خوانده شود. استفاده از JSON آسان است، با طیف گستردهای از مرورگرها سازگار است و به عنوان یکی از بهترین ابزارها برای به اشتراک گذاری دادهها از هر اندازه و نوع، حتی صدا و تصویر، در نظر گرفته میشود. به همین دلیل است که بسیاری از APIها و سرویسهای وب، دادهها را به صورت JSON برمیگردانند.
درک انواع مختلف فرمتهای فایل
توضیحات
ساختار اساسی فرمتهای فایل به همراه مزایا و محدودیتهای آنها