صفحه اصلی

پایتون برای علوم داده، هوش مصنوعی و توسعه

کار با فرمت‌های فایل مختلف

کار با فرمت‌های فایل مختلف

🔒

محتوای دوره

مشاهده ویدیو قفل است

برای مشاهده مشاهده ویدیو، ابتدا این دوره را خریداری کنید.

اگر قبلاً این دوره را خریداری کرده‌اید، وارد حساب خود شوید.

متن فیلم

به کار با فرمت‌های مختلف فایل خوش آمدید. بعد از تماشای این ویدئو شما می‌تونید‌ فرمت‌های مختلف فایل مانند csv، xml و json رو تعریف کنید. همچنین می‌تونید‌ برنامه‌ ساده‌ای بنویسید که داده‌ها رو بخونه و خروجی بده. به علاوه شما می‌تونید‌ فهرستی از کتابخانه‌های پایتون مورد نیاز برای استخراج داده رو بنویسید. هنگام جمع‌آوری داده‌ها، متوجه خواهید شد که فرمت‌های فایل مختلفی وجود دارد که برای تکمیل یک داستان یا تحلیل داده محور باید جمع‌آوری یا خوانده شوند. هنگام جمع‌آوری داده‌ها، پایتون می‌تواند فرآیند را با کتابخانه‌های از پیش تعریف شده خود ساده‌تر کند، اما قبل از اینکه پایتون را بررسی کنیم، باید ابتدا برخی از فرمت‌های مختلف فایل را بررسی کنیم. هنگام نگاه کردن به نام فایل، یک extension (انشعاب) را در انتهای عنوان مشاهده خواهید کرد. این انشعاب‌ها به شما اجازه می‌دهند بدانید نوع فایل چه است و برای باز کردن آن چه چیزی نیاز دارید. به عنوان مثال اگر عنوانی مانند «FileExample.csv» را ببینید، می‌دانید که این یک فایل «csv» است. این تنها یک نمونه از انواع مختلف فایل است زیرا بسیاری دیگر مانند «json» یا «xml» نیز وجود دارد. هنگام مواجهه با این فرمت‌های مختلف فایل و تلاش برای دسترسی به داده‌های آنها، باید از کتابخانه‌های پایتون استفاده کنیم تا این فرآیند را آسان‌تر کنیم. اولین کتابخانه پایتون که باید با آن آشنا شد، Pandas نامیده می‌شود. با ایمپورت کردن این کتابخانه در ابتدای کد می‌توانیم به راحتی انواع مختلف فایل‌ها را بخوانیم. از آنجا که اکنون کتابخانه Pandas را ایمپورت کرده‌ایم، بیایید از آن برای خواندن اولین فایل «csv» استفاده کنیم. در این مورد ما با فایل «FileExample.csv» مواجه شده‌ایم. اولین مرحله این است که فایل را به یک متغیر اختصاص دهید. سپس متغیر دیگری برای خواندن فایل با کمک کتابخانه Pandas ایجاد کنید. سپس می‌توانیم تابع read_csv را برای نمایش خروجی داده‌ها در صفحه نمایش بخوانیم. در این مثال هیچ هدری برای داده‌ها وجود نداشت بنابراین خط اول را به عنوان هدر اضافه کرد. از آنجا که ما نمی‌خواهیم اولین خط داده‌ها را به عنوان هدر بگذاریم، بیایید بفهمیم چگونه می‌توان این مسئله را حل کرد. اکنون که یاد گرفتیم که چگونه داده‌ها را از یک فایل «csv» بخوانیم و آنها را به خروجی بفرستیم، اجازه دهید کاری کنیم که کمی‌سازماندهی‌تر به نظر برسد. در آخرین مثال ما قادر بودیم داده‌ها را چاپ کنیم اما از آنجا که فایل هیچ هدری نداشت، اولین خط داده را به عنوان یک هدر چاپ کرد. ما این را به راحتی با اضافه کردن یک ویژگی dataframe حل می‌کنیم. ما از متغیر «df» برای فراخوانی فایل استفاده می‌کنیم و سپس ویژگی «columns» را اضافه می‌کنیم. با افزودن این یک خط به برنامه‌مان می‌توانیم خروجی داده‌ها را به طور منظم در هدر‌های مشخص شده برای هر ستون سازماندهی کنیم. فرمت فایل بعدی که ما بررسی خواهیم کرد فرمت فایل «json» است. در این نوع فایل، متن به یک فرمت داده مستقل از زبان نوشته می‌شود و شبیه دیکشنری پایتون است. اولین قدم در خواندن این نوع فایل ایمپورت کردن json است. پس از ایمپورت کردن «json» می‌توانیم یک خط را برای باز کردن فایل اضافه کنیم، ویژگیload» » «json» را برای شروع و خواندن فایل فراخوانی می‌کنیم و در نهایت می‌توانیم فایل را چاپ کنیم. فرمت فایل بعدی «xml» است. این نوع فایل به عنوان Extensible Markup Language (زبان علامت گذاری قابل توسعه) نیز شناخته می‌شود. از آنجا که کتابخانه Pandas ویژگیی برای خواندن این نوع فایل ندارد، بیایید نحوه تجزیه این نوع فایل را بررسی کنیم. اولین قدم برای خواندن این نوع فایل، ایمپورت کردن xml است. با ایمپورت کردن این کتابخانه می‌توانیم از ویژگی «etree» برای تجزیه فایل «xml» استفاده کنیم. ما سپس هدر ستون را اضافه می‌کنیم و سپس به دیتافریم اختصاص می‌دهیم. سپس یک حلقه ایجاد کنید تا سند را پیمایش و داده‌های لازم را جمع‌آوری کرده و آنها را به یک دیتافریم اضافه کند. در این ویدئو یاد گرفتید که چگونه انواع مختلف فایل‌ها را تشخیص دهیم چگونه از کتابخانه‌های پایتون برای استخراج داده‌ها استفاده کنیم چگونه از دیتافرم‌ها هنگام جمع آوری داده‌ها استفاده کنیم

کار با فرمت‌های فایل مختلف

استاد روژین ناصری

توضیحات

پس از تماشای این ویدیو، قادر خواهید بود: - فرمت‌های فایل مختلف مانند csv، xml و json را تعریف کنید. - برنامه‌های ساده‌ای بنویسید که داده‌ها را بخوانند و خروجی دهند. - لیستی از کتابخانه‌های پایتون مورد نیاز برای استخراج داده ارائه دهید.

دسترسی محدود

برای مشاهده کامل این قسمت، دوره را تهیه کنید

پس از خرید، به همه قسمت‌های این دوره دسترسی خواهید داشت.

هزینه دوره40٪ تخفیف

1,000,000 تومان600,000 تومان

فهرست دوره

پایتون برای علوم داده، هوش مصنوعی و توسعه

9 ساعت و 44 دقیقه

77 قسمت