
مشاهده ویدیو قفل است
برای مشاهده مشاهده ویدیو، ابتدا این دوره را خریداری کنید.
متن فیلم
به کار با فرمتهای مختلف فایل خوش آمدید. بعد از تماشای این ویدئو شما میتونید فرمتهای مختلف فایل مانند csv، xml و json رو تعریف کنید. همچنین میتونید برنامه سادهای بنویسید که دادهها رو بخونه و خروجی بده. به علاوه شما میتونید فهرستی از کتابخانههای پایتون مورد نیاز برای استخراج داده رو بنویسید. هنگام جمعآوری دادهها، متوجه خواهید شد که فرمتهای فایل مختلفی وجود دارد که برای تکمیل یک داستان یا تحلیل داده محور باید جمعآوری یا خوانده شوند. هنگام جمعآوری دادهها، پایتون میتواند فرآیند را با کتابخانههای از پیش تعریف شده خود سادهتر کند، اما قبل از اینکه پایتون را بررسی کنیم، باید ابتدا برخی از فرمتهای مختلف فایل را بررسی کنیم. هنگام نگاه کردن به نام فایل، یک extension (انشعاب) را در انتهای عنوان مشاهده خواهید کرد. این انشعابها به شما اجازه میدهند بدانید نوع فایل چه است و برای باز کردن آن چه چیزی نیاز دارید. به عنوان مثال اگر عنوانی مانند «FileExample.csv» را ببینید، میدانید که این یک فایل «csv» است. این تنها یک نمونه از انواع مختلف فایل است زیرا بسیاری دیگر مانند «json» یا «xml» نیز وجود دارد. هنگام مواجهه با این فرمتهای مختلف فایل و تلاش برای دسترسی به دادههای آنها، باید از کتابخانههای پایتون استفاده کنیم تا این فرآیند را آسانتر کنیم. اولین کتابخانه پایتون که باید با آن آشنا شد، Pandas نامیده میشود. با ایمپورت کردن این کتابخانه در ابتدای کد میتوانیم به راحتی انواع مختلف فایلها را بخوانیم. از آنجا که اکنون کتابخانه Pandas را ایمپورت کردهایم، بیایید از آن برای خواندن اولین فایل «csv» استفاده کنیم. در این مورد ما با فایل «FileExample.csv» مواجه شدهایم. اولین مرحله این است که فایل را به یک متغیر اختصاص دهید. سپس متغیر دیگری برای خواندن فایل با کمک کتابخانه Pandas ایجاد کنید. سپس میتوانیم تابع read_csv را برای نمایش خروجی دادهها در صفحه نمایش بخوانیم. در این مثال هیچ هدری برای دادهها وجود نداشت بنابراین خط اول را به عنوان هدر اضافه کرد. از آنجا که ما نمیخواهیم اولین خط دادهها را به عنوان هدر بگذاریم، بیایید بفهمیم چگونه میتوان این مسئله را حل کرد. اکنون که یاد گرفتیم که چگونه دادهها را از یک فایل «csv» بخوانیم و آنها را به خروجی بفرستیم، اجازه دهید کاری کنیم که کمیسازماندهیتر به نظر برسد. در آخرین مثال ما قادر بودیم دادهها را چاپ کنیم اما از آنجا که فایل هیچ هدری نداشت، اولین خط داده را به عنوان یک هدر چاپ کرد. ما این را به راحتی با اضافه کردن یک ویژگی dataframe حل میکنیم. ما از متغیر «df» برای فراخوانی فایل استفاده میکنیم و سپس ویژگی «columns» را اضافه میکنیم. با افزودن این یک خط به برنامهمان میتوانیم خروجی دادهها را به طور منظم در هدرهای مشخص شده برای هر ستون سازماندهی کنیم. فرمت فایل بعدی که ما بررسی خواهیم کرد فرمت فایل «json» است. در این نوع فایل، متن به یک فرمت داده مستقل از زبان نوشته میشود و شبیه دیکشنری پایتون است. اولین قدم در خواندن این نوع فایل ایمپورت کردن json است. پس از ایمپورت کردن «json» میتوانیم یک خط را برای باز کردن فایل اضافه کنیم، ویژگیload» » «json» را برای شروع و خواندن فایل فراخوانی میکنیم و در نهایت میتوانیم فایل را چاپ کنیم. فرمت فایل بعدی «xml» است. این نوع فایل به عنوان Extensible Markup Language (زبان علامت گذاری قابل توسعه) نیز شناخته میشود. از آنجا که کتابخانه Pandas ویژگیی برای خواندن این نوع فایل ندارد، بیایید نحوه تجزیه این نوع فایل را بررسی کنیم. اولین قدم برای خواندن این نوع فایل، ایمپورت کردن xml است. با ایمپورت کردن این کتابخانه میتوانیم از ویژگی «etree» برای تجزیه فایل «xml» استفاده کنیم. ما سپس هدر ستون را اضافه میکنیم و سپس به دیتافریم اختصاص میدهیم. سپس یک حلقه ایجاد کنید تا سند را پیمایش و دادههای لازم را جمعآوری کرده و آنها را به یک دیتافریم اضافه کند. در این ویدئو یاد گرفتید که چگونه انواع مختلف فایلها را تشخیص دهیم چگونه از کتابخانههای پایتون برای استخراج دادهها استفاده کنیم چگونه از دیتافرمها هنگام جمع آوری دادهها استفاده کنیم
کار با فرمتهای فایل مختلف
توضیحات
پس از تماشای این ویدیو، قادر خواهید بود: - فرمتهای فایل مختلف مانند csv، xml و json را تعریف کنید. - برنامههای سادهای بنویسید که دادهها را بخوانند و خروجی دهند. - لیستی از کتابخانههای پایتون مورد نیاز برای استخراج داده ارائه دهید.
برای مشاهده کامل این قسمت، دوره را تهیه کنید
پس از خرید، به همه قسمتهای این دوره دسترسی خواهید داشت.