
متن فیلم
حالا که در مورد اهمیت کیفیت دادهها و حریم خصوصی دادهها یاد گرفتیم، در این ویدیو یاد میگیریم که چطور با دادههای نادرست برخورد کنیم و چطور ردیفهای خالی یا دادههای تکراری رو حذف کنیم. هنگام جمعآوری یا وارد کردن دادهها - چه از طریق فرآیندهای دستی و چه خودکار – بسیار رایج است که خطاها و ناسازگاریهایی در دادههای خود مشاهده کنید. این میتواند به سادگی اشتباهات املایی، فضای خالی اضافی یا حروف بزرگ و کوچک اشتباه استفاده شده در متن، ردیفهای خالی یا مقادیر از دست رفته در دادههای شما، دادههای نادرست یا تکراری باشد. وجود این خطاها و ناسازگاریها در دادههای شما میتواند منجر به مشکلاتی در فرمولهایی شود که کار نمیکنند، با عملیات مرتبسازی و فیلتر ناموفق و در نتیجه یافتههای دادههایی که به طور ناکافی مصورسازی و ارائه شدهاند. این خطاها و ناسازگاریهای دادهها، شما را ملزم میکند که نوعی روال پاکسازی دادهها را برای بهبود کیفیت و قابلیت استفاده دادهها انجام دهید. بیایید با یکی از آسانترین این کارها، یعنی بررسی املا، شروع کنیم. در اکسل، این تقریباً به همان روشی کار میکند که ممکن است قبلاً در برنامههایی مانند مایکروسافت ورد یا سایر برنامههای رایج پردازش متن با آن مواجه شده باشید. من در اینجا دادههایی مربوط به فروش وسایل نقلیه اسباببازی دارم و اولین کاری که باید انجام دهیم این است که انتخاب کنیم کدام دادهها را میخواهیم از نظر املایی بررسی کنیم. در این مورد، ستون K را که شامل دادههای خط تولید است، امتحان خواهیم کرد. سپس روی Spelling که در برگه Review است کلیک میکنیم. خب، به نظر میرسد که مشکلی نیست، پس بیایید اطلاعات کشور را در ستون T امتحان کنیم. ما در اینجا خطایی داریم که در آن نام یک کشور اشتباه نوشته شده است، یا به احتمال زیاد، اشتباه تایپ شده است. اگر از پیشنهاد املایی راضی هستیم، فقط روی Change کلیک میکنیم، یا میتوانیم پیشنهاد دیگری را از لیست انتخاب کنیم، یا حتی اگر میدانیم دادهها صحیح هستند، این خطا را نادیده میگیریم، اما در این مورد آن را تغییر خواهیم داد. در اینجا یک اشتباه تایپی دیگر برای نام یک کشور وجود دارد و در اینجا یکی دیگر. خب، به نظر میرسد که همه خطاهای این ستون همینها هستند، بیایید ستون آخر را که اندازه معامله در ستون X است، امتحان کنیم. در اینجا یک غلط املایی برای کلمه small و یک غلط املایی برای کلمه medium وجود دارد. به نظر میرسد که همه اینها برای این ستون است. ناسازگاری بعدی که به دنبال آن خواهیم بود، ردیفهای خالی است. ردیفهای خالی در دادههای شما میتوانند مشکلات زیادی در رابطه با جابجایی در دادهها، کار با فرمولها و مرتبسازی و فیلتر کردن ایجاد کنند. بنابراین، حذف آنها از دادههای شما بسیار مهم است. اگر از درس قبلی به یاد داشته باشید، وقتی فلش پایینCTRL + را کلیک میکنیم، باید ما را به انتهای آن ستون از دادهها ببرد، اما توجه کنید که اگر این کار را در این مجموعه داده انجام دهیم، مکاننما وقتی به یک ردیف خالی میرسد، متوقف میشود، به این معنی که مجموعه داده اساساً به چندین بخش تقسیم شده است که توسط این ردیفهای خالی از هم جدا شدهاند. این خوب نیست، پس باید آن را حل کنیم. ما چند گزینه داریم؛ یک گزینه این است که به صورت دستی در صفحه به پایین اسکرول کنید و به دنبال ردیفهای خالی بگردید و هر کدام را حذف کنید، که اگر فقط مقدار کمی داده داشته باشید، انجام آن خوب و آسان است، اما تصور کنید که با صدها یا هزاران یا حتی دهها هزار ردیف سر و کار دارید؟ این یک فرآیند بسیار پر زحمت و زمانبر خواهد بود. یک راه بسیار بهتر وجود دارد - که شامل انتخاب همه دادههای ما با استفاده از ماوس یا با استفاده از میانبر صفحه کلید CTRL+SHIFT+END است. سپس نماد فیلتر را در سربرگ داده انتخاب میکنیم. اکنون میتوانیم ببینیم که هر ستون یک نماد فیلتر در کنار سربرگ ستون دارد. اگر ستون فیلتر نام مشتری را در ستون M انتخاب کنیم، علامت انتخاب همه را برداریم و سپس به پایین لیست برویم، میتوانیم موردی به نام Blanks را علامت بزنیم و سپس روی تأیید کلیک کنیم. اکنون فقط ردیفهای خالی در بالای صفحه ما نشان داده میشوند. دیدن این موضوع میتواند بسیار دشوار باشد، اما اگر به شماره ردیفها نگاه کنید، میتوانید ببینید که ردیفهای ۲۸، ۲۹، ۶۵، ۷۳، ۷۴، ۷۵ و ۱۱۷ در بالا فهرست شدهاند و با متن آبی برجسته شدهاند. اکنون میتوانیم این ردیفها را انتخاب کنیم، یا با استفاده از ماوس یا با رفتن به اولین سلول در اولین ردیف داده، که A28 است، و سپس با استفاده از میانبر صفحه کلید CTRL+SHIFT+END و حذف ردیفهای خالی مزاحم. سپس باید فیلتر را پاک کنیم و آن را خاموش کنیم تا بتوانیم دوباره دادههای خود را مشاهده کنیم. حال، اگر به اولین ردیف در بالای برگه داده برگردیم و دوباره میانبر فلش پایینCTRL + را امتحان کنیم تا به انتهای ستون دادهها برویم، کار خواهد کرد. ناسازگاری بعدی که به دنبال آن خواهیم بود، ردیفهای تکراری دادههاست. وجود ردیفهای تکراری داده در دادههای وارد شده شما بسیار رایج است که یا به دلیل خطای ورودی انسانی یا خطا در فرآیند وارد کردن ایجاد میشود. دو روش برای انجام این کار در اکسل وجود دارد؛ روش اول شامل بررسی دادههایی است که قصد حذف آنها را دارید تا مطمئن شوید که دادههای صحیح را حذف میکنید. این روش ترجیحی ما است زیرا سطح بیشتری از امنیت دادهها را فراهم میکند. روش دوم، که آن را نیز به شما نشان خواهیم داد، سادهتر است، زیرا ابتدا دادههایی را که قرار است حذف شوند بررسی نمیکنید، اما فاقد امنیت روش اول است. مهم است که ستونی از دادهها را انتخاب کنید که انتظار نداشته باشید مقادیر تکراری در آن وجود داشته باشد. برای مثال، اگر ستون Price Eachcolumn را که C است در نظر بگیریم، انتظار داریم تعداد زیادی از این مقادیر تکرار شوند، زیرا قیمت واحد برخی از محصولات یکسان است، بنابراین این مثال بدی از ستونی است که برای یافتن مقادیر تکراری استفاده میشود. در عوض، بیایید از ستون Sales در ستون «E» استفاده کنیم، زیرا احتمال تکرار این مقادیر در روند عادی کارها بسیار کمتر است، زیرا آنها کل فروش برای هر سفارش هستند. بنابراین، ستون را انتخاب میکنیم... و «قالببندی شرطی»، سپس Highlight Cells Rules و سپس Duplicate Values را انتخاب میکنیم. وقتی روی تأیید کلیک میکنیم و به پایین صفحه اسکرول میکنیم، میبینیم که فقط چند مقدار به عنوان مقادیر تکراری شناسایی شدهاند. به نظر میرسد مقادیر تکراری در ردیفهای ۳۶ تا ۴۰ و در ردیفهای ۷۴ تا ۷۸ وجود دارد. اگر بزرگنمایی کنیم تا بتوانیم هر دو بخش تکراری را با هم ببینیم. به نظر میرسد که اینها در واقع دقیقاً ورودیهای تکراری هستند و احتمالاً یک خطای ورودی هستند. بیایید بخش دوم ردیفهای تکراری را حذف کنیم زیرا خارج از ترتیب هستند؛ زیرا مربوط به فروش موتورسیکلت هستند و در بخش Ships برگه قرار دارند. بنابراین، این اولین و توصیهشدهترین روش برای حذف ردیفهای تکراری دادهها بود که ابتدا دادههایی را که باید حذف شوند، پیشنمایش میکند. اکنون، بیایید روش دوم، سادهتر اما با امنیت کمتر را امتحان کنیم. به بزرگنمایی ۱۰۰٪ و به بالای برگه کار برمیگردیم. این بار، کل برگه داده را انتخاب میکنیم و در تب دادهها، با دکمه Remove Duplicates موارد تکراری را حذف میکنیم. سپس همه ستونها را از حالت انتخاب خارج، و فقط ستون Sales را انتخاب میکنیم. و ردیفهای تکراری حذف میشوند. آخرین فرآیند پاکسازی که در این ویدیو به آن خواهیم پرداخت، استفاده از ویژگی Find and Replace برای اصلاح برخی از نامهای خانوادگی اشتباه در ستون customer contacts است. ابزارهای Find and Replace در زیر Find & Select در سربرگ Home در اکسل قرار دارند و اگر از سایر محصولات آفیس مانند ورد استفاده کردهاید، باید از قبل برای شما آشنا باشد. ما ایمیلی از یک مشتری سوئدی دریافت کردهایم که به ما اطلاع میدهد نام خانوادگی او در برگههای سفارشش به اشتباه نوشته شده است. بنابراین، نام خانوادگی با املای اشتباه را در کادر Find what تایپ میکنیم و روی Next کلیک میکنیم، سپس دوباره روی آن کلیک میکنیم تا چندین ورودی نادرست را ببینیم. اگر روی Find All کلیک کنیم، همه موارد فهرست میشوند و میتوانیم تب Replace را باز کنیم تا نامی را برای جایگزینی املای نادرست وارد کنیم. نام خانوادگی او باید لارسون با دو «s» باشد، بنابراین همه موارد را با املای اصلاحشده جایگزین میکنیم. این بهتر به نظر میرسد و کار ما تمام است. در این ویدیو، یاد گرفتیم که چگونه با دادههای نادرست برخورد کنیم، چگونه ردیفهای خالی و چگونه دادههای تکراری را حذف کنیم. در ویدیوی بعدی، به تغییر حروف متن، رفع خطاهای قالببندی تاریخ و حذف فضای خالی از دادهها خواهیم پرداخت.
حذف دادههای تکراری یا نادرست و ردیفهای خالی
توضیحات
در این ویدیو یاد میگیریم که چطور با دادههای نادرست برخورد کنیم و چطور ردیفهای خالی یا دادههای تکراری را حذف کنیم.