
متن فیلم
در این بخش، متخصصان داده، بخشی از تجربیات شغل خود را که شامل جمعآوری، پاکسازی و آمادهسازی دادهها برای تحلیل است، با ما به اشتراک میذارند. به نظر من، بخش نسبتاً بزرگی از شغل من شامل جمعآوری، آمادهسازی و پاکسازی دادهها برای تحلیل است. من در شرکتی با یک تیم مهندسی واقعاً عالی کار میکنم. بنابراین لازم نیست این کار را به اندازه برخی دیگر از دانشمندان انجام دهم. اما با این حال، هر فردی که از نزدیک با دادهها کار میکنه، چه دانشمند داده، چه تحلیلگر داده، چه مهندسی یادگیری ماشین، واقعاً باید درک کنه که دادهها از کجا مییان. ناگزیر، هیچ مجموعه دادهای کامل نیست. همیشه اشتباهات یا خطاهای کوچکی وجود داره. بنابراین واقعاً مهمه که بخش قابل توجهی از وقت خود را صرف درک دادههای زیرخطداری که برای تولید مجموعه داده استفاده شدهاند و اینکه چه مشکلات احتمالی ممکن است با اونها به وجود بیاد، بکنید. شغل من به عنوان یک حسابدار رسمی شامل تحلیل زیادیه. صورتهای مالی، فعالیت حساب، فرآیندهای ارزیابی و کنترلها. جمعآوری اطلاعات میتونه بسیار ساده باشه، تا زمانی که اطلاعات حسابداری در یک سیستم دفتر کل یا در یک مخزن مرکزی که جمعآوری دادهها در اون آسانه قرار داشته باشه. احتمالاً حدود ۳۰ درصد کار، طرحریزی همه چیز است. بنابراین وقتی وارد تحلیل اون میشید، میتونید مستقیماً به اصل مطلب بپردازید. بنابراین باید دادهها را پیگیری کنید، مطمئن شوید که دقیق هستند، مطمئن شوید که همه چیز با هم جور در میآید. مطمئن شوید که همه اطلاعات را دارید. بنابراین، برای مثال، در صورتهای مالی، باید مطمئن شم که افراد صورتهای مالی [نامفهوم] ۱۲ ماهه رو به من دادند، هیچ دادهای رو از دست ندادم و اگر دادهای رو از دست دادم، اطلاعات کافی دارم تا بتونم بر اساس اون چیزی که دارم، پیشبینی کنم یا حتی به گذشته نگاه کنم تا اونچه را که [نامفهوم] انجام شده، تخمین بزنم. این قطعاً مفید است. در این بخش، متخصصان داده در مورد گامهایی که برای اطمینان از قابل اعتماد بودن دادهها برمیدارند، صحبت میکنند. یکی از گامهای اساسی برای اطمینان از قابل اعتماد بودن دادههای شما، اجرای آمار خلاصه روی ستونهای جداگانه در دادههای شما و اطمینان از سازگاری آنها با واقعیت است. به عنوان مثال، ستونی دارید که بازدیدهای ماهانه از یک وبسایت را ثبت میکند و آمار خلاصه را روی اون ستون اجرا میکنید، مینیمم، میانگین، میانه، ماکسیمم را دریافت میکنید و یک چیز عجیب میبینید «یک ماه بازدید منفی داشته» این دادهها قابل اعتماد نیستند. به طور خاص اطلاعات مالی باید قابل اعتماد باشند. باید بدون سوگیری باشند. باید عاری از خطا باشند. اینها تنها چند مورد از ویژگیهای بسیاری هستند که برای اتکا به دادهها ضروری هستند. بنابراین قبل از ورود به جزئیات یک تراکنش، کاری را که من بررسی منطقی مینامم انجام بدید. آیا در سطح بالا منطقی است؟ اگر انتظار داشتید درآمد اصلی افزایش یابد، اما میبینید به شدت کاهش یافته ، ابتدا آن بخش را مشخص کنید. آیا منبع من درست است؟ آیا در دوره مناسب پرس و جو را انجام میدهم؟ آیا حساب دفتر کل درستی را استخراج میکنم؟ بنابراین از آنجا شروع کنید، مطمئن شوید که ابتدا به سوالات اساسی در مورد یکپارچگی دادهها پاسخ داده شده است. وقتی بدانیم که دادهها قابل اعتماد هستند، میتوانیم شروع به بررسی عمیق کنیم و بر اساس تحلیل دادهها، در مورد عملکرد مالی نتیجهگیری کنیم.
دیدگاهها-آمادهسازی دادهها و قابلیت اطمینان
توضیحات
در این ویدیو، متخصصان داده، بخشی از تجربیات شغل خود را که شامل جمعآوری، پاکسازی و آمادهسازی دادهها برای تحلیل است، با ما به اشتراک میگذارند.