
متن فیلم
هر زبانی کاربردی دارد و متخصصان داده برای انجام وظایف خود باید با برخی از این زبانها آشنا باشند. در این ویدیو، با برخی از زبانهای مرتبط با کار متخصصان داده آشنا خواهیم شد. این زبانها را میتوان به صورت زیر دستهبندی کرد: زبانهای پرسوجو، زبانهای برنامهنویسی و اسکریپتنویسی پوسته. داشتن مهارت در حداقل یک زبان در هر دسته برای هر متخصص داده ضروری است. به طور ساده: زبانهای پرسوجو برای دسترسی و دستکاری دادهها در یک پایگاه داده طراحی شدهاند؛ به عنوان مثال، SQL، زبانهای برنامهنویسی برای توسعه برنامهها و کنترل رفتار برنامه طراحی شدهاند؛ به عنوان مثال، پایتون، R و جاوا؛ و زبانهای شل و اسکریپتنویسی، مانند یونیکس/لینوکس شل و پاورشل، برای کارهای عملیاتی تکراری و وقتگیر ایدهآل هستند. SQL یا زبان پرسوجوی ساختاریافته، یک زبان پرسوجو است که برای دسترسی و دستکاری اطلاعات از پایگاههای داده رابطهای، عمدتاً، اما نه منحصراً، طراحی شده است. میتوانیم مجموعهای از دستورالعملها را برای انجام عملیاتی مانند درج، بهروزرسانی و حذف رکوردها در یک پایگاه داده بنویسیم؛ پایگاههای داده، جداول و نماهای جدید ایجاد کنیم؛ و رویههای ذخیره شده بنویسیم - به این معنی که میتوانید مجموعهای از دستورالعملها را بنویسید و آنها را برای استفاده بعدی فراخوانی کنید. در اینجا برخی از مزایای استفاده از SQL آورده شده است: SQL قابل حمل است و میتواند مستقل از پلتفرم مورد استفاده قرار گیرد. میتواند برای پرس و جوی دادهها در طیف گستردهای از پایگاههای داده و مخازن داده استفاده شود، اگرچه هر فروشنده ممکن است برخی از تغییرات و افزونههای ویژه را داشته باشد. دارای یک نحو ساده است که شبیه به زبان انگلیسی است. نحو آن به توسعهدهندگان اجازه میدهد برنامههایی را با خطوط کمتر از برخی از زبانهای برنامهنویسی دیگر با استفاده از کلمات کلیدی اساسی مانند select، insert، into و update بنویسند. میتواند مقادیر زیادی از دادهها را به سرعت و کارآمد بازیابی کند. روی یک سیستم مفسر اجرا میشود، به این معنی که کد میتواند به محض نوشته شدن اجرا شود و نمونهسازی اولیه را سریع و آسان میکند. SQL یکی از محبوبترین زبانهای پرس و جو است. به دلیل جامعه کاربری بزرگ و حجم انبوه مستندات جمعآوری شده در طول سالها، همچنان یک پلتفرم یکنواخت در سراسر جهان، برای همه کاربران خود فراهم میکند. پایتون یک زبان برنامهنویسی متنباز، عمومی و سطح بالا است که به طور گسترده استفاده میشود. نحو آن به برنامهنویسان اجازه میدهد تا مفاهیم خود را در مقایسه با برخی از زبانهای قدیمیتر، در خطوط کمتری از کد بیان کنند. پایتون به عنوان یکی از سادهترین زبانها برای یادگیری شناخته میشود و جامعه توسعهدهندگان بزرگی دارد. به دلیل تمرکز آن بر سادگی و خوانایی و منحنی یادگیری پایین، ابزاری ایدهآل برای برنامهنویسان مبتدی است. این زبان برای انجام وظایف با محاسبات بالا در حجم وسیعی از دادهها عالی است، که در غیر این صورت میتواند بسیار زمانبر و دست و پا گیر باشد. پایتون کتابخانههایی مانند Numpy و Pandas را ارائه میدهد که این کار را با استفاده از پردازش موازی آسان میکند. این زبان توابع داخلی برای تقریباً همه مفاهیم پرکاربرد دارد. پایتون از الگوهای برنامهنویسی چندگانه مانند شیءگرا، دستوری، تابعی و رویهای پشتیبانی میکند و آن را برای طیف گستردهای از موارد استفاده مناسب میسازد. حال بیایید به برخی از دلایلی که پایتون را به یکی از سریعترین زبانهای برنامهنویسی در حال رشد در جهان امروز تبدیل میکند، نگاهی بیندازیم. یادگیری آن آسان است - با پایتون، در مقایسه با سایر زبانها، از مزیت استفاده از خطوط کد کمتر برای انجام وظایف برخوردار هستید. متنباز است - پایتون رایگان است و از یک مدل مبتنی بر جامعه برای توسعه استفاده میکند. این زبان در محیطهای ویندوز و لینوکس اجرا میشود و میتواند به چندین پلتفرم منتقل شود. این نرمافزار از پشتیبانی گسترده جامعه برخوردار است و کتابخانههای تحلیلی مفید زیادی در دسترس دارد. این زبان دارای چندین کتابخانه متنباز برای دستکاری دادهها، مصورسازی دادهها، آمار و ریاضیات است که تنها چند نمونه از آنها را نام بردیم. همچنین طیف گستردهای از کتابخانهها و قابلیتهای آن شامل موارد زیر است: Pandas برای پاکسازی و تحلیل دادهها، Numpy و Scipy برای تحلیل آماری، Beautifulsoup و Scrapy برای وب اسکرپینگ، Matplotlib و Seaborn برای نمایش بصری دادهها به شکل نمودارهای میلهای، هیستوگرام و نمودارهای دایرهای، و Opencv برای پردازش تصویر. R یک زبان برنامهنویسی متنباز و محیطی برای تحلیل دادهها، مصورسازی دادهها، یادگیری ماشین و آمار است. این زبان که به طور گسترده برای توسعه نرمافزارهای آماری و انجام تجزیه و تحلیل دادهها استفاده میشود، به ویژه به دلیل تواناییاش در ایجاد مصورسازیهای جذاب شناخته شده است که به آن نسبت به برخی از زبانهای دیگر در این حوزه برتری میدهد. برخی از مزایای کلیدی R عبارتند از: یک زبان برنامهنویسی متنباز و مستقل از پلتفرم است. میتواند با بسیاری از زبانهای برنامهنویسی، از جمله پایتون، جفت شود. بسیار توسعهپذیر است، به این معنی که توسعهدهندگان میتوانند با تعریف توابع جدید، به افزودن قابلیتها ادام ه دهند. مدیریت دادههای ساختاریافته و بدون ساختار را تسهیل میکند، به این معنی که قابلیت دادههای جامعتری دارد. دارای کتابخانههایی مانند Ggplot2 و Plotly است که نمودارهای گرافیکی زیبایی را به کاربران خود ارائه میدهد. میتوانید با دادهها و اسکریپتهای تعبیهشده در آنها گزارش تهیه کنید. همچنین اجازه ساخت برنامههای وب تعاملی را می دهد که به کاربران امکان میدهد با نتایج و دادهها بازی کنند. این زبان در بین سایر زبانهای برنامهنویسی برای توسعه ابزارهای آماری، زبان غالب است. جاوا یک زبان برنامهنویسی شیءگرا، مبتنی بر کلاس و مستقل از پلتفرم است که در ابتدا توسط Sun Microsystems توسعه داده شده است. این زبان یکی از زبانهای برنامهنویسی برتر مورد استفاده امروزی است. جاوا در تعدادی از فرآیندها از جمله تحلیل دادهها، تمیز کردن دادهها، وارد کردن و صادر کردن دادهها، تحلیل آماری و تجسم دادهها استفاده میشود. در واقع، اکثر چارچوبها و ابزارهای محبوب مورد استفاده برای کلانداده معمولاً با جاوا نوشته میشوند، مانند Hadoop، Hive و Spark. این زبان برای پروژههای با سرعت بالا کاملاً مناسب است. پوسته یونیکس/لینوکس یک برنامه کامپیوتری است که برای پوسته یونیکس نوشته شده است. این یک سری از دستورات یونیکس است که در یک فایل متنی ساده برای انجام یک کار خاص نوشته شده است. نوشتن یک اسکریپت پوسته سریع و آسان است. این زبان بیشتر برای کارهای تکراری که ممکن است اجرای آنها با تایپ کردن یک خط در هر زمان زمانبر باشد، مفید است. عملیات معمول انجام شده توسط اسکریپتهای پوسته عبارتند از: دستکاری فایل، اجرای برنامه، وظایف مدیریت سیستم مانند پشتیبانگیری از دیسک و ارزیابی گزارشهای سیستم، اسکریپتهای نصب برای برنامههای پیچیده، اجرای پشتیبانگیریهای معمول، اجرای دستهای. PowerShell یک ابزار اتوماسیون چند پلتفرمی و چارچوب پیکربندی توسط مایکروسافت است که برای کار با فرمتهای داده ساختاریافته مانند JSON، CSV، XML و REST APIها، وبسایتها و برنامههای اداری بهینه شده است. این زبان شامل یک پوسته خط فرمان و زبان اسکریپتنویسی است. پاورشل مبتنی بر شیء است که امکان فیلتر کردن، مرتبسازی، اندازهگیری، گروهبندی، مقایسه و بسیاری از اقدامات دیگر را روی اشیاء هنگام عبور از خط لوله داده فراهم میکند. همچنین ابزاری مناسب برای دادهکاوی، ساخت رابطهای کاربری گرافیکی و ایجاد نمودارها، داشبوردها و گزارشهای تعاملی است.