
کتابخانه های علم داده در پایتون
پایتون کتابخانههای متنوعی برای کار با داده و انجام عملیات یادگیری ماشین دارد. در این بخش پرکاربردترین کتابخانه های علم داده در پایتون را مورد بررسی قرار میدهیم.
سرفصل ها
- نامپای چیست؟ (Numpy)
- پانداس چیست؟ (Pandas)
- مت پلات لیب چیست؟ (matplotlib)
- سایکت لرن چیست؟ (scikit-learn)

نامپای چیست؟ (Numpy)
نامپای چیست؟ داده از منابع مختلفی جمعآوری میشود و ممکن است قالبهای مختلفی (عکس، متن، صدا و …) به خود بگیرد اما در نهایت به شکل آرایهای از اعداد درمیآید. ذخیرهسازی و پردازش بهینهٔ آرایههای عددی از اهمیت بسیاری برخوردار است. کتابخانه مختص این کار در پایتون نامپای نام دارد که مخفف numeric python به معنی پایتون عددی میباشد.
با استفاده از نامپای، پردازش و محاسبات روی آرایهها سریعتر انجام میشود. در نامپای اعضای یک آرایه همه از یک نوع میباشند و این ویژگی باعث میشود تا آرایهها حجم کمتری در رم اشغال کنند. نامپای همچنین توابع بسیاری برای انجام انواع عملیات بر روی آرایهها دارد که نسبت به توابع خود پایتون سریعتر اجرا میشوند. (با نامپای میتوان محاسبات را بدون استفاده از حلقههای تکرار انجام داد.)
کتابخانه نامپای پکیجی بنیادی در اکوسیستم سایپای (اکوسیستم علم داده در پایتون) است. بنابراین فارغ از کاری که با داده انجام میشود، یادگیری آن واقعا ارزشمند خواهد بود.

پانداس چیست؟ (Pandas)
پانداس چیست؟ یکی دیگر از کتابخانههای مهم اکوسیستم کار با داده پایتون، پانداس میباشد که از نامپای در بطن خود استفاده میکند. در پانداس ساختار اصلی داده به شکل دیتافریم (data frame) است که در واقع یک آرایه دوبعدی است که در آن سطرها و ستونها عنوان دارند.
نامپای امکانات بسیاری در اختیار ما قرار میدهد که برای محاسبات سریع بر روی دادههای جدولی میتوان از آن استفاده کرد. اما هنگامی که ما انتظار انعطافپذیری بیشتری داریم، محدودیتهای نامپای به چشم میآید. با پانداس میتوان عملیات بسیار بیشتری بر روی داده انجام داد که کاربران پایگاه داده و صفحات گسترده با این عملیات بسیار آشنا هستند.
با استفاده از ساختارهای داده و امکاناتی که در پانداس تعبیه شده، عملیات تحلیل و پاکسازی و آمادهسازی داده را در پایتون میتوان خیلی سریع و آسان انجام داد.

مت پلات لیب چیست؟ (Matplotlib)
مت پلات لیب چیست؟ ساخت نمودارهایی که بتوانند اطلاعات را به خوبی انتقال دهند یکی از مهمترین کارها در تحلیل داده است. برای مثال، مشاهده روند داده و تشخیص دادههای پرت از روی نمودار به راحتی امکانپذیر است. کتابخانههای بسیاری برای مصورسازی داده در پایتون وجود دارد اما متپلاتلیب از همه پرکاربردتر است.
این کتابخانه بیشتر در ساخت نمودارهای ۲ بعدی کاربرد دارد و رابط کاربری آن بسیار شبیه به متلب است. بسیاری از نمودارهای پرکاربرد را میتوان با متپلاتلیب ایجاد کرد و امکانات بسیاری برای شخصیسازی در آن گنجانده شده، اما با توجه به گسترش کتابخانههای جدیدتر که ظاهر مدرنتری دارند و میتوان از طریق وب با آنها در تعامل بود، کمکم استفاده از این کتابخانه در حال کاهش است.

سایکت لرن چیست؟ (scikit-learn)
سایکت لرن چیست؟ پروژه سایکتلرن در سال ۲۰۰۷ آغاز شد و پس از آن با همکاری برنامهنویسان به شکلی متن باز در حال گسترش است. این کتابخانه معروفترین و پرکاربردترین کتابخانه یادگیری ماشین در پایتون میباشد و از محبوبیت بسیاری برخوردار است.
سایکتلرن حاوی ابزارهای متنوعی برای یادگیری ماشین و مدلسازی آماری است و با کتابخانههایی که پیش از این معرفی کردیم، هماهنگی بسیار خوبی دارد. هدف از ساخت سایکتلرن تمرکز بر مدلسازی داده به جای دستکاری و مرتبسازی و خلاصه کردن داده میباشد.سایکت لرن واسط کاربری بسیار منسجمی دارد و کار با آن بسیار آسان است به طوری که شما میتوانید حتی بدون شناخت مفاهیم و مدلهای یادگیری ماشین، کار با این کتابخانه را شروع کنید.
علاوه بر موارد ذکر شده، کتابخانههای بسیار قدرتمند دیگری برای زمینههای دیگر کار با داده در پایتون وجود دارد. برای مصور سازی داده میتوان از پلاتلی (Plotly) و سیبورن (Seaborn) هم استفاده کرد. برای امور یادگیری عمیق، پایتورچ (Pytorch) ، تنسورفلو (TensorFlow) و کراس (Keras) بیشتر مورد استفاده قرار میگیرند. برای پردازش متن nltk و اسپیسی (Spacy) کارایی بیشتری دارند و در زمینه پردازش عکس میتوان از کتابخانههای اوپن سیوی (OpenCV) و سایکت ایمیج (scikit-image) نام برد.
برای مطالعه مقاله افتر افکت در برابر پریمیر پرو بر روی لینک کلیک کنید
یک دیدگاه