Modin Pandas ile daha hızlı Pandas

Bildiğiniz gibi Pandas veri boyutu büyüdükçe çok hızlı bir şekilde yavaşlamaktadır. 1 Filter işlemi için bile uzun süreler bekleyebiliyoruz. Özellikle Kaggle gibi ortamlarda çalışırken belli limitler dahilinde çalıştığınız için Pandas’ın yavaşlığı ciddi problemlere yol açmaktadır. Pandas’ı hızlandırmak için altyapı olarak Pandas kullanan ve pandas apisini tümüyle destekleyen Modin ile pandas operasyonlarınızı hızlandırabiliriz.

Modin basitçe Pandas’ın dağıtık bir yapıda kullanımını sağlıyor. Daha çok işi aynı anda çalıştırarak hızlandırıyor. Üstelik birden fazla node ile de kullanmak mümkün. Eski bilgisayarı ağa bağladım. Terabaytlarca veri hazırlıyorum gibi cümleler kurabilmemizi de sağlayabilen bir proje. Desteklenmesi ve kullanımının teşvik edilmesini önerdiğim bir proje kısaca. Kullanımına gelirsek:

pip install modin

Eski bir Pandas sürümü yükleyebilir. Öncelikle bir virtual environmentta test ettikten sonra ana dizininize yüklemenizi önermekteyim.

Sonrasında ise:

import modin.pandas as pd

ile pandas apileri ile (pandas olarak) kullanabilirsiniz.

Farkı görmek için normal Pandas ve modin pandas ile Kaggle’daki şu veri üzerinde karşılaştırmalar yapabilirsiniz:

https://www.kaggle.com/flaredown/flaredown-autoimmune-symptom-tracker

Benim yaptıklarım:

Kaynak

https://github.com/modin-project/modin

Originally published at http://anilkaynr.wordpress.com on May 10, 2020.

Computer Engineer,Sociologist, CSE Master Student

Computer Engineer,Sociologist, CSE Master Student