Python Pandas Üzerinde Kategorik Veriler ile Uğraşmak

Öncelikle Pandas DataFrameleri üzerinde .dtypes ile veri tiplerini alabiliyorsunuz. Örnek vermek gerekirse:

Gördüğünüz gibi tipleri belirtilen şekilde görebilmekteyiz. int64 (başka şeyler de olabilir.) şeklinde gösterilenler numeric, object olarak gösterilenler ise kategoriktir.

Pandas’ta verileri veri tiplerine göre almamızı sağlayan çok güzel bir fonksiyon vardır: select_dtypes(). Gerçekten oldukça faydalıdır ve içerdiği exclude, include parametreleri ile çok işe bir fonksiyon olarak karşımıza çıkmaktadır. Örnek olarak sadece numeric verileri olan verileri almak için:

X_train_numeric = X_train.select_dtypes(exclude="object")

Exclude yerine include kullanarak da kategorik verilere ulaşabilirsiniz.:

X_train_categoric = X_train.select_dtypes(include="object")

Kategorik verileri almanın bir diğer yolu ise:

X_train.loc[:,X_train.dtypes=="object"]

Tersleyerek de numerikleri alabilirsiniz:

X_train.loc[:,X_train.dtypes!="object"]

Biraz daha ilginç bir şekilde yapmak istiyorsanız yukarıdaki işlemi şöyle de yapabilirsiniz:

X_train._get_numeric_data()

ve Kategorikler için:

categorical_column_names=(set(X_train.columns)-set(X_train._get_numeric_data().columns)) X_train[categorical_column_names]

Bildiğiniz küme farkı işlemi ile çalışıyor son örnek. Pandas gerçekten kullanması oldukça zevkli bir araç.

Originally published at http://anilkaynr.wordpress.com on March 19, 2020.

Computer Engineer,Sociologist, CSE Master Student

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store