Verilerimizi Kendimiz Analiz Edelim 1 — Google Arama Geçmişinin değerlendirilmesi

Kendi verimizi kendimiz işlememiz oldukça önemlidir. Özellikle arama verilerimizin içinde gerçekten ilginç dönüm noktaları bulunmaktadır. Eğer birtakım servislere emanet edersek verilerimizi çeşitli sorunlar ile karşılaşabiliriz. Evet fazla uzatmadan nasıl yapacağımızı anlatalım.

Öncelikle verimizi indirmemiz gerekmektedir. Google hesabımıza giriş yaptıktan sonra https://takeout.google.com/ linkine gitmeniz gerekmektedir ardından, Etkinliğim ve özelinde arama verileri json olarak almamız gerekmektedir. Şöyleki:

Ardından sonraki adım ile verimizi talep ediyoruz.

Veriyi indirdikten sonra içerideki json verisini almanız gerekmektedir. Şu şekilde dışarı çıkarabiliriz:

Ardından işin eğlenceli kısmına geçmeye başlayabiliriz. Python ve Pandas ile işlemlere başlayalım:

path="path/to/file.json" aramalar=pd.read_json(path,encoding="utf-8") aramalar

Ardından sadece arama verilerini filtreliyoruz:

sadece_aramalar=aramalar[aramalar["title"].str.contains("araması")]

Ardından arama verilerini temizliyoruz:

cleans=[] for title in sadece_aramalar["title"]: 
clean=re.sub("araması yaptınız","",title)
cleans.append(clean.lower().strip())

Ardından neyi ne kadar çok aradığınızı görmek için:

cleans_series=pd.Series(cleans) search_count=cleans_series.value_counts() search_count[0:50] #En çok aranan 50.

Ardından verimizi hazırlamaya devam edelim tarihleri çekelim:

datetimes=pd.to_datetime(sadece_aramalar["time"])years=datetimes.dt.year 
month=datetimes.dt.month
day=datetimes.dt.day
dayofweek=datetimes.dt.dayofweek #haftanın günleri 0 pazartesi 6 pazar

Ardından verimizi hazırlıyoruz:

data_with_year=pd.DataFrame({ "year":years, 
"month":month,
"day":day,
"dayofweek":dayofweek,
"searchitem":cleans })
veri_hazirli.to_csv("aramagecmisim.csv",index=False) #kaydetmek için

Sonrasında istediğimiz gibi belli tarihlere göre filtreleme işlemlerini yapabilirsiniz. Örnek olarak 2013 yılının en çok aradığınız 50 kavram:

y2013=veri_hazirli[veri_hazirli["year"]==2013] y2013["searchitem"].value_counts()[0:50]

Evet son olarak Script haline getirirsek:

Originally published at http://anilkaynr.wordpress.com on March 27, 2020.

Computer Engineer,Sociologist, CSE Master Student

Love podcasts or audiobooks? Learn on the go with our new app.