Twitter Twitleri ile Çalışırken Başlangıçta Yapılması Gerekenler

anıl kaynar
1 min readMay 2, 2020

Öncelikle linkleri link olarak görüntüleyebilmek için UTF-8 olarak okumanız gerekmektedir. Şöyleki:

turkce=pd.read_csv("turkce.csv",encoding = 'utf8')

Ardından linkleri verimizden silmek için regexler ile şu şekilde sonuca ulaşabilirsiniz:

turkce=turkce.str.replace('http[s]?://\S+','')

Mention ve # ile yapılan ne ise onları silmek için:

turkce=turkce.str.replace('[@#][A-Za-z0-9]+','')

yeter diye düşünüyorsunuz ancak ğ vb karakterler için yukarıdaki kod yetersiz kalmaktadır. Türkçe karakterleri de ekleyip silmek için:

turkce=turkce.str.replace('[@#][A-Za-z0-9ğüşöçİĞÜŞÖÇ]+','')

Sonrasında karşımıza I’m at FourSquare gelmektedir. Silmek yerine stop words olarak kabul etmek daha mantıklı olacaktır. İçinde nerede olunduğu bilgisi olduğu için kullanılabilir bir olgudur ancak model kurma veya benzer işler için gereksiz olabilmektedir.

Birde niyeyse bendeki veride others kelimesi yoğun bir şekilde bulunmakta türkçe verilerden derlemiş olduğum halde. Others’ı da Stop Words olarak aldım ancak siledebilirsiniz.

Noktalama işaretlerini tamamı ile silmenizi önermiyorum. kesme işareti, virgül gibi işaretlerin farklı anlamları olabilmektedir. Yine de silebilirsiniz ancak kesme işareti öncesi ve sonrasını birer ayrı kelime olarak almanız daha iyi olabilir.

turkce=turkce.str.replace('[^\w\s]',' ')

Yukarıda bir yığın çift space ile karşılaşabilirsiniz ancak çözümü oldukça basittir:

turkce=turkce.str.replace('  ',' ')

Regex yazmamıza gerek kalmıyor. Ancak daha iyi bir okunurluk ve 2 veya daha fazla space’i tek space’a dönüştürmek için:

turkce=turkce.str.replace('\s+',' ')

Eski 140 karakter tweetlerde nokta ile cümleleri takip etmenizin pek bir önemi yokken. 280 karakter tweetlerinde noktalara göre ayırıp ilk cümleyi kullanmak da mantıklı olabilmektedir. Yani noktalama işaretlerini ne yapacağınız sizin problemlerinize göre şekillenecek bir durumdur.

Originally published at http://anilkaynr.wordpress.com on May 2, 2020.

--

--