Python Nltk ile Ngramları Üretmek ve Bunları Saymak

anıl kaynar
1 min readOct 28, 2018

Ngramlar Nlp’de oldukça cümle oluşturma ve metni anlamak oldukça kullanışlı yapılardır. Ngramlar kullanılarak metnin sınıflandırması da yine oldukça etkilidir. İnsanlar sadece kelimeler ile konuşmaz deyimler, çeşitli tamlamalar ve atasözleri ile konuşurlar. Bu sözleri de ngramlar ile kolayca yakalayabilmekteyiz. Peki Python bunu nasıl kullanabiliriz. Nltk’de bunu yapmak için hazırdır. Öncelikle kodu görelim:

https://gist.github.com/anilkay/1a2371e8b30ee892fdb6fc1f848b2e89

Burada dikkat edilmesi gereken hususlar şunlar olmalıdır.:

  • Öncelikle elimizdeki cümleleri kelimelere dökmek mecburiyetindeyiz.
  • Cümle cümle ayırırsanız ve bu şekilde bakarsanız (Nokta,Soru işareti vb ile ayırırsanız) gereksiz (hatalı) oluşan kelime gruplarından da kurtulabiliriz.
  • ngrams’ın ürettiği çıktıyı liste çevirerek ‘+’ sembolü ile işlemlerin doğruluğu düzenlenmelidir.
  • Böyle durumlarda virgülün bile kullanılması çıktının kalitesini arttırmaktadır, yani ön işlemde noktalama işaretlerini atmamak kaliteyi arttırır.

İlginç bir şekilde çok hızlı bir biçimde çalışan bu yordamlar gerçekten Production seviyesinde bile kullanılabilir gözüküyor.

Originally published at anilkaynr.wordpress.com on October 28, 2018.

--

--