Faili statistika (iti0140)

Allikas: Lambda

Ülesandeks on kirjutada programm, mis esitab faili tähesagedusstatistika ning faili 10 kõige sagedamini esinevat sõna

Statistika arvutamiseks kasutame Ambrose Pierce'i lühijuttu "An Inhabitant of Carcosa", mille autoriõigused on aegunud tänu sellele, et tekst on vanem kui Miki Hiir.

Ülesanne

Kirjuta programm, mis loeb kokku kõik faili carcosa.txt tähemärgid ja esitab need esinemise sageduse järjekorras. Näiteks kui sisendfail oleks:

aa aa, a
Bbb
cc.

Oleks väljund:

a: 5
b: 3
c: 2 

Täienda seda programmi nii, et loetaks kokku kõigi faili sõnade esinemissagedus; näidake 10 kõige sagedamini esinevat sõna (viigid esitage tähestikuliselt). Eelneva näitel oleks väljund:

a: 5
b: 3
c: 2

aa: 2
a: 1
bbb: 1
cc: 1

Vihjeid

  • Andmetüüp dict:
# Tühi dict:
d = {}
# Kõik indeksid:
d.keys()
# Kõik väärtused:
d.values()
  • Suurtähtedest vabanemiseks võib abiks olla stringi meetod .lower()
  • Stringi jaotamisel sõnadeks võib abiks olla meetod .split()
  • Kontrollimaks kas string/täht koosneb tähestiku tähtedest sobib .isalpha() meetod.
  • Sorteerimiseks on funktsioon sorted(), kuigi kindlasti tasub õppida ka "käsitsi" sorteerima.