Skip to main content

N-Gramoj kaj La Bona Lingvo

Lingvoj estas strangaj. Nur se oni povus tutkompreni kiel kaj kial ili funkcias! Nu, bonŝance, ni havas la Fundamenton. Sed tio ne diras al ni kiel la lingvo estas uzata ĉiutage aŭ kiel ĝi evoluis dum la jaroj.

Oni povus ciferigi ĉiun Esperantan tekston kaj havi iun grandegan datumbazon kiu enhavas ĉiun frazon kaj vorton... Sed tio vere ne dirus al ni ion pri la lingvo krom la vortoj kaj frazoj kiuj estas uzataj. Estus pli bone scii kiel la vortoj estas uzataj kaj kiel ili interligas, ĉu ne?

Eble "de la" estas uzata 123456789-foje sed kial? Kiuj vortoj estis kaj antaŭ kaj post "de la" kiuj necesigas la vortojn "de la?"

N-gramoj povus fari tion. N-gramoj disigas korpuson (aŭ la tutan Esperantan verkaron) aŭ unu-vorte, du-vorte, tri-vorte, aŭ N-vorte. Per baza kompreno pri tiuj vortoj kiuj sekvas unu la alian, ni povus konstrui pli lertan, pli klerigan datumbazon.

Parenteze, ne, mi ne havas Esperantigon por "N-Gram." Bonvolu sugesti ion! :)






Kio Estas N-Gramo?

N-Gramo estas serio de N sinsekvaj vortoj kiuj troviĝas en iu teksto. Ĉi tie N rolas simile al X en Matematiko: N estas simbolo por iu kvanto. N-gramoj povus esti 1-gramo (kiu estas nur 1 vorto), 2-gramo (2 vortoj), 3-gramo (3 vortoj), ktp.

Ekzemplo

Ni n-gramigu nur la unuan frazon de La Bona Lingvo, verkite de Claude PIRON. La unua frazo estas:
Pri la bona lingvo mi babilos kun vi, se vi konsentas

Unua Paŝo: Disigi per N

Ĉi tie ni disigu la tekston laŭ N.


1-Gramo
  • pri
  • la
  • bona
  • ktp...
2-Gramo
  • pri la
  • la bona
  • bona lingvo
  • ktp...
...
5-Gramo
  • pri la bona lingvo mi
  • la bona lingvo mi babilos
  • bona lingvo mi babilos kun
  • ktp...

Dua Paŝo: Kalkuli la Oftecon

Ĉi tie ni kontrolu kiom ofte la gramo okazas en la teksto mem.

Ĉar ni uzis nur la unuan frazon, neniu interesa troviĝas. Nur "vi" havas la oftecon "2" (ĉar "vi" troviĝas dufoje). Ĉiu alia gramo troviĝas nur unufoje. :(

Sed... 

Kio okazus kiam oni analizus la tutan verkon? :)


La Bona Lingvo, Gramigita

Jen la unuaj tri plej oftaj gramoj en La Bona Lingvo. La ciferoj signifas la kvanton. T.e., la gramo "la" troviĝas 2377-foje, "de la" 276-foje, "de la lingvo" 30-foje, ktp.


1-Gramo
  • la, 2377
  • de, 765
  • kaj, 655
2-Gramo
  • de la, 276
  • en la, 209
  • al la, 160
3-Gramo
  • de la lingvo, 30
  • la reala lingvo, 24
  • en la franca, 22
4-Gramo
  • la plimulto el la, 15
  • al la reala lingvo, 8
  • apartenas al la reala, 6
5-Gramo
  • apartenas al la reala lingvo, 6
  • la plimulto el la lingvoj, 5
  • en la plimulto el la, 4

Eltrovoj kaj Aliaj Interesaĵoj

Denove, ĉar la verko estas pli malpli mallonga, ne estas multe por havi paradon. Sed tamen estas kelkaj rimarkindaĵoj.
  • estas 32615 vortoj en la teksto kaj 127324 unikaj gramoj (de 1 ĝis 5)
  • "la" estas uzata 2377-foje!
  • nesuprizinde estas ke "esperanto, 155," "franca, 87," kaj "angla, 40" estas en la 100 plej uzataj vortoj.
  • mi ŝatas ke "pli bela ol mi kredis" troviĝas trifoje

Ehhh, Kial Ĉi Tio Estus Utila?

Nu, dependas ĉu vi estas lingvosciencisto, programisto, aŭ nur strangulo kiu ŝatas lingvojn.

Kelkaj utilegaj uzoj laŭ mi:

Sekvi la evoluon de la lingvo
  • Imagu Tekstaron kie oni povus serĉi laŭ tempo, lando, verkinto, ĝenro
  • per serĉo por "arĥaika" kaj "arkaika," oni povus ekscii kiam "k" komencis anstataŭigi "ĥ"
  • eltrovi kiam "mojosa" ekaperis kaj sekvi la disvastigon
Eltrovi statistikaĵojn
  • oni povus konstrui liston de la plej uzataj (radik)vortoj kaj uzu tion en lingvoinstruado.
  • finfine eltrovu kiu mispensis ke "ĉi" devus sekvi la tabelvortojn... ;)
Instrui al komputiloj la lingvon
  • Imagu Lingvohelpilon kiu povus pli bone kaj pli akurate sugesti ĝustigojn al la teksto per probablokalkulado de la n-gramoj.
Kaj verŝajne ja estas multaj aliaj uzoj kiujn mi ne konas.


Ĉu?

Kion vi pensas? Kiel vi povus uzi tian datumon?

P.S. Ankoraŭ estas kelkaj kodo-plibonigoj kiujn mi devas fari. Do la kvantoj estas iomete misaj. :)

Comments