Posts

N-Gramoj kaj La Bona Lingvo

Lingvoj estas strangaj. Nur se oni povus tutkompreni kiel kaj kial ili funkcias! Nu, bonŝance, ni havas la Fundamenton. Sed tio ne diras al ni kiel la lingvo estas uzata ĉiutage aŭ kiel ĝi evoluis dum la jaroj.

Oni povus ciferigi ĉiun Esperantan tekston kaj havi iun grandegan datumbazon kiu enhavas ĉiun frazon kaj vorton... Sed tio vere ne dirus al ni ion pri la lingvo krom la vortoj kaj frazoj kiuj estas uzataj. Estus pli bone scii kiel la vortoj estas uzataj kaj kiel ili interligas, ĉu ne?

Eble "de la" estas uzata 123456789-foje sed kial? Kiuj vortoj estis kaj antaŭ kaj post "de la" kiuj necesigas la vortojn "de la?"

N-gramoj povus fari tion. N-gramoj disigas korpuson (aŭ la tutan Esperantan verkaron) aŭ unu-vorte, du-vorte, tri-vorte, aŭ N-vorte. Per baza kompreno pri tiuj vortoj kiuj sekvas unu la alian, ni povus konstrui pli lertan, pli klerigan datumbazon.

Parenteze, ne, mi ne havas Esperantigon por "N-Gram." Bonvolu sugesti ion! :)





Kio Estas…
Recent posts