Artigo Acesso aberto Revisado por pares

Encodings in Legacy Khmer TrueType Fonts. Investigation and Propose of Auto-Detection Algorithm

2006; Lavoisier publishing; Volume: 9; Issue: 3-4 Linguagem: Francês

10.3166/dn.9.3-4.45-68

ISSN

1963-1014

Autores

Toshiya Suzuki, Masatake Yamato, Yoshiki Mikami,

Tópico(s)

Machine Learning and Algorithms

Resumo

Malgre l'utilisation croissante des normes ISO pour le codage de la plupart des ecritures indiennes dans les pays d'Asie du Sud et du Sud-Est, les codages bricoles sont encore utilises pour eviter l'implementation de systemes de mise en page complexes pour les ecritures indiennes. Puisque ces codages ne sont pas bien definis et ont ete developpes ad hoc, il est tres difficile de les detecter par des methodes deductives. Il arrive alors que l'on publie le texte le plus souvent en tant qu'image. En guise d'exemple caracteristique nous avons choisi l'ecriture cambodgienne. Nous avons examine les differentes fontes cambodgiennes diffusees gratuitement sur le Web, les codages qu'elles declarent utiliser et ceux qu'elles utilisent. Nous arrivons a la conclusion que les codages declares ne sont pas fiables. En nous basant sur les codages etudies nous proposons un algorithme heuristique de detection de codage cambodgien. Cet algorithme nous permet egalement de transcoder des documents codes dans ces codages avec une precision plus elevee que celle des methodes cognitives.

Referência(s)
Altmetric
PlumX