Encodings in Legacy Khmer TrueType Fonts. Investigation and Propose of Auto-Detection Algorithm
2006; Lavoisier publishing; Volume: 9; Issue: 3-4 Linguagem: Francês
10.3166/dn.9.3-4.45-68
ISSN1963-1014
AutoresToshiya Suzuki, Masatake Yamato, Yoshiki Mikami,
Tópico(s)Machine Learning and Algorithms
ResumoMalgre l'utilisation croissante des normes ISO pour le codage de la plupart des ecritures indiennes dans les pays d'Asie du Sud et du Sud-Est, les codages bricoles sont encore utilises pour eviter l'implementation de systemes de mise en page complexes pour les ecritures indiennes. Puisque ces codages ne sont pas bien definis et ont ete developpes ad hoc, il est tres difficile de les detecter par des methodes deductives. Il arrive alors que l'on publie le texte le plus souvent en tant qu'image. En guise d'exemple caracteristique nous avons choisi l'ecriture cambodgienne. Nous avons examine les differentes fontes cambodgiennes diffusees gratuitement sur le Web, les codages qu'elles declarent utiliser et ceux qu'elles utilisent. Nous arrivons a la conclusion que les codages declares ne sont pas fiables. En nous basant sur les codages etudies nous proposons un algorithme heuristique de detection de codage cambodgien. Cet algorithme nous permet egalement de transcoder des documents codes dans ces codages avec une precision plus elevee que celle des methodes cognitives.
Referência(s)