Codage des caractères et multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646
1995; Issue: 20 Linguagem: Francês
10.5802/cg.164
ISSN2118-8254
Autores Tópico(s)Historical Linguistics and Language Studies
ResumoRe ´sume ´.Après avoir rappel é les notions de glyphe et de caract ère, nous étudions les normes classiques d' échange de caract ères, telles que ASCII ou ISOLATIN-1.Puis, nous d écrivons UNICODE, une norme de codage 16-bits qui a comme but de repr ésenter tous les caract ères des langues vivantes pour permettre l' échange sans probl èmes de textes r édig és dans les langues parl ées des diff érentes parties du monde.ISO/IEC-10646 est une g én éralisation à quatre octets -dont les 2 premiers octets coincident avec ceux d'UNICODE -qui permet aussi la repr ésentation de caract ères sp éciaux et anciens en les codant sur 32 bits.Abstract.After revieiwing the difference between glyphs and characters, we discuss character exchange standards, like ASCII and ISO-LATIN 1. Then we turn our attention to UNICODE, a 16-bit encoding standard that will eventually represent the characters of all living languages and thus will make it possible to exchange without problems texts written in the languages spoken in various parts of the world.ISO/ IEC-10646 is a 4-byte generalisation-the first two bytes coinciding with UNICODE-but whose full 32-bits wide encoding space allows the representation of special or ancient characters.Codage des caracte `res :de l'ASCII a `UNICODE et ISO/ IEC-10646 2. les normes pour l' échange de caract ères entre ordinateurs ou autres mat ériels ; 3. les normes pour la restitution (impression, affichage) des caract ères.Ici, nous allons essentiellement parler des normes d' échange, dont les plus connues sont ASCII, ISOLATIN 1 et maintenant UNICODE ou ISO/IEC-10646.Nous citerons toutefois d'autres normes, r éelles ou de facto (voir par exemple les sections 6.3 ou 7.1).Mais pour commencer, voici quelques rappels. Concepts de base Syste `mes d'e ´critureLe principe de l' écriture 3 de la plupart des langues utilisant l'alphabet latin est tr ès simple : les caract ères s' écrivent horizontalement, de gauche à droite, sans chevauchement ni changement de direction ; les seuls él éments hors de la ligne sont les signes diacritiques qui se placent au-dessus ou au-dessous de certaines lettres.M ême dans ce dernier cas, le nombre de combinaisons diff érentes dans une langue donn ée est en g én éral assez limit é pour qu'on puisse donner un code sp écifique à chaque lettre combin ée à un signe diacritique.Cependant, en g én éral les syst èmes d' écriture ne sont pas si simples.Certaines langues, bien qu'utilisant une écriture bas ée sur l'alphabet latin, ont une structure plus complexe.Ainsi le vietnamien n écessite-t-il souvent deux signes diacritiques sur une seule lettre, l'un étant un signe tonal.L'alphabet phon étique international (IPA) positionne des él éments diacritiques en indice inf érieur ou sup érieur ou utilise des signes liant plusieurs lettres.Par ailleurs, il n'est pas possible d' énum érer toutes les combinaisons entre lettres et signes diacritiques pour IPA, puisque le syst ème permet la cr éation de nouvelles combinaisons in édites si n écessaire.L'arabe et l'h ébreu s' écrivent de droite à gauche, mais d'une part les chiffres et d'autre part l'insertion de caract ères latins peuvent n écessiter un changement du sens d' écriture dans la m ême ligne.Seulement les consonnes et voyelles longues sont not ées dans ces deux langues ; les voyelles courtes, si elles sont exprim ées, sont not ées avec des points au-dessus ou en-dessous des consonnes.Les lettres arabes rel èvent plus de la tradition calligraphique que de la typographie ; elles ont des formes initiales, m édiales, finales et isol ées distinctes 4 ; l'h ébreu connaı ˆt aussi quelques-unes de ces formes ; le grec en garde deux.
Referência(s)