Intégration d'Unicode Conception d'un agent de recherche d'information sur internet
2003; Lavoisier publishing; Volume: 6; Issue: 3-4 Linguagem: Francês
10.3166/dn.6.3-4.225-236
ISSN1963-1014
AutoresEmmanuel Giguet, Nadine Lucas,
Tópico(s)Natural Language Processing Techniques
ResumoLa norme ISO/CEI 10646 que l'on appelle couramment Unicode est passée assez discrètement dans les faits. Sa manifestation la plus claire est la possibilité de consulter des sites du monde entier, sans plus être pénalisé par l'incompatibilité des systèmes d'échange et d'affichage des données texte. Donner à voir des documents dans des graphies très diverses, ou « multiscript », mais aussi indexer, traiter l'information automatiquement est désormais possible. Face à ce progrès technique, les réactions sont plus ou moins rapides. Nous présentons ici un exemple de réalisation d'automate de collecte et traitement d'information à partir de documents multiscript, et évoquerons les difficultés ou réticences constatées par ailleurs.ABSTRACT.The ISO/IEC 10646 Unicode standard allows anyone to collect and read any text in any graphical form.Documents can be processed without worrying about the variety of encoding.We present an example of information retrieval on multilingual sources and discuss some of the issues induced by this new technology.
Referência(s)