Artigo Acesso aberto Revisado por pares

Intégration d'Unicode Conception d'un agent de recherche d'information sur internet

2003; Lavoisier publishing; Volume: 6; Issue: 3-4 Linguagem: Francês

10.3166/dn.6.3-4.225-236

ISSN

1963-1014

Autores

Emmanuel Giguet, Nadine Lucas,

Tópico(s)

Natural Language Processing Techniques

Resumo

La norme ISO/CEI 10646 que l'on appelle couramment Unicode est passée assez discrètement dans les faits. Sa manifestation la plus claire est la possibilité de consulter des sites du monde entier, sans plus être pénalisé par l'incompatibilité des systèmes d'échange et d'affichage des données texte. Donner à voir des documents dans des graphies très diverses, ou « multiscript », mais aussi indexer, traiter l'information automatiquement est désormais possible. Face à ce progrès technique, les réactions sont plus ou moins rapides. Nous présentons ici un exemple de réalisation d'automate de collecte et traitement d'information à partir de documents multiscript, et évoquerons les difficultés ou réticences constatées par ailleurs.ABSTRACT.The ISO/IEC 10646 Unicode standard allows anyone to collect and read any text in any graphical form.Documents can be processed without worrying about the variety of encoding.We present an example of information retrieval on multilingual sources and discuss some of the issues induced by this new technology.

Referência(s)