Dedoublement de noms de fichiers à cause des accents et codage Unicode alternatif.

Comportement attendu

Observer les fichiers dans Drive tel qu’ils ont été synchronisé. Cozy Drive est synchronisé entre une machine sous Linux et un téléphone Android.

Comportement constaté

Certains fichiers sont dupliqués. Il s’agit de ceux pour lesquels il y a des caractères accentués. D’après mes comparaison des fichiers, qui semblaient avoir des noms idéntiques, leur nom était codé differemment en Unicode: dans un cas, le “é” était codé comme “e” suivi du code pour l’accent aigu, dans l’autre cas le “é” était codé comme le caractère Unicode correspondant. Il semblerait que c’est quelque-chose qui existe, d’après la deuxième réponse à une question dans stackoverflow (Proper UTF-8 hex representation for eacute in XML for XSLT transformation - Stack Overflow).

Pour reproduire

Je ne sais pas comment réproduire ce comportement. J’imagine qu’il y a une validation sur les noms de fichiers au moment des transferts et une “correction” vers une des version Unicode pour les caractéres accentués. Il est possible que le nom des fichiers que j’avais reçu de quelque-part soit codé d’une manière qui necessite cette conversion.

Ce n’est pas grave, juste très perturbant, et j’ai pensé que c’est intéressant de le signaler. Pour comprendre ce qui se passe, j’ai du utiliser un editeur binaire car la différence entre un “é” codé avec un “e” et accent et le “é” Unicode est plus que subtile (ou invisible, en fonction de la police d’affichage).

Bonjour @cosminribo,

Merci du signalement. Nous avons déjà eu par le passé des soucis d’encodage, mais c’est la première fois qu’on nous signale celui-ci. Nous allons probablement avoir besoin de votre aide pour nous aider à comprendre ce qui s’est passé. Il faudrait notamment que vous m’indiquiez (en privé) le nom d’un fichier affecté, que nous essayions de comprendre en analysant les journaux de votre Cozy.

Grace à l’intervention rapide de @Clochix , le mystère est résolu en ce qui concerne Cozy. En regardant bien en amont, certaines fichiers avaient été dupliqués sur mon disque et Cozy n’est absolument pas à mettre en cause. Ça serait intéressant un jour de trouver quelle opération j’ai pu faire qui a modifié le codage Unicode des noms de fichiers…

1 Like

Je découvre au passage la commande [convmv](https://www.j3e.de/linux/convmv/man/) qui permet de convertir l’encodage des noms de fichiers.

De mémoire, il nous est déjà arrivé d’avoir des soucis avec l’encodage des noms de fichiers, mais c’était sur MacOS. Peut-être vos fichiers ont-ils transité par un disque de Mac ?

Ce n’est peut-être pas le passage par un Mac, mais des contraintes variables dans la copie de fichiers avec l’OS ou par rsync sur un volume monté via samba. On apprend tout le temps :slight_smile:

Voir aussi la discussion (un peu trop technique pour moi, mais l’observation du même phenomène):

https://news.ycombinator.com/item?id=16991263