Thursday, November 22, 2018

Encoding: a short resumé of a good article by Joel Spolsky

Résumé de l'article de Joel Spolsky
- unicode, ISO-8859-1, Windows-1252 sont des character sets
- Unicode can be implemented by different character encodings. UTF-8 implements unicode.
- En unicode, chaque caractère est représenté par un codepoint unique, p.ex "H" est : u+0048
- Les 256 codpoints de base sont identiques au charset ISO-8859-1
- L'application Windows charmap permet de visualiser le code d'un caractère dans unicode.
- Byte Order Mark: Trailing 00 or Ending 00
- In UTF-8: char. 0-127 are stored in a single byte, > 128 are stored in 2, 3, 4, 5 or 6 bytes
- Implémentations possibles de caractères unicode:
- 2 bytes: UCS-2 or UTF-16 (low endian, high endian)
- UTF-8: Store in 1-6 bytes