ISO 8859-1
ISO 8859-1, iets formeler ISO/IEC 8859-1 of minder formeel Latin-1, is deel 1 van ISO/IEC 8859, een tekencoderingsstandaard gedefinieerd door ISO. Het definieert codes voor wat het Latijns alfabet nummer 1 heet, dat bestaat uit 191 tekens uit het Latijnse schrift, elk gecodeerd als een enkele 8-bits getalswaarde. Deze waarden kunnen in bijna elk gegevensuitwisselingssysteem gebruikt worden om te communiceren in de volgende Europese talen: Albanees, Baskisch, Catalaans, Deens, Nederlands (al ontbreken de ligaturen voor IJ en ij, maar deze worden bijna nooit gebruikt en kunnen worden vervangen door de losse letters i en j), Engels, Faeröers, Frans (de Œ en œ ontbreken), Fins, Duits, IJslands, Iers, Italiaans, Latijn, Noors, Portugees, Rhaetoromaans, Schots Gaelic, Spaans en Zweeds. Buiten Europa: Afrikaans en Swahili. Deze codering wordt hierdoor gebruikt in heel Noord- en Zuid-Amerika, West-Europa, Oceanië en grote delen van Afrika.
Codetabel
bewerkenAangezien alle 191 tekens van ISO/IEC 8859-1 grafisch zijn en getoond kunnen worden door de meeste webbrowsers, worden ze in de tabel hieronder als teken getoond. Aangezien de spatie, de "onbreekbare" spatie en het "zachte afbreekstreepje" normaal niet zichtbaar zijn, worden ze weergegeven door een afkorting voor hun naam. Alle andere tekens worden letterlijk weergegeven. De rij- en kolomkoppen van de tabel geven de hexadecimale cijfercombinaties aan van de 8-bits waarde; de letter L heeft bijvoorbeeld nummer 4C (hex), oftewel binair 01001100 of decimaal 76.
ISO/IEC 8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F | |
0- | niet in gebruik | |||||||||||||||
1- | ||||||||||||||||
2- | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3- | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4- | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5- | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6- | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7- | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8- | niet in gebruik | |||||||||||||||
9- | ||||||||||||||||
A- | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
B- | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C- | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D- | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E- | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F- | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Aan de codes 00–1F, 7F en 80–9F zijn in ISO/IEC 8859-1 geen tekens toegekend.
ISO 8859-1 versus ISO-8859-1
bewerkenDe IANA heeft goedkeuring gegeven aan ISO-8859-1 (let op het extra streepje), een uitbreiding van ISO/IEC 8859-1, voor gebruik op het internet. Deze tekenset voegt besturingstekens toe met de waarden 00-1F, 7F en 80-9F. Zo zijn er 256 tekens voor elke mogelijke waarde met 8 bits.
De IANA staat al de volgende aliassen toe voor ISO-8859-1 (onafhankelijk van grote of kleine letters):
- ISO_8859-1:1987
- ISO_8859-1
- ISO-8859-1
- iso-ir-100
- csISOLatin1
- latin1
- l1
- IBM819
- CP819
De naam Latin-1 is een informeel alias dat niet wordt erkend door ISO of de IANA, maar in sommige software misschien betekenis heeft. De term "Latin-1" wordt in de Unicode-standaard gebruikt voor de tekens in de reeks U+0000 t/m U+00FF.
De volgende tabel toont de tekens van ISO-8859-1. De beheertekens, de spatie, de "onbreekbare spatie" en het "zachte afbreekteken" worden weergegeven door 2-, 3-, of 4-letterige afkortingen van hun naam. Alle andere tekens worden letterlijk weergegeven.
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0- | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | TAB | LF | VT | FF | CR | SO | SI |
1- | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
2- | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3- | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4- | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5- | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6- | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7- | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
8- | PAD | HOP | BPH | NBH | IND | NEL | SSA | ESA | HTS | HTJ | VTS | PLD | PLU | RI | SS2 | SS3 |
9- | DCS | PU1 | PU2 | STS | CCH | MW | SPA | EPA | SOS | SGCI | SCI | CSI | ST | OSC | PM | APC |
A- | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
B- | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C- | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D- | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E- | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F- | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
ISO/IEC 8859-15
bewerkenISO/IEC 8859-1 heeft een aantal tekortkomingen, waaronder het ontbreken van een paar Franse letters, de door sommigen gewenste weergave van de IJ als één teken, twee letters die in het Fins worden gebruikt voor de weergave van sommige buitenlandse namen en een paar leenwoorden, en het ontbreken van een paar veel voorkomende tekens als de "dolk" †, typografische aanhalingstekens en strepen, en andere tekens. Bovendien is er geen code voor het eurosymbool. Daarom is ISO/IEC 8859-15 ontwikkeld als een verbeterde versie van ISO/IEC 8859-1. Hiertoe zijn wel een aantal minder gebruikte tekens in ISO/IEC 8859-1 verwijderd, waaronder fracties en diakritische tekens zonder letter: ¤, ¦, ¨, ´, ¸, ¼, ½ en ¾.
Windows-1252
bewerkenDe ANSI-tekenset van Microsoft Windows in het Nederlands, Engels en sommige andere Westerse talen is een uitbreiding van ISO/IEC 8859-1, maar verschilt van ISO-8859-1, met grafische tekens in plaats van beheertekens in de reeks 0x80 tot 0x9F. Deze codering heet in Windows "codepage 1252". De door IANA goedgekeurde naam is "Windows-1252".
Veel webbrowsers behandelen ISO-8859-1 als Windows-1252 (de extra beheercodes in ISO-8859-1 zijn toch al verboden door HTML), en dus zie je vaak codes uit Windows-1252 in webpagina's die claimen ISO-8859-1 te zijn.
De volgende tabel toont Windows-1252, met de verschillen met ISO-8859-1 gemarkeerd:
Windows-1252 (CP1252) | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
–0 | –1 | –2 | –3 | –4 | –5 | –6 | –7 | –8 | –9 | –A | –B | –C | –D | –E | –F | |
0– | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | TAB | LF | VT | FF | CR | SO | SI |
1– | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
2– | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3– | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4– | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5– | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6– | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7– | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
8– | € | ‚ | ƒ | „ | … | † | ‡ | ˆ | ‰ | Š | ‹ | Œ | Ž | |||
9– | ‘ | ’ | “ | ” | • | – | — | ~ | ™ | š | › | œ | ž | Ÿ | ||
A– | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
B– | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C– | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D– | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E– | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F– | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
De posities 81, 8D, 8F, 90 en 9D zijn ongebruikt in Windows-1252. Het euroteken op positie 80 was niet aanwezig in eerdere versies van deze tekenset.
Macintosh-tekensets
bewerkenMet de oorspronkelijke Apple Macintosh-computer introduceerde Apple in 1984 een tekencodering met de naam Mac Roman of Mac-Roman, die geschikt moest zijn voor desktoppublishing in West-Europese talen. Het was een uitbreiding van ASCII, net als ISO-8859-1, maar had verder niets gemeen met de ISO-standaarden. Een latere versie, met de streeploze naam MacRoman, verving het generieke valutateken door het euroteken.
De verschillen tussen ISO-8859-1, Windows-1252 en MacRoman zorgen regelmatig voor verwarring onder computerprogrammeurs en op het internet.
Representatie in bytes
bewerkenTekens in het bereik 0 t/m 255 kunnen als één byte worden opgeslagen, maar bij UTF-8 gebeurt dat alleen bij de nummers 0 t/m 127. De nummers die binair van de vorm 1ghijklm
zijn worden daar opgeslagen als twee bytes: 1100001g
en 10hijklm
. Als men bij het teruglezen deze per ongeluk opvat als twee tekens dan zal men voor g=1 bijvoorbeeld het teken é vervangen zien door é, terwijl voor g=0 het teken niet verandert, maar er wel een  voor komt te staan.[1][2] De Unicodestandaard biedt de mogelijkheid dat software bij het opslaan van een platte tekst in een Unicodeformat een daarbij behorende code toevoegt, en die code interpreteert bij het lezen van een dergelijk bestand. Dit wordt onder meer door Notepad ook gedaan.
Externe links
bewerken- (en) ISO/IEC 8859-1:1998 final draft of the standard (PDF)
- (en) Differences between ANSI, ISO-8859-1 and MacRoman Character Sets
- (en) The Letter Database
- (en) The ISO 8859 Alphabet Soup