Ero sivun ”UTF-8” versioiden välillä

Rivi 7:

Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on Unix-tyyppisissä käyttöjärjestelmissä (esim. Linux) tärkein Unicoden koodaustapa, ja se on jo muutamissa distroissa vakiona käytössä. UTF-8-koodauksessa yksi merkki vie tallennustilaa 1–4 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot ym., mutta ei esim. ääkköset) esitetään sellaisinaan yhtenä tavuna. Näin saavutetaan ASCII-yhteensopivuus, mikä on tärkeää, koska Unix- ja Linux-koneissa käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. (UTF-8:lla voisi periaatteessa koodata merkkiavaruuden 0–$7FFFFFFF käyttäen 1–6 tavua. Käytännössä Unicoden koko merkkiavaruuden koodaamiseen tarvitaan enintään 4 tavua.)

Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32:a, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:ta, voidaan esittää kaikki Unicoden noin 1,1 miljoonaa merkkiä. Vanha UCS-2 kykenee vain ensimmäisten ~~65535~~ koodin esittämiseen.

Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32:ta, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:ta, voidaan esittää kaikki Unicoden noin 1,1 miljoonaa merkkiä. Vanha UCS-2 kykenee vain ensimmäisten 65 535 koodin esittämiseen; sen on korvannut uudempi UTF-16.

UTF-8 on nykyisin monien jakeluiden, esimerkiksi Ubuntun, oletusmerkistö käyttöjärjestelmän tiedostonimien koodaukseen ja tekstitiedostojen muodoksi.

@@ Rivi 7: / Rivi 7: @@
 Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on Unix-tyyppisissä käyttöjärjestelmissä (esim. Linux) tärkein Unicoden koodaustapa, ja se on jo muutamissa distroissa vakiona käytössä. UTF-8-koodauksessa yksi merkki vie tallennustilaa 1–4 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot ym., mutta ei esim. ääkköset) esitetään sellaisinaan yhtenä tavuna. Näin saavutetaan ASCII-yhteensopivuus, mikä on tärkeää, koska Unix- ja Linux-koneissa käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. (UTF-8:lla voisi periaatteessa koodata merkkiavaruuden 0–$7FFFFFFF käyttäen 1–6 tavua. Käytännössä Unicoden koko merkkiavaruuden koodaamiseen tarvitaan enintään 4 tavua.)
-Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32:a, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:ta, voidaan esittää kaikki Unicoden noin 1,1 miljoonaa merkkiä. Vanha UCS-2 kykenee vain ensimmäisten 65535 koodin esittämiseen.
+Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32:ta, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:ta, voidaan esittää kaikki Unicoden noin 1,1 miljoonaa merkkiä. Vanha UCS-2 kykenee vain ensimmäisten 65 535 koodin esittämiseen; sen on korvannut uudempi UTF-16.
 UTF-8 on nykyisin monien jakeluiden, esimerkiksi Ubuntun, oletusmerkistö käyttöjärjestelmän tiedostonimien koodaukseen ja tekstitiedostojen muodoksi.

Ero sivun ”UTF-8” versioiden välillä

Navigointivalikko

Haku