Ero sivun ”UTF-8” versioiden välillä

Siirry navigaatioon Siirry hakuun
6 merkkiä poistettu ,  31. heinäkuuta 2006
ei muokkausyhteenvetoa
Ei muokkausyhteenvetoa
Ei muokkausyhteenvetoa
Rivi 3: Rivi 3:




'''Unicode''' on standardi, joka määrittelee kaikille maailman merkeille omat merkkikoodinsa (UCS). Tarkoituksena on korvata tähän saakka käytössä olleet keskenään hyvin erilaiset, lähes kielikohtaiset merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että samalla merkistöllä ei voida esittää useita erilaisia kieliä. Näin ollen esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Unicode pyrkii ratkaisemaan tällaiset ongelmat luomalla kaikille yhteisen merkistön, joka sisältää kaikki nykyiset (ja jopa entiset) kirjoitusjärjestelmät. Unicode-standardi käsittää 1 114 111 merkkiä, ja ne yksilöidään tunnuksella, joka on muotoa U+xxxx. Tunnuksessa ”xxxx” on merkin numerokoodi heksadesimaalimuodossa. Mahdolliset koodit ovat U+0000 – U+10FFFF.
'''Unicode''' on standardi, joka määrittelee kaikille maailman merkeille omat merkkikoodinsa. Tarkoituksena on korvata tähän saakka käytössä olleet keskenään hyvin erilaiset, lähes kielikohtaiset merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että samalla merkistöllä ei voida esittää useita erilaisia kieliä. Näin ollen esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Unicode pyrkii ratkaisemaan tällaiset ongelmat luomalla kaikille yhteisen merkistön, joka sisältää kaikki nykyiset (ja jopa entiset) kirjoitusjärjestelmät. Unicode-standardi käsittää 1 114 111 merkkiä, ja ne yksilöidään tunnuksella, joka on muotoa U+xxxx. Tunnuksessa ”xxxx” on merkin numerokoodi heksadesimaalimuodossa. Mahdolliset koodit ovat U+0000 – U+10FFFF.


Unicode-merkkejä sisältävää tekstiä voidaan tallentaa tietokoneelle useilla eri tavoilla. Linuxissa käytetty Unicoden koodaustapa on nimeltään UTF-8. Tässä koodauksessa yksi Unicode-merkki vie tallennustilaa 1–4 oktettia eli 8 bitin tavua. ASCII-merkistöön kuuluvat merkit (U+0000 – U+007F) esitetään UTF-8:ssa sellaisenaan, yhtenä tavuna, joten UTF-8 on täysin ASCII-yhteensopiva. Se onkin Linuxissa tärkeää, koska siinä käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. Muiden kuin ASCII-merkkien esittämiseksi tarvitaan avuksi lisätavuja, ja esimerkiksi suomen kieleen kuuluvien ä- ja ö-kirjainten esittämiseen tarvitaan kaksi tavua.
Unicode-merkkejä sisältävää tekstiä voidaan tallentaa tietokoneelle useilla eri tavoilla. Linuxissa käytetty Unicoden koodaustapa on nimeltään UTF-8. Tässä koodauksessa yksi Unicode-merkki vie tallennustilaa 1–4 oktettia eli 8 bitin tavua. ASCII-merkistöön kuuluvat merkit (U+0000 – U+007F) esitetään UTF-8:ssa sellaisenaan, yhtenä tavuna, joten UTF-8 on täysin ASCII-yhteensopiva. Se onkin Linuxissa tärkeää, koska siinä käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. Muiden kuin ASCII-merkkien esittämiseksi tarvitaan avuksi lisätavuja, ja esimerkiksi suomen kieleen kuuluvien ä- ja ö-kirjainten esittämiseen tarvitaan kaksi tavua.
Rekisteröitymätön käyttäjä

Navigointivalikko