Ero sivun ”UTF-8” versioiden välillä

UTF-8 (muokkaa)

Versio 31. heinäkuuta 2006 kello 21.07

6 merkkiä poistettu , 31. heinäkuuta 2006

ei muokkausyhteenvetoa

Rekisteröitymätön käyttäjä

80.221.71.92

Versio 31. heinäkuuta 2006 kello 21.06 (muokkaa) 80.221.71.92 (keskustelu) Ei muokkausyhteenvetoa ← Vanhempi muutos		Versio 31. heinäkuuta 2006 kello 21.07 (muokkaa) (kumoa) 80.221.71.92 (keskustelu) Ei muokkausyhteenvetoa Uudempi muutos →
Rivi 3:		Rivi 3:


	'''Unicode''' on standardi, joka määrittelee kaikille maailman merkeille omat merkkikoodinsa ~~(UCS)~~. Tarkoituksena on korvata tähän saakka käytössä olleet keskenään hyvin erilaiset, lähes kielikohtaiset merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että samalla merkistöllä ei voida esittää useita erilaisia kieliä. Näin ollen esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Unicode pyrkii ratkaisemaan tällaiset ongelmat luomalla kaikille yhteisen merkistön, joka sisältää kaikki nykyiset (ja jopa entiset) kirjoitusjärjestelmät. Unicode-standardi käsittää 1 114 111 merkkiä, ja ne yksilöidään tunnuksella, joka on muotoa U+xxxx. Tunnuksessa ”xxxx” on merkin numerokoodi heksadesimaalimuodossa. Mahdolliset koodit ovat U+0000 – U+10FFFF.		'''Unicode''' on standardi, joka määrittelee kaikille maailman merkeille omat merkkikoodinsa. Tarkoituksena on korvata tähän saakka käytössä olleet keskenään hyvin erilaiset, lähes kielikohtaiset merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että samalla merkistöllä ei voida esittää useita erilaisia kieliä. Näin ollen esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Unicode pyrkii ratkaisemaan tällaiset ongelmat luomalla kaikille yhteisen merkistön, joka sisältää kaikki nykyiset (ja jopa entiset) kirjoitusjärjestelmät. Unicode-standardi käsittää 1 114 111 merkkiä, ja ne yksilöidään tunnuksella, joka on muotoa U+xxxx. Tunnuksessa ”xxxx” on merkin numerokoodi heksadesimaalimuodossa. Mahdolliset koodit ovat U+0000 – U+10FFFF.

	Unicode-merkkejä sisältävää tekstiä voidaan tallentaa tietokoneelle useilla eri tavoilla. Linuxissa käytetty Unicoden koodaustapa on nimeltään UTF-8. Tässä koodauksessa yksi Unicode-merkki vie tallennustilaa 1–4 oktettia eli 8 bitin tavua. ASCII-merkistöön kuuluvat merkit (U+0000 – U+007F) esitetään UTF-8:ssa sellaisenaan, yhtenä tavuna, joten UTF-8 on täysin ASCII-yhteensopiva. Se onkin Linuxissa tärkeää, koska siinä käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. Muiden kuin ASCII-merkkien esittämiseksi tarvitaan avuksi lisätavuja, ja esimerkiksi suomen kieleen kuuluvien ä- ja ö-kirjainten esittämiseen tarvitaan kaksi tavua.		Unicode-merkkejä sisältävää tekstiä voidaan tallentaa tietokoneelle useilla eri tavoilla. Linuxissa käytetty Unicoden koodaustapa on nimeltään UTF-8. Tässä koodauksessa yksi Unicode-merkki vie tallennustilaa 1–4 oktettia eli 8 bitin tavua. ASCII-merkistöön kuuluvat merkit (U+0000 – U+007F) esitetään UTF-8:ssa sellaisenaan, yhtenä tavuna, joten UTF-8 on täysin ASCII-yhteensopiva. Se onkin Linuxissa tärkeää, koska siinä käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. Muiden kuin ASCII-merkkien esittämiseksi tarvitaan avuksi lisätavuja, ja esimerkiksi suomen kieleen kuuluvien ä- ja ö-kirjainten esittämiseen tarvitaan kaksi tavua.

Ero sivun ”UTF-8” versioiden välillä

UTF-8 (muokkaa)

Versio 31. heinäkuuta 2006 kello 21.07

Navigointivalikko

Haku