Ero sivun ”UTF-8” versioiden välillä

Siirry navigaatioon Siirry hakuun
(rc7)
(kh)
Rivi 1: Rivi 1:
Unicode on standardi, joka pyrkii määrittelemään kaikille maailman merkeille omat merkkikoodinsa (UCS). Tarkoituksena on korvata tähän saakka käytössä olleet keskenään kilpailevat merkistöt ja koodisivut, joista kukin on voinut esittää vain osan tarvittavista merkeistä. Esimerkiksi suosittu IRC-client mIRC käyttää suomalaisilla koneilla merkistöä Microsoft CP1252, kun suurin osa Linux-koneista puolestaan käyttää merkistöä ISO-8859-1 (Latin-1) ja Finnish-HOWTO:n mukaan säädetyt Linux-koneet puolestaan merkistöä ISO-8859-15. Merkistöissä on yhteneväisyyksiä ja esim. tavalliset ääkköset ovat kaikissa samoilla merkkikoodeilla, mutta jo euromerkki näkyy eri merkistöillä eri tavoilla. Unicode ratkaisee ongelman ottamalla käyttöön 21-bittisen merkkiavaruuden, johon mahtuu siis peräti kaksi miljoonaa merkkiä, joista usean merkin yhdistelmillä saadaan vielä lisää. Tämän katsotaan riittävän ikuisesti.
{{perustietoa}}
 
 
'''Unicode''' on standardi, joka pyrkii määrittelemään kaikille maailman merkeille omat merkkikoodinsa (UCS). Tarkoituksena on korvata tähän saakka käytössä olleet keskenään kilpailevat merkistöt ja koodisivut, joista kukin on voinut esittää vain osan tarvittavista merkeistä. Esimerkiksi suosittu IRC-client mIRC käyttää suomalaisilla koneilla merkistöä Microsoft CP1252, kun suurin osa Linux-koneista puolestaan käyttää merkistöä ISO-8859-1 (Latin-1) ja Finnish-HOWTO:n mukaan säädetyt Linux-koneet puolestaan merkistöä ISO-8859-15. Merkistöissä on yhteneväisyyksiä ja esim. tavalliset ääkköset ovat kaikissa samoilla merkkikoodeilla, mutta jo euromerkki näkyy eri merkistöillä eri tavoilla. Unicode ratkaisee ongelman ottamalla käyttöön 21-bittisen merkkiavaruuden, johon mahtuu siis peräti kaksi miljoonaa merkkiä, joista usean merkin yhdistelmillä saadaan vielä lisää. Tämän katsotaan riittävän ikuisesti.


Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on unix-puolella (Linux) tärkein Unicode-koodaustapa ja se on jo muutamissa distroissa vakiona käytössä. Tässä yksi merkki on kooltaan 1-6 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot, yms, mutta ei esim. ääkköset) ovat sellaisinaan ja näin saavutetaan ASCII-yhteensopivuus.
Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on unix-puolella (Linux) tärkein Unicode-koodaustapa ja se on jo muutamissa distroissa vakiona käytössä. Tässä yksi merkki on kooltaan 1-6 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot, yms, mutta ei esim. ääkköset) ovat sellaisinaan ja näin saavutetaan ASCII-yhteensopivuus.
Rivi 9: Rivi 12:
Nykyisin suomalaisilla IRC-kanavilla käytetään enimmäkseen vanhoja 8-bittisiä merkistöjä, joilla esiintyy edellä kuvattuja ongelmia. Tästä syystä siirros UTF-8:n käyttöön on pikkuhiljaa tapahtumassa, mutta sitä luonnollisesti hidastaa se, että monet clientit eivät tue ko. merkistöä lainkaan ilman erillisiä scriptejä ja toisaalta se että vain muutama client saadaan tukemaan vanhaa 8-bittistä ja UTF-8:a samaan aikaan, siten että muiden kirjoittamat tekstit näkyisivät oikein riippumatta siitä kumpaa käytetään. Tilanne onneksi kuitenkin paranee kaiken aikaa ja on selvää että UTF-8:n käyttöön tullaan tulevaisuudessa siirtymään kokonaan. Siirros ei kuitenkaan missään tapauksessa tule tapahtumaan yhden yön aikana, joten olisi toivottavaa että mahdollisimman monista clienteistä löytyisi sekakäytön mahdollistava merkistön autodetectointi. Täytyy tosin mainita että useilla kanavilla on saanut merkittävää kannatusta merkistönvaihtopäiväksi valittu päivämäärä 1.1.2006, eli siis vuoden vaihteen jälkeen olisi kaikkien asioista perillä olevien erittäin suotavaa alkaa kirjoittaa vain UTF-8:a kaikille kanaville. Tällä mahdollistetaan mahdollisimman nopea ja helppo siirtymä niillekin, joilla ei autodetectointia clientissään ole.
Nykyisin suomalaisilla IRC-kanavilla käytetään enimmäkseen vanhoja 8-bittisiä merkistöjä, joilla esiintyy edellä kuvattuja ongelmia. Tästä syystä siirros UTF-8:n käyttöön on pikkuhiljaa tapahtumassa, mutta sitä luonnollisesti hidastaa se, että monet clientit eivät tue ko. merkistöä lainkaan ilman erillisiä scriptejä ja toisaalta se että vain muutama client saadaan tukemaan vanhaa 8-bittistä ja UTF-8:a samaan aikaan, siten että muiden kirjoittamat tekstit näkyisivät oikein riippumatta siitä kumpaa käytetään. Tilanne onneksi kuitenkin paranee kaiken aikaa ja on selvää että UTF-8:n käyttöön tullaan tulevaisuudessa siirtymään kokonaan. Siirros ei kuitenkaan missään tapauksessa tule tapahtumaan yhden yön aikana, joten olisi toivottavaa että mahdollisimman monista clienteistä löytyisi sekakäytön mahdollistava merkistön autodetectointi. Täytyy tosin mainita että useilla kanavilla on saanut merkittävää kannatusta merkistönvaihtopäiväksi valittu päivämäärä 1.1.2006, eli siis vuoden vaihteen jälkeen olisi kaikkien asioista perillä olevien erittäin suotavaa alkaa kirjoittaa vain UTF-8:a kaikille kanaville. Tällä mahdollistetaan mahdollisimman nopea ja helppo siirtymä niillekin, joilla ei autodetectointia clientissään ole.


Seuraavassa tärkeimpien IRC-clientien conffaus.
Alla on lueteltu tärkeimpien IRC-ohjelmien UTF-8-yhteensopivuus.


=== ChatZilla ===
=== ChatZilla ===
Noudettu kohteesta ”https://www.linux.fi/wiki/UTF-8