Ero sivun ”Unicode” versioiden välillä

Siirry navigaatioon Siirry hakuun
565 merkkiä lisätty ,  27. huhtikuuta 2014
ei muokkausyhteenvetoa
Ei muokkausyhteenvetoa
(2 välissä olevaa versiota 2 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
{{perustietoa}}
{{perustietoa}}
[[wikipedia:fi:Unicode|Unicode Wikipediassa]]


'''Unicode''' on standardi, joka muun muassa määrittelee useimmille maailman kirjoitusmerkeille omat merkkikoodinsa. Standardin tarkoituksena on korvata tähän saakka käytössä olleet hyvin erilaiset ja keskenään huonosti yhteensopivat merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että niiden merkkivalikoima on hyvin rajallinen, esimerkiksi 256 merkkiä. Se yleensä tarkoittaa, että samalla merkistöllä ei voida esittää useita kovin erilaisia kieliä. Esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Tämä ei kenties häiritse yksittäistä tietokoneenkäyttäjää, mutta sitä mukaa, kun kansainvälinen tietoliikenne on lisääntynyt, on myös lisääntynyt tarve luoda kaikille yhteinen standardi kirjoitusmerkkien esittämiseksi.
'''Unicode''' on standardi, joka muun muassa määrittelee useimmille maailman kirjoitusmerkeille omat merkkikoodinsa. Standardin tarkoituksena on korvata tähän saakka käytössä olleet hyvin erilaiset ja keskenään huonosti yhteensopivat merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että niiden merkkivalikoima on hyvin rajallinen, esimerkiksi 256 merkkiä. Se yleensä tarkoittaa, että samalla merkistöllä ei voida esittää useita kovin erilaisia kieliä. Esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Tämä ei kenties häiritse yksittäistä tietokoneenkäyttäjää, mutta sitä mukaa, kun kansainvälinen tietoliikenne on lisääntynyt, on myös lisääntynyt tarve luoda kaikille yhteinen standardi kirjoitusmerkkien esittämiseksi.
Rivi 42: Rivi 41:


Jos omassa Linux-järjestelmässä on aiemmin ollut käytössä ISO-8859-15-merkistö (esimerkiksi lokaali fi_FI@euro) ja sittemmin on siirrytty UTF-8:aan, täytyy omat tekstitiedostot muuttaa UTF-8-koodatuiksi, jotta niiden sisältö näkyisi oikein. Yksi tapa tekstitiedoston muuttamiseen UTF-8-koodaukseen on avata se johonkin tekstieditoriin ja tallentaa sitten teksti uudella koodauksella. Nopeampaa saattaa kuitenkin olla komentotulkin ja [[recode]]-ohjelman käyttö:
Jos omassa Linux-järjestelmässä on aiemmin ollut käytössä ISO-8859-15-merkistö (esimerkiksi lokaali fi_FI@euro) ja sittemmin on siirrytty UTF-8:aan, täytyy omat tekstitiedostot muuttaa UTF-8-koodatuiksi, jotta niiden sisältö näkyisi oikein. Yksi tapa tekstitiedoston muuttamiseen UTF-8-koodaukseen on avata se johonkin tekstieditoriin ja tallentaa sitten teksti uudella koodauksella. Nopeampaa saattaa kuitenkin olla komentotulkin ja [[recode]]-ohjelman käyttö:
  recode ISO-8859-15..UTF-8 tiedosto.txt
  recode ISO-8859-15..UTF-8 tiedosto.txt
  for file in *.php; do recode utf-8..iso-8859-15 $file; done;
 
  for file in *.php; do recode ISO-8859-15..UTF-8 "$file"; done


Toinen tiedostokoodauksen muuttamiseen tarkoitettu ohjelma on [[iconv]]. Tiedostojen nimissä käytetyn merkistön muuntaminen onnistuu [[convmv]]-nimisellä ohjelmalla.
Toinen tiedostokoodauksen muuttamiseen tarkoitettu ohjelma on [[iconv]]. Tiedostojen nimissä käytetyn merkistön muuntaminen onnistuu [[convmv]]-nimisellä ohjelmalla.
Rivi 106: Rivi 107:


X-Chatin sivustolta löytyy myös python-scripti (lamechan.py), jolla voi kanavakohtaisesti valita käytetäänkö UTF-8:aa vai jotain toista merkistöä. Tätä scriptiä ei ole saatu toimimaan X-Chatin Windows-versioilla.
X-Chatin sivustolta löytyy myös python-scripti (lamechan.py), jolla voi kanavakohtaisesti valita käytetäänkö UTF-8:aa vai jotain toista merkistöä. Tätä scriptiä ei ole saatu toimimaan X-Chatin Windows-versioilla.
=== HexChat ===
X-Chatin kaltainen, mutta UTF-8 merkistö on oletuksena käytössä.


=== jmIrc ===
=== jmIrc ===


Asetuksista voi määritellä merkistöksi UTF-8:n, tukee myös merkistön automaattista tunnistusta.
Asetuksista voi määritellä merkistöksi UTF-8:n, tukee myös merkistön automaattista tunnistusta.
=== WeeChat ===
WeeChat käyttää UTF-8-merkistökoodausta oletuksena lähetetyissä viesteissä ja tulkitsee sisäänpäin tulevat viestit aina niin ja elleivät ne ole UTF-8:aa, se käyttää asetusta charset.default.decode, jonka oletusarvo on iso-8859-1. Käytettävät merkistöt voi asettaa seuraavilla komennoilla:
<pre>
/set charset.default.decode <merkistö>
/set charset.default.encode UTF-8
</pre>
Jos WeeChatin halutaan tulkitsevan vain UTF-8:aa, tämä tapahtuu komennolla
/set charset.default.decode ""


== Tietoturva ==
== Tietoturva ==

Navigointivalikko