Ero sivun ”Roskaamisen torjunta MediaWikissä” versioiden välillä

Linux.fista
Siirry navigaatioon Siirry hakuun
(välitallennus)
 
Ei muokkausyhteenvetoa
 
(8 välissä olevaa versiota 2 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
[[wikipedia:fi:Wiki|Wikien]] periaatteeseen kuuluu se, että kuka tahansa voi muokata wikin sisältöä. Tämä kuitenkin aiheuttaa joskus ongelmia, kun roskaajat yrittävät esimerkiksi parantaa sivujen sijoittumista Googlen hauissa lisäämällä wikin sivuille linkkejä eri sivustoille. Erilaiset mainostajabotit aiheuttavatkin helposti paljon työtä wikien ylläpitäjille.
[[wikipedia:fi:Wiki|Wikien]] periaatteeseen kuuluu se, että kuka tahansa voi muokata wikin sisältöä. Tämä kuitenkin aiheuttaa joskus ongelmia, kun roskaajat yrittävät esimerkiksi parantaa sivujen sijoittumista hakukoneissa lisäämällä wikin sivuille linkkejä eri sivustoille. Erilaiset mainostajabotit aiheuttavatkin helposti paljon työtä wikien ylläpitäjille.


[[MediaWiki]], yksi suosituimmista wiki-ohjelmistoista, mahdollistaa roskaamisen torjunnan monella eri tavalla. Tässä artikkelissa käydään läpi tapoja, joilla roskaajabottien toimintaa voidaan estää. Suurin osa ohjeista perustuu tällä hetkellä Linux.fin ylläpitäjien käytännön kokemuksiin.
[[MediaWiki]], yksi suosituimmista wiki-ohjelmistoista, sisältää monipuoliset roskaamisen torjuntaominaisuudet. Tässä artikkelissa käydään läpi tapoja, joilla roskaajabottien toimintaa voidaan estää. Suurin osa ohjeista perustuu tällä hetkellä Linux.fin ylläpitäjien käytännön kokemuksiin. Näillä toimenpiteillä on päästy tilanteeseen, jossa botit eivät käytännössä lainkaan roskaa Linux.fitä.


== Anonyymien muokkausten esto ==
== Anonyymien muokkausten esto ==
Rivi 8: Rivi 8:
Lisätietoja löytyy [http://www.mediawiki.org/wiki/Manual:Preventing_access#Restrict_editing_of_all_pages MediaWikin ohjeista].
Lisätietoja löytyy [http://www.mediawiki.org/wiki/Manual:Preventing_access#Restrict_editing_of_all_pages MediaWikin ohjeista].


Joissain wikeissä (kuten Linux.fissä ja Wikipediassa) tätä ei kuitenkaan ole otettu käyttöön, sillä monet asialliset käyttäjät haluavat muokata sivuja anonyymisti. Lisäksi jotkut botit osaavat rekisteröityä jolloin anonyymien muokkausten esto ei niitä haittaa.
Joissain wikeissä (kuten Linux.fissä ja Wikipediassa) tätä ei kuitenkaan ole otettu käyttöön, sillä monet asialliset käyttäjät haluavat muokata sivuja anonyymisti. Lisäksi jotkut botit osaavat rekisteröityä, jolloin anonyymien muokkausten esto ei niitä haittaa.
 
Nykyään roskapostibotit myös osaavat rekisteröityä wikiin ja tehdä artikkeleja, siksi jälkeenmainittu captcha lienee varmin tapa poistaa roskapostitukset.
 
== $wgSpamRegex ==
MediaWiki sisältää sisäänrakennetun roskantunnistajan, joka ei hyväksy muokkausta, jos se toteuttaa muuttujassa <tt>$wgSpamRegex</tt>-määritellyn säännöllisen lausekkeen. Säännöllisiä lausekkeita voi helposti lisätä muokkaamalla tiedostoa <tt>LocalSettings.php</tt>. Linux.fissä käytössä oleva määritelmä löytyy [http://linux.fi/wgspamregex.txt täältä].
 
Lisätietoja löytyy [http://www.mediawiki.org/wiki/Manual:$wgSpamRegex MediaWikin ohjeista].


== SpamBlacklist-lisäosa ==
== SpamBlacklist-lisäosa ==
[http://www.mediawiki.org/wiki/Spamblacklist SpamBlacklist]-lisäosa tarkistaa kaikki muokkaukset säännöllisillä lausekkeilla. Jos muokkaus toteuttaa roskaa määrittelevän lausekkeen, sitä ei hyväksytä.
[http://www.mediawiki.org/wiki/SpamBlacklist SpamBlacklist]-lisäosa tarkistaa muokkaukset säännöllisillä lausekkeilla roskaa sisältävien [[URL]]-osoitteiden varalta. Jos jokin osoite toteuttaa roskaa määrittelevän lausekkeen, ei muokkausta hyväksytä.
 
Lisäosa asennetaan kuten muutkin MediaWikin lisäosat (katso lisätietoja artikkelista [[MediaWiki]] ja lisäosan kotisivulta). Säännöllisiä lausekkeita haetaan oletuksena Wikimedian [http://meta.wikimedia.org/wiki/Spam_blacklist yleisestä listasta] sekä wikin sivuilta [[Järjestelmäviesti:Spam-blacklist]]‎ ja [[Järjestelmäviesti:Spam-whitelist‎]] ("valkoinen lista", muualla määriteltyjen lausekkeiden kumoaminen). Wiki-sivut ovat kenen tahansa ylläpitäjän oikeudet omaavan käyttäjän muokattavissa. Muita lähteitä voi määritellä <tt>LocalSettings.php</tt>-tiedostoon lisättävässä <tt>$wgSpamBlacklistFiles</tt>-muuttujassa [http://www.mediawiki.org/wiki/Spamblacklist#Custom_blacklist_sources].
 
SpamBlacklist-lisäosa on käytössä Linux.fissä.
 
== Title Blacklist -lisäosa ==
[http://www.mediawiki.org/wiki/Extension:Title_Blacklist Title Blacklist] -lisäosa mahdollistaa tiettyyn säännölliseen lausekkeeseen sopivien sivujen otsikoiden, tiedostojen nimien sekä käyttäjätunnusten luomisen estämisen. Muokkauksille, siirroille, tiedostojen latauksille sekä käyttäjätunnusten luomiselle on omat estolistansa, jotka ovat ylläpitäjien muokattavissa järjestelmäviestien kautta. Estoille on myös mahdollista asettaa erilaisia lisämääreitä, kuten luomisen/lataamisen salliminen automaattisesti hyväksytyille käyttäjille (autoconfirmed).
 
Title Blacklist ei ole käytössä Linux.fissä.
 
== Captcha ==
Captchalla tarkoitetaan menetelmää, jossa käyttäjän on vahvistettava olevansa ihminen kirjoittamalla generoidussa kuvassa olevat kirjaimet tekstikenttään tai suorittamalla määritelty laskutoimitus. Kuvasta tehdään yleensä sellainen, että kirjainten tunnistaminen siitä koneellisesti on hyvin haastavaa.
 
MediaWikiin on mahdollista lisätä Captcha-järjestelmä helposti esimerkiksi [http://www.mediawiki.org/wiki/Extension:ConfirmEdit ConfirmEdit]- tai [http://www.mediawiki.org/wiki/Extension:ReCAPTCHA reCAPTCHA]-lisäosilla. Sen asetuksista voi säätää, millaiset muokkaukset edellyttävät tunnistautumista ihmiseksi. Usein tällaisiksi määritellään esimerkiksi anonyymit tai URL-osoitteita sisältävät muokkaukset.
 
Captcha ei ole käytössä esimerkiksi Linux.fissä eikä Wikipediassa, sillä se hankaloittaa joidenkin käyttäjien toimintaa.
 
== SimpleAntiSpam-lisäosa ==
[http://www.mediawiki.org/wiki/Extension:SimpleAntiSpam SimpleAntiSpam]-lisäosa lisää muokkaussivuille tavalliselle käyttäjälle näkymättömän laatikon, jonka jotkut yksinkertaisimmat mainostusbotit täyttävät. Jos tämä laatikko on täytetty, muokkausta ei hyväksytä.
 
Tämä lisäosa on käytössä Linux.fissä.
 
== AbuseFilter -lisäosa ==
[http://www.mediawiki.org/wiki/Extension:AbuseFilter AbuseFilter]-lisäosa mahdollistaa pitkälle menevän muokkausten luokittelun erilaisen [http://www.mediawiki.org/wiki/Extension:AbuseFilter/RulesFormat metatiedon] perusteella sekä automaattisten [http://www.mediawiki.org/wiki/Extension:AbuseFilter/Actions toimintojen] kytkemisen tähän luokitteluun. AbuseFilterin avulla on vaikkapa mahdollista antaa automaattinen esto kaikille alle tunnin ikäisille käyttäjille, jotka lyhentävät vähintään kahta artikkelia vartin aikana yli 3000 merkillä korkeintaan 100 merkin pituisiksi eikä kyseessä ole uudelleenohjausten luominen, eikä kyseinen käyttäjä ole muokannut kyseisiä artikkeleita aiemmin lähiaikoina. Tai esimerkiksi torjua muokkaukset, joiden yhteydessä artikkeliin lisätään vähintään kymmenen samanlaista kirjainta peräkkäin.
 
AbuseFilter-sääntöjen luominen tapahtuu erillisen web-käyttöliittymän kautta ([[Toiminnot:Väärinkäyttösuodatin]]). Niiden katseluun, muokkaukseen ja lokin seurantaan oikeutetut käyttäjätunnukset voidaan määritellä erikseen.
 
Abuse Filter on käytössä Linux.fi:ssä. Käytössä olevat suodattimet näkee sivulta [[Toiminnot:Väärinkäyttösuodatin]]. Suomenkielisen Wikipedian suodattimet näkee [http://fi.wikipedia.org/wiki/Toiminnot:V%C3%A4%C3%A4rink%C3%A4ytt%C3%B6suodatin Wikipedian vastaavalta sivulta].


Lisäosa asennetaan kuten muutkin MediaWikin lisäosat (katso lisätietoja artikkelista [[MediaWiki]] ja lisäosan kotisivulta). Lisäksi <tt>LocalSettings.php</tt>-tiedostossa määritellään, mistä roskaa määrittelevät säännölliset lausekkeet haetaan. Tiedostoon lisätään siis rivit
== Aiheesta muualla ==
<pre>
*[http://www.mediawiki.org/wiki/Spam MediaWikin ohjeet roskaamisen torjuntaan]
require_once( "$IP/extensions/SpamBlacklist/SpamBlacklist.php" );
$wgSpamBlacklistFiles = array(
  "$IP/extensions/SpamBlacklist/wikimedia_blacklist", // Wikimedian lista
  //  tietokanta    sivun otsikko
  "DB: wikidb My_spam_blacklist",   
);
</pre>
Eli taulukkoon <tt>$wgSpamBlacklistFiles</tt> määritellään säännöllisten lausekkeiden paikat. Tässä ensimmäinen kohde on hakemistossa <tt>extensions/SpamBlacklist</tt> oleva tiedosto <tt>wikimedia_blacklist</tt>, joka on tarkoitus päivittää väliajoin MediaWikin palvelimelta. Tiedoston on tarkoitus olla wikien yhteinen roskalista. Sen voi hakea osoitteesta http://meta.wikimedia.org/w/index.php?title=Spam_blacklist&action=raw&sb_ver=1. Tätä listaa ei ole pakko kopioida MediaWikiä ajavalle palvelimelle, vaan <tt>$wgSpamBlacklistFiles</tt>-taulukkoon voidaan laittaa suoraan tämä osoite.


[[Luokka:Tietoturva]]
[[Luokka:Tietoturva]]
[[Luokka:Ohjeet]]
[[Luokka:Ohjeet]]

Nykyinen versio 14. tammikuuta 2015 kello 23.57

Wikien periaatteeseen kuuluu se, että kuka tahansa voi muokata wikin sisältöä. Tämä kuitenkin aiheuttaa joskus ongelmia, kun roskaajat yrittävät esimerkiksi parantaa sivujen sijoittumista hakukoneissa lisäämällä wikin sivuille linkkejä eri sivustoille. Erilaiset mainostajabotit aiheuttavatkin helposti paljon työtä wikien ylläpitäjille.

MediaWiki, yksi suosituimmista wiki-ohjelmistoista, sisältää monipuoliset roskaamisen torjuntaominaisuudet. Tässä artikkelissa käydään läpi tapoja, joilla roskaajabottien toimintaa voidaan estää. Suurin osa ohjeista perustuu tällä hetkellä Linux.fin ylläpitäjien käytännön kokemuksiin. Näillä toimenpiteillä on päästy tilanteeseen, jossa botit eivät käytännössä lainkaan roskaa Linux.fitä.

Anonyymien muokkausten esto[muokkaa]

Yksi helppo tapa rajoittaa muokkaajabottien toimintaa on estää muokkaaminen sisäänkirjautumattomilta käyttäjiltä. Tämä onnistuu lisäämällä LocalSettings.php-tiedostoon rivi

$wgGroupPermissions['*']['edit'] = false;

Lisätietoja löytyy MediaWikin ohjeista.

Joissain wikeissä (kuten Linux.fissä ja Wikipediassa) tätä ei kuitenkaan ole otettu käyttöön, sillä monet asialliset käyttäjät haluavat muokata sivuja anonyymisti. Lisäksi jotkut botit osaavat rekisteröityä, jolloin anonyymien muokkausten esto ei niitä haittaa.

Nykyään roskapostibotit myös osaavat rekisteröityä wikiin ja tehdä artikkeleja, siksi jälkeenmainittu captcha lienee varmin tapa poistaa roskapostitukset.

$wgSpamRegex[muokkaa]

MediaWiki sisältää sisäänrakennetun roskantunnistajan, joka ei hyväksy muokkausta, jos se toteuttaa muuttujassa $wgSpamRegex-määritellyn säännöllisen lausekkeen. Säännöllisiä lausekkeita voi helposti lisätä muokkaamalla tiedostoa LocalSettings.php. Linux.fissä käytössä oleva määritelmä löytyy täältä.

Lisätietoja löytyy MediaWikin ohjeista.

SpamBlacklist-lisäosa[muokkaa]

SpamBlacklist-lisäosa tarkistaa muokkaukset säännöllisillä lausekkeilla roskaa sisältävien URL-osoitteiden varalta. Jos jokin osoite toteuttaa roskaa määrittelevän lausekkeen, ei muokkausta hyväksytä.

Lisäosa asennetaan kuten muutkin MediaWikin lisäosat (katso lisätietoja artikkelista MediaWiki ja lisäosan kotisivulta). Säännöllisiä lausekkeita haetaan oletuksena Wikimedian yleisestä listasta sekä wikin sivuilta Järjestelmäviesti:Spam-blacklist‎ ja Järjestelmäviesti:Spam-whitelist‎ ("valkoinen lista", muualla määriteltyjen lausekkeiden kumoaminen). Wiki-sivut ovat kenen tahansa ylläpitäjän oikeudet omaavan käyttäjän muokattavissa. Muita lähteitä voi määritellä LocalSettings.php-tiedostoon lisättävässä $wgSpamBlacklistFiles-muuttujassa [1].

SpamBlacklist-lisäosa on käytössä Linux.fissä.

Title Blacklist -lisäosa[muokkaa]

Title Blacklist -lisäosa mahdollistaa tiettyyn säännölliseen lausekkeeseen sopivien sivujen otsikoiden, tiedostojen nimien sekä käyttäjätunnusten luomisen estämisen. Muokkauksille, siirroille, tiedostojen latauksille sekä käyttäjätunnusten luomiselle on omat estolistansa, jotka ovat ylläpitäjien muokattavissa järjestelmäviestien kautta. Estoille on myös mahdollista asettaa erilaisia lisämääreitä, kuten luomisen/lataamisen salliminen automaattisesti hyväksytyille käyttäjille (autoconfirmed).

Title Blacklist ei ole käytössä Linux.fissä.

Captcha[muokkaa]

Captchalla tarkoitetaan menetelmää, jossa käyttäjän on vahvistettava olevansa ihminen kirjoittamalla generoidussa kuvassa olevat kirjaimet tekstikenttään tai suorittamalla määritelty laskutoimitus. Kuvasta tehdään yleensä sellainen, että kirjainten tunnistaminen siitä koneellisesti on hyvin haastavaa.

MediaWikiin on mahdollista lisätä Captcha-järjestelmä helposti esimerkiksi ConfirmEdit- tai reCAPTCHA-lisäosilla. Sen asetuksista voi säätää, millaiset muokkaukset edellyttävät tunnistautumista ihmiseksi. Usein tällaisiksi määritellään esimerkiksi anonyymit tai URL-osoitteita sisältävät muokkaukset.

Captcha ei ole käytössä esimerkiksi Linux.fissä eikä Wikipediassa, sillä se hankaloittaa joidenkin käyttäjien toimintaa.

SimpleAntiSpam-lisäosa[muokkaa]

SimpleAntiSpam-lisäosa lisää muokkaussivuille tavalliselle käyttäjälle näkymättömän laatikon, jonka jotkut yksinkertaisimmat mainostusbotit täyttävät. Jos tämä laatikko on täytetty, muokkausta ei hyväksytä.

Tämä lisäosa on käytössä Linux.fissä.

AbuseFilter -lisäosa[muokkaa]

AbuseFilter-lisäosa mahdollistaa pitkälle menevän muokkausten luokittelun erilaisen metatiedon perusteella sekä automaattisten toimintojen kytkemisen tähän luokitteluun. AbuseFilterin avulla on vaikkapa mahdollista antaa automaattinen esto kaikille alle tunnin ikäisille käyttäjille, jotka lyhentävät vähintään kahta artikkelia vartin aikana yli 3000 merkillä korkeintaan 100 merkin pituisiksi eikä kyseessä ole uudelleenohjausten luominen, eikä kyseinen käyttäjä ole muokannut kyseisiä artikkeleita aiemmin lähiaikoina. Tai esimerkiksi torjua muokkaukset, joiden yhteydessä artikkeliin lisätään vähintään kymmenen samanlaista kirjainta peräkkäin.

AbuseFilter-sääntöjen luominen tapahtuu erillisen web-käyttöliittymän kautta (Toiminnot:Väärinkäyttösuodatin). Niiden katseluun, muokkaukseen ja lokin seurantaan oikeutetut käyttäjätunnukset voidaan määritellä erikseen.

Abuse Filter on käytössä Linux.fi:ssä. Käytössä olevat suodattimet näkee sivulta Toiminnot:Väärinkäyttösuodatin. Suomenkielisen Wikipedian suodattimet näkee Wikipedian vastaavalta sivulta.

Aiheesta muualla[muokkaa]