Kjør Wikipedia uten internett-tilgang

Har fått et par spørsmål om hvordan man kan ha tilgang til Wikipedia uten å ha internett-tilgang. Nye regler i forbindelse med avvikling av eksamen i ungdomsskolen og videregående skole gir elevene mulighet til å bruke alle virkemidler, så lenge de ikke kan kommunisere med hverandre, og den metoden jeg beskriver er dermed fult lovlig å bruke, men jeg vil anbefale at IT-ansvarlig på skolen gjennomfører den, og ikke at hver enkelt elev gjør dette på egenhånd, fordi det kan være relativt store datamengder som tar mye plass.

Last ned databasedump av Wikipedia

Wikimedia Foundation som er stiftelsen som står bak Wikipedia gjør alt innhold fra Wikipedia tilgjengelig på download.wikimedia.org. Velg ut de databasene du er interessert i, og last ned filen “pages-articles.xml.bz2″ i den siste databasedumpen som er gjort tilgjengelig:

  • Wikipedia på bokmål/riksmål: nowiki
  • Wikipedia på nynorsk: nnwiki
  • Wikipedia på engelsk: enwiki

Last ned WikiTaxi

WikiTaxi er en offline reader som kan lese databasedumpene som du akkurat har lastet ned. Den kan finnes på www.wikitaxi.org.

Konverter XML til WikiTaxi-database

XML er et veldig fleksibelt format, men det er tungvindt å gjøre søkbart. Derfor må databasedumpen konverteres til WikiTaxi-database. Dette gjøres med programmet wikitaxi_import.exe som følger med WikiTaxi. Fyll inn hvor du har lagret xml’en du vil konvertere i første feltet, hvor du vil at databasen skal lagres i det andre feltet, og trykk på Import. Programmet vil nå jobbe en stund med å konvertere dataen (for meg brukte den ca. 5 minutter på Wikipedia på bokmål)

Start WikiTaxi.exe

Dersom du bare trykker på WikiTaxi.exe vil du få opp en bruksanvisning med beskrivelse av programmet og hvordan du bruker det, i begynnelsen av denne vil du også få en lenke for å åpne en ny fil, hvor du kan bla deg frem til hvor du har lagret den konverterte databasen i forrige steg. Åpne filen og du får opp teksten fra Wikipedia, med søkefelt for å finne artikler.

Du kan også spesifisere hvor databasen ligger direkte ved å skrive adressen til .taxi-fila som en parameter til wikitaxi.exe slik:

p:\Applikasjoner\Wikipedia\WikiTaxi.exe p:\Applikasjoner\Wikipedia\nowiki\nowiki.taxi

Store Norskes siste sleivspark?

Ja, da har nyheten endelig kommet; Store Norske Leksikon legger ned fra 1. juli (merk at pressemeldingen er kvalitetssikret…), fordi Kulturdepartementet ikke vil finansiere produktet deres, som har feilet ganske kraftig.

At Store Norske kan greie å skrive en pressemelding som de har gjort syns jeg er ganske kvalmt. De har i lang tid sliti med å konkurrere med Wikipedia og internett forøvrig, og når de fortsatt ikke er villig til å innse at forretningsmodellen dems har feilet, og fortsetter med sleivspark mot konkurrentene, syns jeg ikke de fortjener bedre.

Wikimedia Norge har i lang tid forsøkt å samarbeide, og å finne samarbeidsprosjekter som Kunnskapsforlaget og Wikimedia/Wikipedia kan samarbeide om, men Kunnskapsforlaget har alltid vært rimelig ensporet i sine tanker om samarbeid (som f.eks. at Wikipedia skal linke til SNL som kilde, mens SNL ikke skal linke tilbake til Wikipedia). Hadde SNL vært villig til å samarbeide tidligere, i stedenfor å være stolte over sin døende forretningsmodell, så hadde vi aldri kommet til denne situasjonen; Vi kunne hatt en god konkurranse og et godt samarbeid i det norske leksikonmiljøet.

I stedenfor har vi nå en situasjon, hvor SNLs siste krampetrekninger, er å sende ut en pressemelding, som både skader dem selv, Wikipedia og leksikontradisjonen i Norge. Fortsatt har de ikke forstått hvorfor Wikipedia er mer populært, og hvorfor brukerne ikke kommer til SNL. Spesielt tenker jeg på tilleggene som følger med pressemeldingen:

Hvorfor trenger Norge et nasjonalt leksikon med synlige fagfolk også i fremtiden?

Wikipedia er en verdenssuksess med sitt prinsipp om at alle kan bidra fritt og usignert, og ingen enkelt står ansvarlig. De nasjonale fagfolk-leksikonene har dermed mistet sitt økonomiske grunnlag og går mot nedleggelse. Store norske leksikon står nå for tur. Norge trenger et Wikipedia i fremtiden, men også et Store norske med synlige fagfolk som går god for og kan stilles til ansvar for innholdet. Som nasjonal institusjon er fagfolk-leksikonet viktig:

Spesielt den siste biten her syns jeg er interessant. Det skal ikke mye til for å kalles fagfolk. Alt som i realiteten skal til for å bli “fagansvarlig” hos Store Norske er at du er identifisert; ikke at du har en formell utdannelse innen faget. F.eks. er de fagansvarlige for de forskjellige kommunene stort sett mennesker som bor i kommunen eller en nabokommune, og ikke en som har mye mer kunnskap enn de fleste lokale mennesker kan forventes å ha. Systemet med fagansvarlige har også feilet, da det i mange tilfeller er foreslått endringer på artikler for opptil et år tilbake i tid, men endringene blir ikke håndtert. Brukerne kommer med tilbakemelding om faktafeil, og fagfolkene lar feilene stå eller gidder ikke fikse dem? Hvorfor skal du holde noen ansvarlig for innholdet, når de ikke vil ta ansvaret?

For skoleverk, læresteder og forskning, for å oppfylle grunnleggende krav til sitering og kildehenvisning – at man vet hvem avsender er.

For skoleverket kan stort sett hvilken som helst kilde brukes til sitering, men innen forskning er ingen leksikon god kilde for noenting. Der bør man gå til orginalkilder. Det viktigste er ikke hvem kilden der, men hvordan man tolker den informasjonen som er oppgitt.

For fagforfatterne og fagmiljøene, som formidlingsplattform med honorering og synlig kreditering.

Fagforfatterne og fagmiljøene bør se på hva som gir mest effekt, og sprer faget til flest mulig mennesker. Per dags dato er ikke dette Store Norske, men Wikipedia, og Wikipedia ønsker dem velkomne. Dersom kreditering er viktig for enkeltpersoner, så ville jeg personlig ha lagt ut informasjonen på egen hjemmeside i tillegg, men den store effekten kommer av publisering på Wikipedia.

For biblioteksektoren, som trenger kvalitetssikrede autoritative kilder.

Nå er ikke et leksikon en autorativ kilde for noenting, siden all informasjon i et leksikon nødvendigvis må bli andrehåndsinformasjon, men poenget om kvalitetssikrede hjelper lite når SNL ikke har greid, og med dagens modell ikke kan bli i stand til, å gå god for at informasjonen er 100% korrekt.

For norsk fagspråk, og norsk som språk. Det er god språkpolitikk ikke å overlate valg og definisjon av norske fagtermer til en anonym brukermasse.

Personlig er jeg tilhenger av at språket skal være levende, og at skriftspråket skal gjenspeile hva som brukes i den store befolkningen (og sist jeg sjekket er den norske befolkningen en stor anonym brukermasse). Norsk språkråd gjør mye bra de, men jeg er riv ruskende uenig i endel av valgene de tar, som er stikk i strid med hva noen i den norske befolkningen bruker (sørver om server? Måltidet lønsj? hvor kommer de definisjonene fra?)

For nasjonens identitet, for å omtale det som er nasjonalt viktig, ikke minst for å fange opp et multikulturelt Norge i rask endring. Denne oppgaven bør ligge hos synlige ansvarlige og ikke det store kollektivet. Det kan også vise seg problematisk i lengden for kollektiv-leksikonets norske vinkling at det utgår fra en internasjonal plattform med hovedbase i USA.

Selvmotsigelse? Å fange opp det multikulturelle Norge bør ligge hos enkeltpersoner? Og til den siste biten, så kan hvem som helst forke Wikipedia, ved å laste ned hele databasen fra download.wikimedia.org. Å spekulere i hvilken retning Wikipedia kommer til å ta, er unødvendig i en slik pressemelding, da Wikipedia har mulighet til å ta begge veier (noe det også har gjort tidligere, i Spania når det begynte å bli snakk om å ha reklame på Wikipedia, startet en gruppe opp et konkurrerende prosjekt, som siden har funnet veien tilbake i Wikipedia.)

For synliggjøring av makt. Et leksikon er en maktfaktor. Fagfolk-leksikonet synliggjør menneskene bak, det kollektive dugnadsleksikonet tilslører dem, med risiko for skjult maktkamp. Norges eventuelle eneste storleksikon i fremtiden må ikke være styrt av usynlige krefter inngitt autoritet på ukjente premisser.

Når Store Norske Leksikon er villig til å innrømme hvem som skjuler seg bak “Redaksjonen” på SNL som har ansvaret for det store flertallet av artikler på SNL, så kan vi vurdere å diskutere denne…

For å oppfylle grunnleggende krav til en nasjonal institusjon. Hvis Internetts mekanismer alene får rå, vil vi om kort tid stå igjen – i Norge som i andre land – med ett leksikon, Wikipedia, som er en rik kilde til detaljert oppdatert informasjon, men som ikke oppfyller grunnleggende krav til en nasjonal kultur- og kunnskapsinstitusjon.

Hvis SNL er villig til å informere om hva som er “grunnleggende krav til en nasjonal kultur- og kunnskapsinstitusjon”, så er jeg villig til å fortelle dem hvorfor Wikipedia tilfredsstiller disse kravene (evt. hvorfor det er feil i kravene). Forøvrig ville en slik setning *ALDRI* fått lov til å stå på Wikipedia, for den er alt for grov til å stå uten en referanse..

Hvem var anonyme sa du?

Aftenposten har i dag en leder om Store Norske Leksikon/Wikipedia hvor det bl.a. hevdes:

Et brukerbasert nettleksikon som Wikipedia, der bidragsyterne er anonyme, er imidlertid bare et supplement til et kvalitetssikret leksikon der navngitte fagpersoner kan stilles til ansvar for innholdet.

Og da må jeg spørre: Hvem er “Redaksjonen” som dukker opp på de fleste artikler på Store Norske? Hvordan kan man stille fagpersoner i Store Norske til ansvar for det de har skrevet som er galt (og jeg kan garantere deg at det er mye galt der)? SNL-Redaksjonen er ikke noe mer enn det samme som Wikipedia-administratorene; personer som kan kildekritikk; ikke (nødvendigvis) faget de skriver om.

Jeg kan love deg at jeg kan fortelle deg mye mer om de såkalte “anonyme” bidragsyterne på Wikipedia enn de “navngitte fagpersonene” på Store Norske (som ofte ikke er fagpersoner heller, bare navngitte, hvis de ikke tilhører Redaksjonen).

Når skal norske redaktører og Wikipedia-kritikere  lære seg at det ikke finnes noen absolutte sannheter; bare kilder med større eller mindre troverdighet…

Grunner til ikke å bli administrator

Dette er en liten notatliste over grunner jeg kan finne på for at brukere ikke bør bli administratorer på Wikipedia… Med mindre de har lyst da selvfølgelig (jeg mener at alle som har lyst, og som har vist at de kan stoles på, bør få verktøyene, selv om det er noen negative sider som jeg har beskrevet under). Anser det ikke som en fullstendig liste, og oppdaterer den litt tilfeldig når jeg kommer på flere grunner. Kom gjerne med flere

  • Konstant kritisert av andre brukere
  • Bruker mer tid på å debattere ting enn på å faktisk gjøre noe produktivt
  • Telefoner og e-post fra tilfeldige brukere som er uenig i noe du har gjort
  • Vanskelig å ta en pause fra Wikipedia-arbeidet og gjøre noe annet en periode for ikke å gå lei, uten å bli kritisert for å ikke gjøre administrator-jobben
  • Folk legger mye i statusen når det gjelder debatter av negativ art, mens det i positiv art “bare er noen ekstra knapper og ingenting viktig”
  • Ikke kunne ta igjen hvis noen er slemme/prater stygt mot deg
  • Dødstrusler (Hvorfor gjør så mange ting på internett de aldri ville funnet på å gjøre IRL?)

Avstemming om globale administratorer på meta

Det har nå begynt en avstemming om globale administratorer på metawiki. Dette er tredje gangen dette temaet er oppe, forrige gang ble det vedtatt, men med noe som i mine øyne gjør det feil: wikiene må selv be om få aktivert globale administratorer. Globale administratorer er ment å hjelpe de små wikiene som ikke har fungerende nettsamfunn, og få eller ingen administratorer. Fordi disse wikiene ikke engang vet om globale administratorer, så har ingen av dem aktivert støtte for globale administratorer, og av den grunnen har heller ingen bedt om å få globale administrator-rettigheter.

Samtidig har vi en gruppe som har fungert veldig bra: Global rollback. Denne rettigheten gis på alle wikier, og wikiene har ikke mulighet til å velge å være med eller ikke. Rettighetene denne får er ukontroversielle (i hovedsak tilbakestilling/rollback, men også autoconfirmed (redigere semibeskyttede sider) og flytting av artikler uten å etterlate en omdirigering). Global rollback har i hovedsak blitt gitt til medlemmer av Small Wiki Monitoring Team, som følger med på redigeringer på noen hundre forskjellige små wikier, og er en ordning som fungerer godt.

Det har blitt antydet at oppgaven med å følge med på små wikier er en oppgave som ligger på Stewards, noe som aldri har vært tilfelle. Stewards som gruppe ble opprettet for å håndtere rettighetsstyring på alle Wikimedia Foundation wikier, fordi det frem til da hadde blitt håndtert av systemadministratorene som hadde tilgang direkte i databasene (det er forøvrig ikke en pen måte å styre rettigheter på). Systemadministratorene gjorde dette helt ubyråkratisk: førstemann som ba om å få rettigheter på en wiki, fikk byråkrat-rettigheter, og kunne gjøre mer eller mindre hva han/hun ville på wikien. Dette har skapt endel problemer, og stewards har derfor måtte lage endel byråkrati, bl.a. ved å gi ut “midlertidig adminrettigheter”, og å ikke gi ut byråkrat-rettigheter før wikien er stor nok til å håndtere sine egne konflikter m.m.

Før SUL ble aktivert på alle Wikimedia Foundations wikier var det vanskelig å gi rettigheter på tvers av mange wikier, og oppgaven med å gi seg selv administrator-rettigheter, for så å slette tull på forskjellige små wikier falt da ofte på stewards, men det var like vanlig at man ga medlemmer av SWMT adminrettigheter på wikien for noen minutter/timer, slik at de kunne rydde opp. Nå har vi muligheten til å gi medlemmene av SWMT tilgangen direkte, noe som vil avlasta stewards veldig, da aktivering av SUL også har økt oppgavene til Stewards.

Det sagt, så vil jeg håpe at så mange som mulig støtter forslaget om globale administratorer. Kan også nevne at det er planlagt et nytt stewardvalg rimelig snart, og at det også trengs flere stewards, og jeg håper at flere med nordisk bakgrunn har lyst til å hjelpe til med en utfordrende og spennende jobb som strekker seg på tvers av mange språk og mange kulturer.

Automatisk oversetting mellom nynorsk og bokmål

Etter at en artikkel på NRK dukket opp på IRC-kanalen til norsk Wikipedia i dag, så har jeg brukt endel tid på å undersøke oversetting fra nynorsk Wikipedia til bokmål, og må si jeg er imponert. Har testet med å oversette to artikler fra nynorsk: den greske guden Asopos og tettstedet Askvoll. Begge ser ut til å ha blitt rimelig bra, selv om det var litt småproblemer med noen ord som ble oversatt feil (ord med to betydninger f.eks.).

I motsetning til f.eks. Google Translate, som benytter seg av store mengder tekst som eksisterer på flere språk og som så klaskes sammen ut i fra statistisk sannsynlighet, så benytter Apertium seg av språkregler som sier hvordan ordene skal oversettes, noe som ser ut til å fungere veldig bra.

Må si at jeg gleder meg til å se hvordan Apertium utvikler seg videre. Har hørt noe snakk om automatisk oversetting mellom alle de nordiske språkene (færøysk og islandsk er ikke akkurat noe som er lett å lese, selv om det stammer fra norsk) som en vidreutvikling av det nåværende prosjektet mellom bokmål og nynorsk.

Lyst til å teste? http://www.apertium.org/?id=surfandtranslate (og vi kan vel muligens skjønne at norsk-lærerne ikke kommer til å like denne…)

Juksing på prøver; Wikipedia over DNS

Kom over en morsom post på Lifehacker. Den tar utgangspunkt i å bruke Linux, og alle kommentarene går ut på å installere Linux-verktøy på Windows. Tenkte bare å skrive om at det er mulig å bruke det samme på Windows:

Velg Start -> Kjør

skriv “cmd” og trykk OK

skriv “nslookup” og enter

skriv “set type=txt” og enter

skriv inn <emne>.wp.dg.cx

Gjør automatisk oppslag på engelsk Wikipedia, og gir de første setningene i artikkelen… Og siden de fleste moderne datasystemer er avhengig av DNS for å fungere, så vil denne løsningen mest sannsynlig fungere uansett hva slags oppsett IT-ansvarlig har for begrensinger på internett-tilgang under prøver.

Mest sannsynlig er start->kjør og cmd.exe begrenset slik at man ikke får brukt disse, men da kan man i stedenfor lage en snarvei f.eks. på skrivebordet til “nslookup”…

Hvor er redigeringsknappen på “kvalitetssikrede” artikler!

Som jeg tidliger har skrevet om er det problemer med et mulig søksmål. Dette har nå dukket opp som en artikkel på VG og ComputerWorld, men det er noen alvorlige faktafeil i artiklene som er rimelig like.

1) Wikimedia Foundation har svart på forespørsel fra NPG. Svaret var at i følge amerikansk lov er det ikke foregått noen lovbrudd. NPG har svart på dette ved å varsle om et mulig søksmål/anmeldelse i England.

2) Det er ikke snakk om at “bare man legger ut et bilde på internett”, så forsvinner opphavsretten, men hvorvidt et det er opphavsrett på et fotografi av et maleri, hvor maleriet i seg selv ikke er beskyttet av opphavsrett lenger. Engelsk lov sier at bildet er beskyttet av opphavsrett; amerikansk lov (og rettspraksis) er at det ikke er beskyttet.

Forøvrig kan det nevnes at Wikipedia er ekstremt nøye på opphavsrettslovene, og i hvertfall den norske versjonen har fått skryt fra norske rettighetshavere. Man kan nok på de engelske prosjektene glemme at det finnes flere land som prater engelsk enn USA, men å begynne å prate om seriøse lovbrudd er nok vanskelig.

Problemer med opphavsrettslov på tvers av land (som om ikke vi viste det)

En amerikansk bruker på Wikimedia Commons er nå i søkelyset fra det engelske National Portrait Gallery for å ha lastet opp bilder de hadde på sin hjemmeside av kunstverk som ikke lenger er beskyttet av opphavsrett til Wikimedia Commons. NPG forsøkte først å få Wikimedia Foundation til å slette bildene som de mener å ha opphavsrett på i henhold til engelsk lov, men Wikimedia Foundation har ikke gjort som NPG ønsket.

Problemene i denne saken er mange. Engelsk lov har ikke noe krav til “verkshøyde” (som det heter i norsk lov) for å kunne beskyttes av opphavsrett. Verkshøyde vil si at det skal være noe kreativt og orginalt med det som skapes (i dette tilfelle bildene de har tatt av kunst). Derimot har amerikansk lov (og forøvrig også norsk lov) denne klausulen. Det som det dermed krangles om, er om en amerikansk borger har brutt engelsk lov; uten å oppholde seg i England og kan personen forventes å måtte forholde seg til den engelske loven på ett nettsted han besøker.

Dette kan bli en veldig spennende sak. På hvilken måte skal enkeltpersoner underlegges alle verdens lover utenom det landet personen fysisk oppholder seg i, og hvordan skal de forskjellige statene forholde seg til internasjonal lov (som ikke eksisterer) når det ikke er snakk om brudd på straffelover, men sivile søksmål på bakgrunn av opphavsrettslovene (og sivile søksmål skjer primært fordi politiet ikke har ressurser til å etterforske en “uprioritert” åndsverkslov).

Det har tidligere vært forsøkt å gå til rettslige skritt mot Wikipedia, bl.a. når en tysk politiker fikk sperret wikipedia.de (men ikke de.wikipedia.org siden den ligger under amerikansk jurisdiksjon, og det er der innholdet faktisk ligger), og når engelske ISPer blokkerte Wikipedia for visning av barnepornografi. Begge disse sakene medførte enorme debatter, masse pengestøtte til Wikimedia Foundation og de nasjonale interesseorganisasjonene, og at de som gikk til skritt for å hindre ytringsfriheten på Wikipedia måtte beklage i løpet av få dager. Hvis NPG dermed går til juridiske skritt i denne saken, kan en forvente at Wikimedia Foundation (og helt sikkert Electronic Frontier Foundation som kommer til å støtte Wikimedia i denne saken) har ubegrensede med økonomiske midler til rådighet. I tillegg kan man snakke om en juridisk sak som kommer til å følges av hele verden, og har potensiale til å forme opphavsrettslovene i alle de vestlige landene. I såfall er spørsmålet om NPG har gjennomføringskraften til å kjøre denne prosessen like langt som Wikimedia har; og i hvilken grad Wikimedia Foundation og de nasjonale organisasjonene greier å forme sitt budskap i riktig retning for å påvirke opphavsrettslovene internasjonalt.

Internett takler ikke nyheter

Noen dager har gått siden Michael Jackson døde, og det var mye rart som skjedde i løpet av veldig kort tid. Alle nettavisene begynte i full fart å publisere “noen andre sier at Michael Jackson er død”, og det var vanskelig å få noe bekreftet før det hadde gått flere timer. På Wikipedia ble artikkelen om Michael Jackson låst på alle de store språkene rimelig med en gang, fordi det ikke var kommet en offisiell uttalelse ennå. Minutter etter at de første rapporterene om popstjernens død kom, begynte alarmene også å gå på #wikimedia-tech; serverne for Wikipedia begynte å få belastningsproblemer.

Det tok litt tid å finne ut hva problemet var, men til slutt viste det seg at artikkelen om Michael Jackson ble besøkt så mange ganger på kort tid, at serverene slet med å bygge opp cachen på nytt. Fiksen der ble da å kjøre et quick hack:

Index: ParserCache.php
===================================================================
--- ParserCache.php	(revision 52088)
+++ ParserCache.php	(working copy)
@@ -63,6 +63,7 @@
  if ( is_object( $value ) ) {
    wfDebug( "Found.\n" );
    # Delete if article has changed since the cache was made
    // temp hack!
+   if( $article->mTitle->getPrefixedText() != 'Michael Jackson' ) {
    $canCache = $article->checkTouched();
    $cacheTime = $value->getCacheTime();
    $touched = $article->mTouched;

Heldigvis var det ikke bare Wikipedia som ikke taklet nyhetene, men med en million sidevisninger på en time på engelsk Wikipedia alene, så har man vel egentlig ikke testet MediaWiki for belastningen som kom…