Gebruiker:Josq/Onderzoek kwaliteitsgroei

Dit onderzoek naar kwaliteitsgroei heeft als doel te analyseren hoe de afgelopen jaren de kwaliteit van artikelen op de Nederlandstalige Wikipedia zich ontwikkeld heeft.

Aan dit onderzoek wordt niet meer gewerkt

Medewerkers

bewerken

Medewerkers krijgen elk een subpagina toegewezen waarop ze hun resultaten kunnen plaatsen

  1. Rubietje88 11 okt 2007 20:05 (CEST) - vanwege de belangrijkheid, zie het overleg
  2. Wae®thtm©2007 | overleg 11 okt 2007 21:31 (CEST) - lijkt me wel eens interessant het op deze manier te bekijken!
  3. Josq 11 okt 2007 23:23 (CEST) Als initiatiefnemer zal ik uiteraard op allerlei manieren mijn bijdrage proberen te leveren.
  4. RToV 11 okt 2007 23:51 (CEST)
  5. Woudloper overleg 15 okt 2007 22:48 (CEST) - OK, ik ben ook wel zo gek hieraan mee te willen doen.
  6. S.Kroeze 15 okt 2007 22:53 (CEST)
  7.   Silver Spoon (?) 15 okt 2007 23:00 (CEST)
  8. Den Hieperboree, 15 okt 2007 23:11 (CEST).
  9. Evil berry 17 okt 2007 18:15 (CEST)
  10. Quistnix 26 okt 2007 11:41 (CEST) - Dit spreekt mij meer aan dan artikeltjes turven.
  11. Art Unbound 26 okt 2007 13:34 (CEST)
  12. Janq 2 feb 2008 15:53 (CET)-Vanwege het belang van dergelijk onderzoek

Inleiding

bewerken

Wikipedia groeit hard. Op dit moment heeft de Nederlandstalige versie zo'n 2.174.242 artikelen, terwijl bij de jaarwisseling van 2006/2007 nog de grens van 260.000 werd doorbroken. De groei van het aantal artikelen lijkt nog altijd een licht exponentiële trend te volgen[1]. Een belangrijk principe in het gedachtegoed van Wikipedia is dat niet alleen de kwantiteit, maar ook de kwaliteit van de artikelen zal blijven groeien. Immers, wanneer een artikel eenmaal op Wikipedia geplaatst is, dan valt het te verwachten dat in de loop van de tijd telkens mensen langskomen die iets aan artikel toevoegen of verbeteren.

Het is nog nauwelijks onderzocht hoe goed dit principe in de praktijk werkt. Worden bestaande artikelen in de loop van de tijd inderdaad significant verbeterd, of blijven de meeste artikelen min of meer hetzelfde? En als er groei van de kwaliteit is, hoe verhoudt zich dat dan tot de groei van de kwantiteit? Is er sprake van een soort wet van Malthus, waarbij het aantal artikelen harder groeit dan de kwaliteit? Of valt het allemaal nog wel mee?

De groei van de kwantiteit is eenvoudig te volgen via geautomatiseerde statistieken. De kwaliteit van artikelen valt niet te meten met een eenvoudig algoritme. Kwaliteitsmeting moet 'handmatig' gedaan worden. In dit onderzoek willen we met de hulp van geïnteresseerde Wikipedianen een poging doen om de kwaliteitsgroei van Wikipedia in kaart te brengen.

Er zijn tot nog toe weinig methoden ontwikkeld om de kwaliteit van artikelen te meten. In 2005 werd de Duitstalige Wikipedia vergeleken met de encyclopediën Brockhaus en Encarta. Hierbij werd onder meer gekeken naar de juistheid, de volledigheid en de begrijpelijkheid van artikelen die betrekking hadden op een bepaald onderwerp. Op basis daarvan werd door deskundigen een score toegekend. De Duitstalige Wikipedia kwam hierbij als beste uit de bus.[2][3]

De meest grootschalige poging om de kwaliteit van artikelen te analyseren hangt samen met de ambitie om een gedeelte van de Engelstalige Wikipedia op DVD uit te geven. Hiertoe worden artikelen geselecteerd op belangrijkheid en kwaliteit. In dit project worden artikelen onderverdeeld in verschillende kwaliteitsklassen, varierend van 'stub' (beginnetje) tot 'featured article' (etalageartikel)[4].

Genoemde methoden schieten te kort om iets te kunnen zeggen over de groei van de kwaliteit van Wikipedia. In de eerste plaats is in beide gevallen geen onderzoek gedaan naar de groei van de kwaliteit van de artikelen. In de tweede plaats werden in beide gevallen de verschillende aspecten van kwaliteit op één hoop gegooit. In dit onderzoek willen we analyseren hoe allerlei kwaliteitsaspecten van de Wikipedia-artikelen zich in de loop van de tijd ontwikkeld hebben.

Het belangrijkste aspect van kwaliteit moeten we helaas buiten beschouwing laten: de inhoudelijke juistheid van artikelen. Om die te kunnen beoordelen, is deskundigheid nodig. Deskundigen zijn hier niet voldoende aanwezig voor de grote diversiteit aan artikelen. Daarnaast is er reeds onderzoek gedaan naar de betrouwbaarheid van Wikipedia: de geruchtmakende vergelijking van Wikipedia met de Encyclopædia Britannica in het gezaghebbende tijdschrift Nature[5]. Dit onderzoek viel onverwacht gunstig uit voor Wikipedia, hoewel het hevig werd bekritiseerd[6].

In het onderzoek dat we hier willen uitvoeren, beperken we ons tot de indruk die een artikel zal maken op de lezer: tot in hoeverre kan de lezer een artikel als bruikbaar ervaren?

Methoden

bewerken

Steekproefsgewijs worden een aantal artikelen gekozen waarvan de kwaliteit gemeten wordt door vrijwilligers uit de Wikipedia-gemeenschap. Elke vrijwilliger mag maximaal 10 artikelen analyseren, dit om de bias te voorkomen, die kan ontstaan wanneer één vrijwilliger verantwoordelijk wordt voor het grootste deel van het onderzoek. Dit quorum kan in een later stadium verhoogd worden, wanneer blijkt dat er voldoende medewerking is. Afhankelijk van de hoeveelheid medewerking is het de bedoeling dat tientallen tot honderden artikelen geanalyseerd worden.

Artikel selecteren

bewerken

Wikipedia heeft duizenden beginnetjes, doorverwijspagina's en lijsten. Dergelijke artikelen worden niet meegenomen in dit onderzoek. De te analyseren artikelen worden willekeurig geselecteerd, dit is van groot belang om een goede steekproef te krijgen.

Het selecteren van een artikel gaat als volgt:

  • Klik rechts in het scherm op de link "willekeurig artikel".
  • Kijk of het artikel aan de volgende voorwaarden voldoet:
    • Het artikel is vóór het jaar 2005 geschreven
    • Het artikel heeft thans een omvang van meer dan 3000 bytes (zie bewerkingsgeschiedenis)
    • Het artikel is geen lijst of opsomming
    • Je hebt zelf niet inhoudelijk bijgedragen aan het artikel.
  • Wanneer het artikel aan deze voorwaarden voldoet, wordt het geselecteerd. Wanneer het artikel er niet aan voldoet, worden de genoemde stappen herhaald. Dit kan wat tijd kosten, waarschijnlijk voldoet minder dan 5% van de artikelen aan deze criteria

Om te beoordelen hoeveel variatie er is tussen de beoordelingen van de verschillende medewerkers, moet iedere medewerker daarnaast de volgende 3 artikelen analyseren:

  1. Een etalageartikel: Rembrandt van Rijn
  2. Uit de honderd meest gelezen artikelen: BitTorrent
  3. Willekeurig artikel: Iers-Gaelisch

Deze artikelen tellen niet mee in het quorum.

Meetmomenten

bewerken

De kwaliteit van de artikelen wordt gemeten op een viertal momenten waarop een mijlpaal werd bereikt.

Datum Mijlpaal
27-01-2005 50.000
8-03-2006 150.000
26-12-2006 250.000
15-09-2007 350.000

Voor ieder geselecteerd artikel wordt dus de kwaliteit gemeten van vier versies, namelijk de versies die 'actueel' waren op de genoemde data.

Criteria

bewerken

Iedere versie van elk artikel wordt beoordeelt op de volgende zeven criteria:

  1. Volledigheid: Worden alle belangrijke aspecten van het onderwerp genoemd en (kort) uitgewerkt?
  2. Begrijpelijkheid: Is het artikel begrijpelijk voor de geïnteresseerde leek? Wordt de context en de relevantie van het onderwerp duidelijk omschreven? Worden moeilijke woorden toegelicht?
  3. Neutraliteit: Is het artikel neutraal geschreven en worden alle relevante visies op evenwichtige wijze beschreven? Is er sprake van gekleurd taalgebruik?
  4. Links en referenties: Is er via de gebruikte interne en externe links voldoende relevante extra informatie te vinden? Worden mogelijk controversiële uitspraken voorzien van bronvermelding? Is duidelijk welke informatie uit welke bron afkomstig is?
  5. Indeling: Is er een inleiding, waarin kort wordt beschreven waarover het artikel gaat? Is het artikel logisch opgebouwd? Zijn de alinea's niet te lang of te kort, en zijn er voldoende tussenkopjes?
  6. Layout: Ziet het artikel er netjes en overzichtelijk uit? Is er goed gebruik van afbeeldingen en tabellen?
  7. Taal: Zijn er spel- en typfouten? Zijn de zinnen duidelijk en grammaticaal correct? Wordt er zoveel mogelijk gebruik gemaakt van gangbaar Nederlands?

Voor elk van de criteria wordt een score gegeven van 1 (slecht) tot 10 (goed). Ter indicatie:

  • 1 of 2: Vrijwel algehele verbetering nodig
  • 3 of 4: Op veel belangrijke punten verbetering nodig
  • 5 of 6: Op enkele belangrijke punten verbetering nodig
  • 7 of 8: Enkele kleine verbeteringen nodig
  • 9 of 10: (Bijna) geen verbetering nodig

Presentatie

bewerken

De 'ruwe' resultaten worden gepresenteerd in een tabel, die er uit ziet als het volgende voorbeeld:

(link naar artikel) Volledigheid Begrijpelijkheid Neutraliteit Links en refs Indeling Layout Taal
27 januari 2005
8 maart 2006
26 december 2006
15 september 2007

Een medewerker aan dit onderzoek vult per artikel één tabel in. De tabel wordt in één keer helemaal ingevuld. Onvolledige ingevulde tabellen worden niet meegeteld in het onderzoek. Een ingevulde tabel mag niet meer gewijzigd worden. Medewerkers krijgen een eigen subpagina waarop ze hun resultaten kunnen plaatsen.

Resultaten

bewerken

Voortgang

bewerken

1 nov 2007 20:07 (CET)
Door slechts 4 van de 13 medewerkers zijn 24 artikelen geanalyseerd, de analyses van de 3 verplichte artikelen niet meegetelt. De gemiddelden van deze 24 artikelen staan in de volgende tabel:

Volledigheid Begrijpelijkheid Neutraliteit Links en refs Indeling Layout Taal Totaal
27 januari 2005 (50.000 artikelen) 4.25 5.63 5.79 3.58 4.29 4.5 5.42 33.46
8 maart 2006 (150.000 artikelen) 4.63 5.5 5.58 4.04 4.54 4.75 5.42 34.46
26 december 2006 (250.000 artikelen) 5.43 5.83 5.75 4.79 4.92 5.5 5.63 37.83
15 september 2007 (350.000 artikelen) 5.58 6.08 5.79 5.04 5.25 5.75 5.79 39.29

De stijgingen van de totale gemiddelden bedragen respectievelijk 1.00, 3.37, en 1.46 punten. Tussen maart en december 2006 lijkt de kwaliteit dus het meest gestegen te zijn. In 2007 is de groei aanzienlijk minder. Toch is er zeker nog aanzienlijke kwaliteitsverbetering mogelijk: het gemiddelde totaal in sept 2007 bedraagt nog geen 40 van de 70 punten.

  • De criteria Begrijpelijkheid, Neutraliteit en Taal lijken op een constant nivo van 5.5 á 6.0 te liggen.
  • De criteria Links & refs, Indeling, Volledigheid en Layout laten elk een groei zien van 1 á 1.5 punt. De sterkste groei is hierbij in 2006, daarna is de groei aanzienlijk minder.

Conclusies

bewerken

Referenties

bewerken