Gebruiker:Rjelsma/Kladblok
Jaccard index
bewerkenDe Jaccard index, ook wel Jaccard coëfficient, is een steekproeffunctie waarmee de overeenkomstigheid tussen verscheidene datasets gemeten kan worden. Het is ontwikkeld door Grove Karl Gilbert in 1884 en later nogmaals onafhankelijk ontwikkeld door Zwitsers botanicus Paul Jaccard. De index meet de overeenkomstigheid tussen sets aan data door de doorsnede te delen door de vereniging:
De Jaccard index wordt veelal toegepast binnen wetenschappelijke velden waarin binaire data gebruikt wordt, zoals computerwetenschap. Hoewel de index goed te bevatten is, is deze gevoelig voor kleine datasets en kunnen er onbetrouwbare resultaten geproduceerd worden door een gebrek aan bruikbare data.[1]
Jaccard afstand
bewerkenEen andere veelgebruikte steekproeffunctie binnen hetzelfde kader als de Jaccard index is de Jaccard afstand, die juist het verschil tussen datasets bepaalt. De Jaccard afstand kan berekend worden door de Jaccard coëfficient van 1 af te trekken, of door het verschil tussen de doorsnede en vereniging van twee sets te delen door de grootte van de vereniging:
Tanimoto index en afstand
bewerkenDe Tanimoto index is een steekproeffunctie die functioneel gelijk is aan de Jaccard index. Ze worden ook wel als synoniem aan elkaar beschouwd:
De Tanimoto afstand verschilt echter van de Jaccard afstand, doordat de hierbij gebruikte formule de mogelijkheid biedt om twee verschillende datasets te vergelijken met een derde waarmee zij beide gelijkenissen vertonen:
Referenties
bewerken- ↑ (en) Stephanie, Jaccard Index / Similarity Coefficient. Statistics How To (3 december 2016). Geraadpleegd op 22 september 2022.
Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Jaccard Index op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.