Frequentieanalyse (statistiek)

Frequentieanalyse^[1] is het onderzoek naar de mate van voorkomen van een bepaald verschijnsel. Het verschijnsel kan tijdsafhankelijk zijn (bijvoorbeeld de gemeten neerslag in een bepaald punt) of plaatsafhankelijk (bijvoorbeeld gewasopbrensten in een gebied) of anderszins.

Grafische illustratie van een cumulatieve frequentieverdeling aangepast aan een kansverdeling met betrouwbaarheidsgordel

In de statistiek verstaat men onder de frequentie van een waarde van een bepaald toevallig optredend verschijnsel $X$ (de variabele) het aantal keren dat deze waarde voorkomt.

Onder cumulatieve frequentie van een referentiewaarde $x_{\text{r}}$ wordt het aantal malen verstaan dat het waargenomen verschijnsel kleiner is dan $x_{\text{r}}$ . De cumulatieve frequentie wordt ook wel de frequentie van onderschrijding van $x_{\text{r}}$ genoemd.

De frequentie waarmee de waarde van een bepaald verschijnsel $X$ groter is dan de referentiewaarde $x_{\text{r}}$ , wordt frequentie van overschrijding van $x_{\text{r}}$ genoemd.

De analyse van een cumulatieve frequentie wordt bijvoorbeeld gedaan om inzicht te krijgen in hoe vaak rivierafvoeren en de bijbehorende waterstanden onder een toelaatbare waarde blijven of boven een toelaatbare waarde uitkomen in verband met de daarmee samenhangende dijkhoogte.^[2] ^[3]

Beginselen

Definitie

Frequentie is het aantal malen dat de waarde van het verschijnsel $X$ voorkomt. De relatieve frequentie dat in een waarnemingsreeks $X_{1},\ldots ,X_{N}$ een waarde niet groter dan $x$ voorkomt, wordt gegeven door de empirische verdelingsfunctie:

F_{N}(x)={\frac {1}{N}}{\rm {aantal}}\{X\leq x\}

De frequentie is dan $N\cdot F_{N}(x)$ .

Met behulp van de empirische verdelingsfunctie kunnen allerlei andere frequenties uitgedrukt worden.

Als alle waargenomen waarden verschillend zijn, geldt voor de kleinste waargenomen waarde $x_{min}$ :

F_{N}(x_{min})={\frac {1}{N}}

en voor de grootste waargenomen waarde $x_{\text{max}}$ :

F_{N}(x_{max})=1

Dit moet niet verward worden met de verdelingen van het minimum en het maximum van de waarnemingen. Beide zijn variabelen die in elke reeks waarnemingen een andere waarde kunnen hebben. Als de waarnemingen gelijkverdeeld en onderling onafhankelijk zijn geldt voor het minimum ${\rm {MIN}}=\min(X_{1},\ldots ,X_{N})$ :

P({\rm {MIN}}>x)=P(X_{1}>x,\ldots ,X_{N}>x)=\left(1-F_{X}(x)\right)^{N}

en voor het maximum ${\rm {MAX}}=\max(X_{1},\ldots ,X_{N})$ :

P({\rm {MAX}}\leq x)=P(X_{1}\leq x,\ldots ,X_{N}\leq x)=\left(F_{X}(x)\right)^{N}

Schatting

De waargenomen frequenties kunnen gebruikt worden voor het schatten van de overeenkomstige kansen.^[4]

Als $p$ de kans op een bepaald verschijnsel is en $K$ de waargenomen frequentie in een reeks van $N$ , dan is een voor de hand liggende schatting voor $p$ :

{\hat {p}}={\frac {K}{N}}

Alternatieve schatters zijn:

{\hat {p}}_{1}={\frac {K}{N+1}}

en

{\hat {p}}_{2}={\frac {K+0{,}5}{N+1}}

,

elk met specifieke voor- en nadelen.

De noemer $N+1$ bijvoorbeeld garandeert dat de kans dat $X$ groter is dan de waargenomen $x_{\text{max}}$ niet op 0 geschat wordt.^[1] Er bestaan andere voorstellen voor de noemer.^[5]

Rangschikking

Grafische illustratie van cumulatieve kansen volgens de rangschikkingsmethode

Er is een eenvoudig verband tussen de geordende steekproef $X_{(1)}\leq X_{(2)}\leq \ldots \leq X_{(N)}$ en de empirische verdelingsfunctie. Als $x_{(1)}=x_{min}\leq x_{(2)}\leq \ldots \leq X_{(N)}=x_{max}$ de realisatie is van de geordende steekproef, dan maakt de empirische verdelingsfunctie steeds een sprong van $1/N$ in de waarnemingen. Dus voor $i=0,1,\ldots ,N$ is:

F_{N}(x)={\frac {i}{N}},{\text{ voor }}x_{(i)}\leq x<x_{(i+1)}

,

waarin $x_{(0)}=-\infty$ en $x_{(N+1)}=\infty$

Voorspelling

Onzekerheid

Op basis van een reeks waarnemingen worden ook voorspellingen gedaan. Uit bijvoorbeeld de verdeling van rivierafvoeren voor de jaren 1950 tot 2000, worden de rivierafvoeren voor de jaren 2000 tot 2050 voorspeld. Een voorwaarde is wel dat de omgevingsfactoren niet veranderen. Mochten zij wel veranderen, zoals door civieltechnische ingrepen in de rivier of in het opvanggebied van het regenwater, of door klimaatveranderingen, dan is de voorspelling onderhevig aan een systematische fout. Ook zonder een systematische fout is de voorspelling onderworpen aan een toevallige fout, doordat door toeval de waargenomen afvoeren lager of hoger zijn dan normaal, of omgekeerd de afvoeren van 2000 tot 2050 door toeval hoger of lager kunnen zijn dan normaal.

Betrouwbaarheidsgordel

De binomiale verdeling is alleen symmetrisch als p = 0,5

Ter bepaling van de betrouwbaarheid van voorspellingen op grond van een waargenomen reeks cumulatieve frequenties kunnen betrouwbaarheidsintervallen worden geconstrueerd waarmee het bereik van de waarschijnlijke fout wordt geschat.

In het geval van cumulatieve kansen zijn er slechts 'twee mogelijkheden: er vindt onderschrijding plaats of overschrijding. De som van onderschrijdings– en overschrijdingskans is 1 of 100% Daarom is de binomiale verdeling van toepassing om het betrouwbaarheidsinterval te schatten.

Voor de binomiale verdeling met parameters $p$ , de succeskans, en $N$ , het aantal waarnemingen, is de standaardafwijking $\sigma$ in het gemiddelde ${\hat {p}}=X/N$ gegeven door:

\sigma ={\sqrt {\frac {p(1-p)}{N}}}

Voor grote waarden van $N$ en $p$ niet te klein of te groot kan de binomiale verdeling benaderd worden door een normale verdeling. Het betrouwbaarheidsinterval voor de succeskans $p$ dan afgeleid met behulp van de Student-verdeling. Een ondergrens $L$ en een bovengrens $U$ van het interval worden onder de voorwaarde $p$ niet te klein of te groot is, gegeven door:

L={\hat {p}}-t\,{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{N}}}

en

U={\hat {p}}+t\,{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{N}}}

Daarin is

{\hat {p}}

de fractie waargenomen successen

t

een waarde uit de t-verdeling, afhankelijk van de gewenste betrouwbaarheid.

Aanpassing van kansverdelingen

Om de cumulatieve frequentieverdeling weer te geven met een continue wiskundige vergelijking kan men trachten deze aan te passen aan een bekende cumulatieve kansverdeling.^[1]^[6] Wanneer dit gelukt is, dan is de continue wiskundige vergelijking voldoende om de discrete cumulatieve kansverdeling te beschrijven en is het niet nodig deze in een tabelvorm te geven. Verder kan de vergelijking behulpzaam zijn zijn bij interpolatie en extrapolatie. Echter de extrapolatie van een cumulatieve kansverdeling kan een bron van fouten kan zijn. Een van de mogelijke fouten is dat de wiskundige verdeling de kansverdeling niet meer volgt buiten de onderzochte gegevensreeks.

Elke vergelijking die de waarde 1 oplevert bij wiskundige integratie van een ondergrens tot een bovengrens die overeenkomen met het gegevensbestand kan worden gebruikt als een kansverdeling.

De aanpassing kan gedaan worden volgens verschillende methoden,^[1] bijvoorbeeld:

de parametermethode, waarbij de parameters als gemiddelde en standaardafwijking uit de gegevens worden geschat
de regressiemethode, waarbij de parameters worden bepaald uit een regressie van $p$ (verkregen door rangschikking) op de cumulatieve waarschijnlijkheid van de aangepaste verdeling

Toepassingen van beide methoden met gebruikmaking van:

leveren mogelijk geen significant verschillende resultaten op.^[1] Ook kunnen verschillende kansverdelingen ongeveer overeenkomstige resultaten opleveren en de onderlinge verschillen kunnen klein zijn vergeleken met het breedte van het betrouwbaarheidsinterval. Dit illustreert dat het soms niet eenvoudig is te bepalen welke kansverdeling de beste is.

Herhalingsperiode

Herhalingsperioden en betrowbaarheidsgordel. De kromme van de herhalingsperiode stijgt exponentieel.

De relatieve frequentie van overschrijding $p_{e}$ kan uitgedrukt worden in de relatieve frequentie van onderschrijding $p_{c}$

$p_{e}=1-p_{c}$

De herhalingsperiode $T$ wordt gedefinieerd als:

$T=1/p_{e}$

en geeft aan het aantal waarnemingen dat naar verwachting moet worden gedaan om opnieuw een waarde van de variable onder studie te vinden die groter is dan de waarde gebruikt bij de bepaling van $T$ .

De beneden– en bovengrens van het betrouwbaarheidsinterval voor de herhalingsperiode $T$ worden respectievelijk gevonden als:

$T_{L}=1/(1-L)$
$T_{U}=1/(1-U)$

Voor extreem hoge waarden van de bestudeerde variabele is $U$ weinig verschillend van 1 en kleine veranderingen van $U$ leiden dan tot grote veranderingen van $T_{U}$ . Dus de schatting van de herhalingsperiode van extreme waarden is onderhevig aan een grote toevalsfout. Daarnaast is de betrouwbaarheidsgordel is geldig voor voorspellingen op lange termijn. Voor voorspellingen op korte termijn kan het betrouwbaarheidsinterval $U-L$ en $T_{U}-T_{L}$ wijder zijn. Samen met de beperkte zekerheid (< 100%) gebruikt in de t-toets verklaart dit waarom bijvoorbeeld een honderdjarige neerslag zich wel eens tweemaal in tien jaar zou kunnen voordoen.

Het strikte begrip herhalingsperiode heeft alleen betekenis wanneer het een tijdsafhankelijk verschijnsel betreft, zoals puntneerslag. De herhalingsperiode komt dan overeen met de geschatte wachttijd tot de overschrijding zich weer voordoet. De herhalingsperiode heeft dezelfde tijdeenheden als de tijdlengte waarvoor elke waarneming representatief is. Als het bijvoorbeeld dagneerslagen betreft dan wordt de herhalingsperiode uitgedrukt in dagen, terwijl dit jaren zou zijn voor jaarneerslagsommen.

Software

Cumulatieve frequentieverdeling met discontinuïteit in de aangepaste kansverdeling

Om het maken van cumulatieve frequentieverdelingen en aanpassingen aan kansverdelingen te vereenvoudigen kan men gebruikmaken van een computerprogramma.^[6] als CumFreq^[7] Dit programma selecteert de best passende kansverdeling uit een aantal welbekende verdelingen of het gebruikt een verdeling naar keuze van de gebruiker.

CumFreq geeft grafieken van de waargenomen waarden, de aanpassing aan de kansverdeling en de betrouwbaarheidsgordel. Ook geeft het de wiskundige uitdrukking van de bijbehorende kansverdeling. Daarnaast geeft het grafieken van de herhalingsperioden en de bijbehorende betrouwbaarheidsintervallen.

Het model kan worden gebruikt voor elk soort gegevensbestand en dus niet noodzakelijkerwijs hydrologische gegevens. Voor de (log)normale verdeling wordt een numerieke methode toegepast, daar een analytische uitdrukking voor de cumulatieve (log)normale verdeling niet bestaat.

Het model geeft benevens de mogelijkheid een discontinuïteit te introduceren, waarbij de gegevensreeks wordt verdeeld in twee delen met een verschillende kansverdeling. Het programma bepaalt het breekpunt door toepassing van een toets van beste aanpassing. De introductie van de discontinuïteit bleek nuttig voor de analyse van neerslag gegevens in Noord Peru, waar het klimaat afhankelijk is van het gedrag van de oceaanstroming El Niño. Wanneer de Niño zich uitbreidt naar van Ecuador naar het noorden van Peru, dan wordt het klimaat aldaar tropisch nat. Echter wanneer de Niño Peru niet bereikt, is het klimaat semi–aride. Hierdoor volgen de hogere neerslagen een andere frequentieverdeling dan de lagere.

Zie ook

Empirische verdelingsfunctie

Bronnen, noten en/of referenties

↑ ^a ^b ^c ^d ^e Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39. Download van de webpagina Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 onder nr. 12, of direct als pdf. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 (pdf)]. Gearchiveerd op 30 juni 2023.
↑ E.H. Chbab en J.M. van Noortwijk (2002), Bayesiaanse statistiek voor de analyse van extreme waarden^{[dode link]}, RIZA Rijksinstituut voor Integraal Zoetwaterbeheer en Afvalwaterbehandeling, Lelystad. ISBN 9036954231.
↑ Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000 year record. In: T. Dalrymple (ed.), Flood frequency analysis. U.S. Geological Survey Water Supply paper 1543–A, p. 51-71
↑ Open Universiteit Nederland, Faculteit Informatica^{[dode link]}, Cursusdeel 5: Continue wiskunde, Blok 5: Kansrekening, Cumulatieve frequentiefunctie (p.19), Cumulatieve verdelingsfunctie (p.20/21)
↑ Makkonen, L. 2008. Communications in Statistics – Theory and Methods, 37: 460–467
↑ ^a ^b StatSoft distribution fitting, software voor aanpassing van frequentieverdelingen aan kansverdelingen (Engels)
↑ CumFreq, a program for cumulative frequency analysis. Download van webpagina: CumFreq, Distribution fitting of probability, free software, cumulative frequency Voorbeelden van CumFreq toepassingen zijn te vinden in: Drainage Research in Farmers' Fields: Analysis of Data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Online: Analyse met CumFreq. Gearchiveerd op 18 april 2023.

[Ritz-1] Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39. Download van de webpagina Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 onder nr. 12, of direct als pdf. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, p. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 (pdf)]. Gearchiveerd op 30 juni 2023.

[2] E.H. Chbab en J.M. van Noortwijk (2002), Bayesiaanse statistiek voor de analyse van extreme waarden^{[dode link]}, RIZA Rijksinstituut voor Integraal Zoetwaterbeheer en Afvalwaterbehandeling, Lelystad. ISBN 9036954231.

[3] Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000 year record. In: T. Dalrymple (ed.), Flood frequency analysis. U.S. Geological Survey Water Supply paper 1543–A, p. 51-71

[4] Open Universiteit Nederland, Faculteit Informatica^{[dode link]}, Cursusdeel 5: Continue wiskunde, Blok 5: Kansrekening, Cumulatieve frequentiefunctie (p.19), Cumulatieve verdelingsfunctie (p.20/21)

[5] Makkonen, L. 2008. Communications in Statistics – Theory and Methods, 37: 460–467

[Stat-6] StatSoft distribution fitting, software voor aanpassing van frequentieverdelingen aan kansverdelingen (Engels)

[7] CumFreq, a program for cumulative frequency analysis. Download van webpagina: CumFreq, Distribution fitting of probability, free software, cumulative frequency Voorbeelden van CumFreq toepassingen zijn te vinden in: Drainage Research in Farmers' Fields: Analysis of Data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Online: Analyse met CumFreq. Gearchiveerd op 18 april 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]