Zin en onzin van de normale benadering van de

advertisement
Zin en onzin van de normale benadering van de binomiale
verdeling
Jef Hendrickx1, 18 november 2006
In klassieke handboeken van statistiek worden kansen van de binomiale verdeling berekend met
tabellen. Voor grotere waarden zijn de tabellen ontoereikend en berekent men de kans benaderend via
een normale verdeling. Met de komst van de grafische rekenmachine (bijvoorbeeld TI84) kunnen we
nu echter ook voor grotere waarden de binomiale kansen exact berekenen. Betekent dit dan dat de
normale benadering in de prullenbak mag? In deze tekst zullen we aan de hand van enkele
voorbeelden en oefeningen aantonen dat in vele gevallen een benadering inderdaad niet meer zinvol is,
zoals bijvoorbeeld bij een hypothesetoets voor fracties, alhoewel de TI84 zelf daar nog een benadering
gebruikt. In andere gevallen, zoals bijvoorbeeld bij een som of verschil van binomiale verdelingen,
kan een benadering nog wel zinvol zijn. De tekst start met een korte inleiding in de binomiale
verdeling en de normale benadering. In de laatste paragraaf gaan we dan dieper in op de zin en onzin
van de normale benadering.
1. Binomiale verdeling
Voorbeelden
- We gooien 5 keer een muntstuk en tellen het aantal keer kop.
- We gooien 12 keer een dobbelsteen en tellen het aantal keer “zes ogen”.
- We tellen het aantal jongens bij 250 geboortes in een ziekenhuis.
- We ondervragen 1000 willekeurige personen naar hun kiesgedrag en tellen hoeveel personen
op partij A gestemd hebben.
Al deze voorbeelden hebben de volgende gemeenschappelijke kenmerken:
- We voeren een experiment uit met maar 2 mogelijke uitkomsten (kop of munt ; 6 of geen 6 ;
jongen of meisje ; stemt op partij A of stemt niet op partij A). In het algemeen noemen we
deze “Succes” en “Mislukking” .
- We herhalen het experiment een vast aantal keer ; dit aantal noteren we met n.
- Het gaat steeds om exact hetzelfde experiment, met dezelfde kans op “succes”. Deze kans op
succes noteren we met p.
- De herhaalde experimenten zijn onafhankelijk van elkaar.
- We tellen het aantal successen.
Indien deze voorwaarden voldaan zijn spreken we van een binomiale verdeling. In de volgende
voorbeelden is niet aan de voorwaarden voldaan, en hebben we dus niet te maken met een binomiale
verdeling.
- Het aantal vrachtwagens dat een bepaald punt passeert op 1 uur tijd (je herhaalt het experiment
niet een vast aantal keer, maar je telt het aantal successen over een tijdsspanne).
- Je trekt 5 kaarten (zonder terugleggen) uit een boek speelkaarten en je telt het aantal harten
(het gaat niet steeds om hetzelfde experiment, de kans op succes verandert, en de
opeenvolgende experimenten zijn niet onafhankelijk van elkaar).
De toevallige veranderlijke X die het aantal successen telt bij n identieke en onafhankelijke
herhalingen van een kansexperiment met slechts twee mogelijke uitkomsten (succes en mislukking), is
binomiaal verdeeld met parameters n (= het aantal herhalingen) en p (= de kans op succes bij elke
herhaling). We noteren dit als
X ~ Bi(n, p)
1
De auteur is docent aan Ehsal, Brussel. E-mail: jef.hendrickx@ehsal.be
1
Vervolgens zullen we de kansverdeling van deze toevallige veranderlijke bepalen.
Voorbeeld 1
We gooien 12 keer een dobbelsteen en noteren met X het aantal keer dat we 6 gooien. Dan zal X
binomiaal verdeeld zijn met parameters 12 en 1/6.
X ~ Bi(12, 1/6)
De kans dat we exact 4 keer 6 gooien noteren we als P(X = 4) en berekenen we als
⎛12 ⎞ ⎛ 1 ⎞
P ( X = 4) = ⎜⎜ ⎟⎟ ⎜ ⎟
⎝ 4 ⎠⎝6⎠
4
8
⎛ 1⎞
⎜1 − ⎟ = 0,0888
⎝ 6⎠
De tweede factor hierin weerspiegelt de kans op 4 “successen”, de derde factor de kans op 6
“mislukkingen” en de eerste factor geeft het aantal manieren waarop je een rijtje kan vormen met 4
“successen” en 6 “mislukkingen”.
De kans op hoogstens 4 keer 6 vinden we dan als
P(X ≤ 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) = 0,9636.
Met een TI84 kunnen we de eerste kans berekenen als
P(X = 4) = binompdf(12, 1/6, 4)
en de tweede kans als
P(X ≤ 4) = binomcdf(12, 1/6, 4).
In het algemeen wordt de formule.
Een discrete toevallige veranderlijke X is binomiaal verdeeld met parameters n en p ∈ [0, 1]
als en slechts als de kansfunctie van X bepaald wordt door
⎛n⎞
P ( X = k ) = ⎜⎜ ⎟⎟ p k (1 − p ) n − k = binompdf(n, π, k) voor k ∈ {0, 1, ..., n}
⎝k ⎠
x
⎛n⎞
P ( X ≤ k ) = ∑ ⎜⎜ ⎟⎟ p j (1 − p) n − j = binomcdf(n, π, k).
j =0 ⎝ j ⎠
Verwachte waarde en variantie
Indien we 12 keer met een eerlijke dobbelsteen gooien, “verwachten” we dat we gemiddeld 2 keer een
6 zullen gooien. Anders geformuleerd, indien we heel vaak 12 keer met een dobbelsteen gooien, zullen
we op lange termijn gemiddeld 2 keer een 6 gegooid hebben. In het algemeen geldt er
Als X binomiaal verdeeld is met parameters n en p, dan is de verwachte waarde van X gelijk
aan n p en de variantie van X gelijk aan n p (1-p).
Of verkort: als X ~ Bi(n, p), dan is E(X) = n p en σ X2 = np (1 − p ) .
Oefening
2
Het theoretische rij-examen bestaat tegenwoordig uit 50 vragen met telkens 4 keuzemogelijkheden
waarvan juist één antwoord correct is. Om te slagen moet je minstens 31 vragen juist hebben. Jony
Gok gaat onvoorbereid naar het examen en gokt bij elke vraag het antwoord.
a) Bereken de kans dat Jony juist 11 vragen correct beantwoordt.
b) Bereken de kans dat Jony slaagt op het rij-examen.
c) Bereken de kans dat Jony minstens 5 en hoogstens 15 juiste antwoorden geeft.
d) Wat is het verwacht aantal correcte antwoorden dat Jony zal geven? En met welke
standaardafwijking?
2. Normale benadering van de binomiale verdeling
Hieronder staan de grafieken van enkele binomiale verdelingen, voor verschillende waarden van n en
p.
X ~ Bi(12, 0.5)
X ~ Bi(12, 1/6)
0,25
0,3
0,2
0,25
P(X=k)
P(X=k)
0,2
0,15
0,1
0,15
0,1
0,05
0,05
0
0
0
1
2
3
4
5
6
7
8
9
10
11
0
12
1
2
3
4
k
5
6
7
8
9
10
11
12
k
X ~ Bi(100, 0.01)
X ~ Bi(120, 1/6)
0,4
0,1
0,35
0,3
0,06
P(X=k)
P(X=k)
0,08
0,04
0,25
0,2
0,15
0,1
0,02
0,05
0
0
0
5
10
15
20
25
30
35
40
0
5
10
15
k
k
Voor sommige waarden van n en p lijkt de kansverdeling van een binomiale verdeling op de
kansdichtheid van een normale verdeling (de twee linkse grafieken), voor andere waarden dan weer
niet (de twee rechtse grafieken). Is er een algemene regel te vinden? Blijkbaar is het een samenspel
van de waarden voor n en p. Hoe groter n, hoe beter de benadering zal zijn. Anderzijds mag p niet te
dicht bij 0 (of bij 1) liggen opdat de benadering goed zou zijn. Hoe dichter p bij 0.5 gelegen is, hoe
beter de benadering. We kunnen dit als volgt motiveren. Als p = 0.5, dan is de grafiek van de
3
binomiale perfect symmetrisch. Maar hoe meer p afwijkt van 0.5, hoe schever de grafiek van de
binomiale wordt en des te slechter zal de benadering zijn met behulp van een symmetrische verdeling.
Stelling van de Moivre en Laplace
Een binomiaal verdeelde toevallige veranderlijke X met parameters n en p kan benaderd
worden door een normaal verdeelde toevallige veranderlijke Y met verwachting n p en
variantie n p(1–p), als n ‘voldoende groot’ is en p ‘niet te dicht bij 0 of 1 ligt’.
Merk op dat de verwachte waarde en de variantie van de normale verdeling zo gekozen zijn zodat ze
samenvallen met de verwachte waarde en de variantie van de binomiale verdeling.
Wat bedoelen we nu juist met ’n voldoende groot’ en ‘p niet te dicht bij 0 of 1’? Uit de voorbeelden
bleek dat het in feite de combinatie van n en p is, die van belang is. In de praktijk hanteert men vaak
de vuistregel dat het verwachte aantal successen en het verwachte aantal mislukkingen strikt groter
moet zijn dan 5 of verkort:
n p > 5 en n (1−p) > 5.
Voorbeeld 2
Nemen we als voorbeeld een toevallige veranderlijke X die binomiaal verdeeld is met parameters
n = 12 en p = 0.5. Aangezien n p = n (1−p) = 6, kan deze benaderd worden door een normale verdeling
met verwachting 6 en variantie 3. Op de onderstaande grafiek zie je zowel de binomiale verdeling als
de benaderende normale verdeling.
Bi(12, 0.5) benaderd door N(6, 3)
0,25
P(X=k)
0,2
0,15
0,1
0,05
0
0
1
2
3
4
5
6
7
8
9
10
11
12
k
Grafisch lijkt de benadering vrij goed gelukt.
Gebruiken we nu de benadering om kansen te berekenen, bijvoorbeeld de kans dat X minstens gelijk is
aan 8.
Via de binomiale verdeling geeft dit exact
P(X ≥ 8) = 1 − P(X ≤ 7) = 0,1938.
Indien we de normale benadering gebruiken, wordt dit
P(X ≥ 8) ≈ P(Y ≥ 8) = 0,1241,
waarbij de laatste kans op een TI84 kan berekend worden via normalcdf(8, 10^99, 6, √3).
Als we de exacte kans met de benadering vergelijken, is blijkbaar de benadering toch niet zo goed
gelukt. De reden is dat we nog een zogenaamde continuïteitscorrectie moeten doorvoeren. De
binomiale toevallige veranderlijke X is een discrete toevallige veranderlijke: ze neemt alleen gehele
4
waarden aan. De normale toevallige veranderlijke Y is echter een continue toevallige veranderlijke: ze
kan alle reële getallen aannemen. Wanneer we X benaderen door Y, moeten we ons afvragen welke
reële getallen afgerond naar een geheel getal de waarde 8 of meer geven. Dit zijn alle waarden vanaf
7,5. Als we dit gebruiken, krijgen we een betere benadering:
P(X ≥ 8) ≈ P(Y ≥ 7,5) = 0,1932.
Ook grafisch is dit duidelijk. De exacte kans (via de binomiale verdeling) kan grafisch gezien worden
als de oppervlakte van de balkjes bij 8 en hoger. Een kans van de normale verdeling komt dan weer
overeen met een oppervlakte onder de kansdichtheid van de normale verdeling. Indien we enkel de
oppervlakte onder de normale kansdichtheid nemen vanaf 8, nemen we in feite de linkerhelft van het
balkje bij 8 niet mee in onze berekening. Vandaar dat het beter is om vanaf 7,5 te vertrekken.
In dit voorbeeld is het eigenlijk weinig zinvol om de benaderende normale verdeling te gebruiken,
aangezien we alle kansen exact via de binomiale kunnen berekenen. Maar is dat niet steeds zo? In de
volgende paragraaf zullen we zien wanneer de normale benadering niet meer zinvol is, en wanneer
wel.
3. Zin en onzin van de normale benadering van de binomiale
verdeling
a) Berekenen van kansen
Voor de komst van de grafische rekenmachine, of statistische softwarepakketten, moesten de kansen
van een binomiale verdeling berekend worden via tabellen. Deze tabellen waren meestal echter enkel
beschikbaar voor relatief kleine waarden van n. Voor grotere waarden van n moest men dan de
normale benadering gebruiken.
Vandaag kunnen we echter het grafisch rekentoestel gebruiken voor binomiale kansen. Betekent dit
dan dat de normale benadering niet meer zinvol is voor het berekenen van binomiale kansen? In vele
gevallen niet, maar soms toch nog wel.
Voorbeeld 3
Een student verstuurt voor zijn eindwerk een enquête naar verschillende Vlaamse ondernemers. Hij
zou graag minstens 150 ingevulde enquêtes terugkrijgen. Hij verwacht een responsgraad van 60%.
a) Veronderstel dat hij 250 brieven verstuurt en dat de responsgraad 60% is, wat is dan de kans
dat hij er minstens 150 terugkrijgt.
b) Hoe groot moet de responsgraad minstens zijn om met minstens 95% kans minstens 150
brieven teruggestuurd te krijgen als hij er 250 verstuurt?
c) Hoeveel brieven moet hij minstens versturen om bij een responsgraad van 60% met minstens
95% kans er minstens 150 teruggestuurd te krijgen?
Oplossing
a) Als X het aantal teruggezonden brieven op 250 verzonden brieven is, dan is X binomiaal verdeeld
met parameters 250 en 0.6. De gevraagde kans wordt als volgt berekend
P(X ≥ 150) = 1 − P(X ≤ 149) = 1− binomcdf(250,0.6,149) = 0.5274.
Het is in dit geval niet zinvol de normale benadering te gebruiken, aangezien we de kans exact kunnen
berekenen.
b) Nu is X binomiaal verdeeld met n = 250 en onbekende parameter p. De onbekende parameter p
moet zodanig bepaald worden zodat
P(X ≥ 150) ≥ 0,95.
5
Ook in dit geval hoeven we geen normale benadering te gebruiken, maar kunnen we de onbekende
parameter vinden via de Solver-functie uit ons rekentoestel.
We vormen de op te lossen ongelijkheid om naar een vergelijking die we kunnen invoeren in de
solver:
P(X ≥ 150) = 0,95
of 1 − P(X ≤ 149) = 0,95
Met de notaties van het rekentoestel wordt dit
1 − binomcdf(250,p,149) = 0.95.
Deze vergelijking kunnen we invoeren in de Solver van het rekentoestel en oplossen naar p. We
vinden uiteindelijk p = 0,6480 (zie output rekentoestel hieronder). M.a.w. de responsgraad moet
minstens 64,80% zijn om met 95% kans minstens 150 brieven teruggestuurd te krijgen.
c) Nu is de onbekende parameter het aantal verstuurde brieven n. Het aantal teruggezonden brieven is
dan binomiaal verdeeld met parameters n en 0,6.
X ~ Bi(n, 0.6)
Deze keer moet de parameter n bepaald worden zodanig dat
P(X ≥ 150) ≥ 0,95,
of met de notaties van het rekentoestel
1 − binomcdf(n,0.6,149) = 0.95.
Het lijkt voor de hand liggend om opnieuw de Solver te gebruiken, maar dat blijkt niet te werken. De
oorzaak is dat het iteratief algoritme van de Solver ook niet-gehele waarden voor n gaat proberen en
hierop vastloopt, aangezien de eerste parameter bij een binomiale verdeling steeds geheel moet zijn.
We kunnen echter wel de linkerkant van bovenstaande vergelijking invoeren als een functie (van n).
Via TBLSET en TABLE kunnen we vervolgens de waarde van n laten variëren en kijken vanaf welke
waarde voor n de kans groter wordt dan 0,95 (zie schermafdrukken hieronder). We vinden uiteindelijk
dat n minstens 272 moet zijn.
In het vorige voorbeeld was de normale benadering niet zinvol, of konden we ze steeds omzeilen. De
volgende voorbeelden tonen aan dat de normale benadering soms toch nog zinvol kan zijn.
Voorbeeld 4
Het IQ van volwassen personen wordt traditioneel gemodelleerd door een normale verdeling met
gemiddelde 100 en standaardafwijking 15. Vanaf een IQ van 130 beschouwt men een persoon
6
hoogbegaafd. Wat is de kans dat er in Vlaanderen minstens 115 000 hoogbegaafde volwassenen
rondlopen? Je mag veronderstellen dat er 5 miljoen volwassen Vlamingen zijn.
Oplossing
We berekenen eerst het percentage hoogbegaafden via de normale verdeling:
normalcdf(130,10^99,100,15) = 2,275%
Het aantal hoogbegaafde volwassen Vlamingen is dan binomiaal verdeeld met parameters
n = 5 000 000 en p = 0,02275. We berekenen nu de kans dat er op 5 miljoen volwassen Vlamingen
minstens 115 000 Vlamingen hoogbegaafd zijn. Wie dit probeert via binomcdf( krijgt een
foutmelding omdat het eerste argument (= het aantal herhalingen) kleiner dan 1 miljoen moet zijn. We
kunnen nu echter wel de normale benadering gebruiken. We benaderen de binomiale verdeling door
een normale verdeling met verwachting 113 750,31en standaardafwijking 333,410383. Na het
toepassen van de continuïteitscorrectie vinden we als kans
normalcdf(114999.5,10^99,113750.31,333.410383) = 0,0000896.
Het berekenen van kansen met zulke hoge waarden voor n komt in de praktijk echter maar weinig
voor. Het volgende voorbeeld geeft een meer realistische toepassing, namelijk een voorbeeld waarbij
we de kans voor een som of een verschil van binomiale verdelingen moeten berekenen.
Voorbeeld 5
Volgens het APS (administratie Planning en Statistiek) rookt 18,3% van de Vlaamse 15-jarige jongens
en 19,1% van de Vlaamse 15-jarige meisjes. In een middelbare school zitten er 70 vijftienjarige
jongens en 60 vijftienjarige meisjes.
a) Wat is de kans dat er bij deze 130 vijftienjarigen in totaal minstens 30 rokers zijn?
b) Wat is de kans dat onder de vijftienjarigen op deze school meer meisjes dan jongens roken?
Oplossing
Noem X het aantal rokende jongens in deze school en Y het aantal rokende meisjes op deze school.
Dan zijn zowel X als Y binomiaal verdeeld:
X ~ Bi(70, 0.183)
en
Y ~ Bi(60, 0.191)
a) We moeten de kans berekenen dat de som van X en Y minstens 30 bedraagt. De som van 2
onafhankelijke binomiaal verdeelde toevallige veranderlijken (met verschillende kans op succes p) is
echter niet meer binomiaal verdeeld. We benaderen zowel X als Y door een normale verdeling:
X ~ Bi(70, 0.183)
kan benaderd worden door
XB ~ N(12.81, 10.46577)
Y ~ Bi(60, 0.191)
kan benaderd worden door
YB ~ N(11.46, 9.27114)
De som van 2 onafhankelijke normaal verdeelde toevallige veranderlijken is wel terug normaal
verdeeld, met als verwachte waarde en variantie, respectievelijk de som van de verwachte waarden en
de som van de varianties. Met andere woorden:
X + Y kan benaderd worden door
XB + YB ~ N(24.27, 19.73691)
We berekenen nu de gevraagde kans. Merk op dat we een continuïteitscorrectie doorvoeren, aangezien
we opnieuw een discrete variabele benaderen door een continue variabele:
P(X + Y ≥ 30) ≈ P(XB + YB ≥ 29,5) = normalcdf(29.5, 10^99, 24.27, √19.73691) = 0,11955.
b) Nu moeten we de kans berekenen dat Y groter is dan X, in formules P(Y > X). Door de variabele X
naar het linkerlid te brengen, herschrijven we dit als
P(Y − X > 0)
en krijgen we een analoge oefening als a. Ook het verschil van 2 onafhankelijke normaal verdeelde
toevallige veranderlijken is namelijk terug normaal verdeeld, met als verwachte waarde het verschil
van de verwachte waarden en als variantie de som (let op: niet het verschil) van de varianties. Met
andere woorden:
7
Y − X kan benaderd worden door
YB − XB ~ N(-1.35, 19.73691).
We kunnen dan de kans als volgt berekenen:
P(Y − X > 0) = P(Y − X ≥ 1) ≈ P(YB − XB ≥ 0,5) = normalcdf(0.5,10^99,-1.35,√19.73691) = 0,3386.
b) Toetsen van hypothesen
Bij het toetsen van hypothesen voor fracties of percentages maakt men traditioneel gebruik van de
normale benadering van een binomiale verdeling. Dit is echter vandaag niet meer nodig, zoals uit
volgend voorbeeld blijkt.
Voorbeeld 6
“Kussen gaat meestal rechtsom”. Zo kopte een krantenartikel in De Standaard van 14 februari 2003.
Een Turkse onderzoeker observeerde 124 kussende paartjes op luchthavens, in treinstations, in parken
en op stranden en stelde vast dat twee op de drie kussende paartjes bij het kussen het hoofd naar rechts
draait.
Is deze observatie bij 124 koppeltjes voldoende om te besluiten dat in het algemeen een meerderheid
van de koppels “rechtsom kust”? We voeren een hypothesetoets uit.
De fractie koppels die rechtsom kust noteren we met p. We gaan van de veronderstelling uit dat in het
algemeen deze fractie 0,5 is en we gaan na in hoeverre de gegevens van de Turkse onderzoeker deze
veronderstelling weerleggen. We noteren dit als volgt:
H0 : p = 0,5
versus
Ha : p > 0,5.
H0 wordt de nul-hypothese genoemd en is de hypothese waar we vanuit gaan. Ha wordt de alternatieve
hypothese genoemd en is in feite hetgeen we graag wensen aan te tonen. We gaan nu na in hoeverre de
verzamelde gegevens een bewijs vormen tegen H0. Dit wordt uitgevoerd met behulp van een p-waarde
of overschrijdingskans. De p-waarde is de kans dat in een steekproef van 124 koppels minstens 2/3
van deze koppels rechtsom kust, als in het algemeen slechts 50% van de koppels rechtsom kust
(m.a.w. indien H0 waar is). De p-waarde gaat met andere woorden na of de gegevens die de
onderzoeker observeerde, kunnen verklaard worden door het toeval. Noteren we met P̂ de fractie
koppels dat rechtsom kust in een steekproef van 124 koppels en met X het aantal koppels dat rechtsom
kust in een steekproef van 124 koppels. De variabele X zal dan binomiaal verdeeld zijn met parameters
n = 124 en p. We kunnen nu de p-waarde berekenen:
p-waarde = P( P̂ ≥ 2/3) = P(X ≥
2
124) = P(X ≥ 83)
3
Indien H0 waar is, geldt dat p = 0,5 en bijgevolg dat X ~ Bi(124, 0.5). We kunnen dan de kans
berekenen via de binomiale verdeling en vinden
P(X ≥ 83) = 1 − P(X ≤ 82) = 1 − binomcdf(124,0.5,82) = 0,000102.
Dit betekent bijgevolg dat het zeer onwaarschijnlijk is dat, als in het algemeen slechts 50% van de
koppels rechtsom zou kussen, bij een steekproef van 124 koppels minstens 2/3 van de koppels
rechtsom zou kussen. Ofwel heeft de onderzoeker dus een zeer uitzonderlijke steekproef geobserveerd,
ofwel (en dat is meer waarschijnlijk) bedraagt de fractie koppels die rechtsom kust in het algemeen
meer dan 0,5. Of nog anders gezegd, deze lage p-waarde drukt uit dat het zeer onwaarschijnlijk is dat
je louter door toeval bij een steekproef van 124 koppels minstens 2/3 van de koppels zou observeren
die rechtsom kussen.
We hebben bijgevolg voldoende “bewijs” tegen H0 en hebben er redelijk sterk vertrouwen in dat een
meerderheid rechtsom kust (maar helemaal zeker zijn we natuurlijk nooit).
Alhoewel het berekenen van de p-waarde zeer eenvoudig is via de binomiale verdeling, berekenen
vele statistische boeken en pakketten deze kans toch nog via een normale benadering. Zo ook de
routine 1-PropZTest... van de TI84 (zie schermafdruk hieronder). In feite gebeuren hier zelfs
verschillende onnauwkeurigheden: niet alleen wordt er een benadering gebruikt, waar dit in feite niet
8
nodig is; daarnaast “vergeet” men ook een continuïteitscorrectie door te voeren. Deze routine op het
rekentoestel geeft dan ook als p-waarde 0,000081 in plaats van de correcte 0,000102.
Belangrijke slotopmerking
Betekent het voorgaande voorbeeld dat de normale benadering niet meer zinvol is bij het toetsen van
hypothesen voor fracties? Zeker niet. De normale benadering van een binomiale verdeling is
onontbeerlijk bij hypothesetoetsen voor het vergelijken van 2 fracties. Daar gaat men namelijk het
verschil van 2 steekproeffracties moeten maken, en krijgen we een vergelijkbare situatie als in
voorbeeld 5 b.
Het opstellen van een betrouwbaarheidsinterval voor een fractie zonder de normale benadering van
de binomiale verdeling is mogelijk, maar niet eenvoudig. Een betrouwbaarheidsinterval voor het
verschil van 2 fracties is echter onmogelijk zonder de normale benadering van de binomiale
verdeling.
Deze aspecten tonen aan dat de normale benadering van een binomiale verdeling nog steeds zinvol en
nodig blijft. We mogen ze dus nog niet schrappen uit onze statistiekboeken.
9
Download