Beskrivelse

Temaet i denne animasjonen er påliteligheten av de to statistiske parametrene middelverdi og varians som en beregner på grunnlag av en stikkprøve. Animasjonens målsetning er å illustrere noen grunnleggende problemstillinger.

I denne forbindelsen forutsettes det, at begrepene middelverdi og standardavvik allerede er kjent og at en kjenner til hva disse begrepene forteller om en observasjonsmengde. Variansen er kvadratet av standardavviket.
Utgangspunktet er en observasjonsmengde (karakterisert ved en mengde av mulige utfall, som inntreffer med en kjent sannsynlighet), som man vil undersøke. Så skal denne observasjonsmengde (som det ofte er tilfelle i praksis) ikke være tilgjengelig til direkte statistisk analyse (f.eks. fordi den er for stor). I slike tilfeller må man greie seg med informasjon fra en stikkprøve. I animasjonen har vi en observasjonsmengde der de ulike utfall og sannsynligheten som de opptrer med karakterisert gjennom følgende tabell:

 Utfallet opptrer med en sannsynlighet på
0,6 0,04
0,7 0,04
0,8 0,08
0,9 0,16
1,0 0,20
1,1 0,24
1,2 0,16
1,3 0,04
1,4 0,04

De viktigste statistiske parametrene for denne observasjonsmengden er (avrundet):
  • Middelverdi:  m  = 1,024
  • Standardavvik:  s  = 0,1817
  • Varians (kvadrat av standardavviket):  s 2 = 0,033
Det blir tatt en stikkprøve på 10 utfall ut av vår observasjonsmengde (i henhold til ovenfor angitte sannsynligheter) og det beregnes deres middelverdi m og varians s 2. Spørsmål: Med hvilken sikkerhet kan en trekke konklusjoner for de ulike parametrene til observasjonsmengden?

For å kunne svare på dette spørsmålet, forestiller vi oss (i et tankeeksperiment), at flere stikkprøver blir tatt:
  • Trinn 1 - 6:
    I denne animasjonen blir det vist tre stikkprøver. De faller alle litt ulikt ut: Middelverdi (m
    ) og variansen (s 2) i hvert av de tre tilfellene, avviker noe fra hverandre. Dette forteller noe om at man må regne med en statistisk usikkerhet. Et mål for denne usikkerheten får vi når vi undersøker, hvordan disse stikkprøvene skiller seg fra hverandre. Dette vil vi utføre i de påfølgende trinn. (Ved hjelp av trekantene som står til høyre for dataene kan en studere stikkprøven og deres hyppighetstabell også under senere trinn.)
  • Trinn 7:
    Så beregnes middelverdien til de tre stikkprøve-middelverdiene. For informasjon om hvordan denne parameteren forholder seg for et stort tall av stikkprøver, kan du bevege musen over den røde teksten "Les meg 1"!
    NB: Symbolet E(...)
    som blir brukt i teksten betegner middelverdien (gjennomsnittet) av et stort antall stikkprøver (og betegnes som forventningsverdien).
  • Trinn 8:
    Variansen til
    de tre stikkprøve-middelverdiene beregnes også. For mer informasjon om hvordan denne parameteren forholder seg for et stort tall av stikkprøver, kan du bevege musen over den blå teksten "Les meg 2 "!
    NB: Standardavviket (spredning)
    Dm for stikkprøve-middelverdiene for et stort antall stikkprøver er definert ved formelen Dm2  =  E( (m - E(m))2 ) som også kan uttrykkes slik: Dm2  =  E(m2) - E(m)2.
  • Trinn 9:
    Ut av de tre stikkprøve-variansene beregnes middelverdien. For informasjon om hvordan denne parameteren forholder seg for et stort tall av stikkprøver, kan du bevege musen over den grønne teksten "Les meg 3"!
Animasjonen inneholder ingen utledning av formlene som presenteres i lesmeg-tekstene, men skal illustrere deres betydning.

Ved hjelp av "Reset"-knappen kan du til en hver tid vende tilbake til begynnelsen av animasjonen. De tre viste stikkprøvene er faste og blir brukt på nytt ved ny omstart.



Hva en kan lære ut av dette:

Prøv ved hjelp av animasjonen (og formlene i de tre "Les meg"-tekstene, som du helst skal notere ned) å bli bevisst på følgende sammenheng:

Selv om verdiene til de statistiske parametrene m og s i en stikkprøve ikke står fast i utgangspunktet, kan en angi "forventninger" (så fremt observasjonsmengden er kjent). Dette blir brukt til å undersøke det i praksis viktige tilfelle, at observasjonsmengden er ukjent. Etter en har tatt en stikkprøve, kan en gjøre følgende anslag ut av kjennskapet til m og s:
  • Det beste anslag for den (ukjente) middelverdien m  for observasjonsmengden er middelverdien m av stikkprøven.
  • Den statistiske usikkerheten (spredning) Dm av dette anslaget kan en også angi: Spredningen beregner en ut av standardavviket s og antall stikkprøver n
Dm  =  n-1/2 s .

Denne formelen betegnes også iblant som "roten av n - regelen ". Denne uttrykker den innlysende setningen "Jo større stikkprøven, desto mer nøyaktig kan utsagnene om observasjonsmengden bli som vi kan utlede av denne." mer presist: For å halvere sikkerheten i anslaget av observasjonsmengdens middelverdi, må en firedoble omfang av stikkprøven! Men legg merke til at standardavviket s  på høyre side er en ukjent størrelse.

  • Det beste anslaget for standardavviket  s  til observasjonsmengden er den såkalte "empiriske spredning " (også kalt "midlere feil til en enkeltmåling")

(n/(n - 1))1/2 s .

For store n er den tilnærmet lik standardavviket.

  • Setter man de to resultatene sammen, får en et anslag for den statistiske usikkerheten.

    Dm
    » (n - 1)-1/2 s

Parameteren på den høyre siden blir også betegnet som "midlere feil for middelverdiene". Formelen tillater å angi påliteligheten til slutningen på observasjonsmengden" ene og alene ut ifra utfallene i stikkprøven. For store n har vi den enkle formelen


Dm
» n -1/2 s

  • Alle disse formlene er kun gyldige i sammenhenger der utfallene i en stikkprøve er uavhengig av hverandre ("med tilbakelegging"). Stikkprøven kan da ha et vilkårlig omfang, dvs.n kan bli vilkårlig stor. I praksis tas stikkprøver derimot ofte "uten tilbakelegging" ut av en gitt grunnmengde (f.eks. i meningsmålinger, når hver person maksimalt blir spurt én gang). Blir sannsynligheten for å trekke ut et element av observasjonsmengden flere ganger så liten at en kan se bort i fra den, kan en bruke formelen over også for dette tilfellet. (Dersom dette ikke er tilfellet, så er påliteligheten av anslaget på grunnlag av en stikkprøve til og med mindre! I et grensetilfelle kan stikkprøven innbefatte hele observasjonsmengden, da forsvinner all statistisk usikkerhet.)
Et konkret eksempel på dette blir behandlet i oppgave 5.