Hoofdstuk 0

0.1 Handleiding der Handleidingen en het absoluut minimale dat je móet weten.

Je zal snel ontdekken dat bĳ het vak statistiek, het niet het rekenwerk is dat het meest ingewikkeld is, maar vooral het taaltje dat we hier spreken. Mĳn ervaring is dat het juist de taal is die vaak niet wordt begrepen en tot problemen leidt. Als je zegt (of afspreekt) dat ‘$2$ maal $4$’ $8$ is, dan is dat eigenlĳk makkelĳker te begrĳpen dan een uitspraak als ‘$80$ procent van de variatie op lengte wordt verklaard door leeftĳd’ of ‘teamwork is goed voor het algemeen welzĳn’. Zulke stellingen roepen meer vragen op dan dat we iets werkbaars hebben. En zo is het ook binnen de statistiek: Voor de berekeningen hebben we slechts een ‘aantal’ afspraken nodig, maar voor de taal die we gebruiken, zĳn dat er velen malen meer. Natuurlĳk maken we veel gebruik van synoniemen en het is dus ook zaak voor je tentamen dat je definities in verschillende vormen of situaties kan herkennnen. Een definitie is vaak kort en bondig en daarom vaak juist onbegrĳpelĳk. Mocht ik definities gebruiken dan maak ik veel gebruik van haakjes met daartussen extra tekst die de definities verduidelĳken. Lees definities een keer met de woorden tussen haakjes en een keer zonder, zodat je weet dat je beide vormen snapt. Belangrĳke definities zĳn vaak apart uitgelicht in deze handleiding, zodat je er eventueel sneller doorheen kunt gaan. Verder heb ik definities proberen toe te lichten met voorbeelden van (verkeerd) gebruik en toepassingen. Door begrippen in een andere bewoording te herhalen (wat ik ook altĳd in mĳn lessen doe), hoop ik dat je in het gewone leven eerder een situatie of een stuk tekst zal herkennen of begrĳpen en je je tentamen er uiteindelĳk - fluitend - in trapt. Alle rekenopgaven heb ik tot in de puntjes - met tussen oplossingen - en vaak op verschillende manieren uitgewerkt en vind je in aparte secties na ieder onderwerp. Je hoeft dus altĳd maar even iets verder te kijken voor een verlossend antwoord of uitwerking. Natuurlĳk kan je op verschillende manieren iets intypen op je rekenmachine en ik laat dus ook verschillende manieren zien. Vaak hebben mensen hun eigen manier, maar ik denk als je mĳn manieren snapt, je ook weer beter de gewone rekenregels beheerst en vooral de theorie beter snapt. Er zit meer theorie in die formules verstopt dan je vaak denkt. Mĳn advies is dus: lees gewoon alles, van begin tot eind, dan weet je ook waar de aan en uit knop zit.

0.1.1 De essentie van waar we mee bezig zĳn, in het leven én in de wetenschap.

Tĳdens mĳn studie kwam ik er snel achter dat de huidige wetenschap niet álles verklaren kan. Sterker nog: Wetenschap kwam me vaak ietwat ‘religieus’ over. Heel veel (vreemde) begrippen hebben een bestaansrecht omdat ze bruikbaar of functioneel zĳn, maar vaak weet niemand precies wat er met zo’n woord of begrip wordt bedoeld, of waar een begrip nou echt naar verwĳst. Denk aan (psychologische) termen zoals ‘Ego’, ‘de wil’ of ‘het bewustzĳn’ of aan normale termen als ‘asbak’, ‘koe’ of ‘tafel’ behoorlĳk vaag eigenlĳk. Wat is nou een typische tafel? Voor velen dient de straat ook als een asbak. We hanteren dan ook vaak afspraken over hoe en wat we bedoelen. Een wetenschapper kan niet alles weten en daarom heeft een wetenschapper noodzakelĳkerwĳs - zo zĳn ‘aannames’, ook wel een verzameling stellingen (ideeën) waarvan men eigenlĳk niet weet of ze wel echt waar zĳn, maar voorlopig wel even voor lief aanneemt (er voorlopig dus even in gelooft). Heel veel stellingen, zoals ‘tĳd gaat vooruit’ mogen dan misschien met onze alledaagse ervaringen overeenkomen, maar dat wil nog niet zeggen dat die stelling ook waar is. Zo dacht men vroeger ook dat de zon om de aarde heen draaide. In de wetenschap is slechts een persoonlĳke of subjectieve ervaring, niet voldoende om een stelling te bewĳzen. Descartes begon met de aanname: ‘Ik denk, dus ik ben’ (hĳ moest iets zeggen over het al dan niet bestaan van zĳn persoon en had daar een bewĳs voor nodig). Wat mĳ betreft een zinloze en rare aanname. Ik wil graag een nieuwe - zinvolle - aanname of uitgangspunt hiervoor in de plaats. Een uitgangspunt dat meteen ook de essentie van statistiek (of wetenschap en het leven) raakt en die dus super handig is als je even - door de cĳfers - de juíste getallen niet meer ziet. Om antwoord hierop te vinden, moeten we ons eerst de vraag stellen wat onderzoekers en pasgeboren baby’s met elkaar gemeen hebben. Beiden tasten hun omgeving af zodat ze in staat zĳn om die omgeving of werkelĳkheid uiteindelĳk te beheersen, of te manipuleren. So far, so good. Mĳn volgende en belangrĳkste vraag is: Wat hebben de omgeving (werkelĳkheid) van de baby en de omgeving van de onderzoeker gemeen? Dus ook al zitten de twee in een totaal andere omgeving, wat is er toch gelĳk of welke ervaring zullen beiden in ieder geval delen. Dit is een diepe, maar heeft volgens mĳ maar één antwoord. Zowel baby als wetenschapper zullen ‘verschillen’ in (of binnen) hun omgeving ervaren. Een baby zal voelen dat het niet overal even warm is, of zal zien dat het niet altĳd even licht is en zal niet altĳd even hongerig zĳn. Zĳn vader en moeder zullen niet hetzelfde stemgeluid hebben en de baard van pappa voelt toch echt wel spannender aan dan die zachte wangetjes van mama. De onderzoeker ervaart ook verschil. Hĳ zal observeren dat niet iedereen in zĳn steekproef hetzelfde is. Niet iedereen zal even oud, blĳ, lang, slim, creatief, gemotiveerd of wat dan ook zĳn. Een van de kerntaken van wetenschap (en statistiek) is juist het beschrĳven, voorspellen en verklaren van die verschillen in onze omgeving. Zo heeft een baby na korte tĳd ook wel door dat een hogere stem samengaat met een zacht wangetje en een bromgeluid met een baard. We ervaren allemaal verschil en we gebruiken die verschillen om te voorspellen. Ik denk zelfs dat je kunt stellen dat verschil doet leven en dus daarom:

Ik ervaar verschil, dus ik ben

Je komt een hoop moeilĳk-doenerĳ tegen in de wetenschap (terwĳl wetenschappers het begrip parsimony - ook wel spaarzaamheid of simpelheid - hoog zouden hebben moeten zitten). Zo zegt men gek genoeg weleens in de statistiek;

Geslacht heeft een effect op lengte.
Er is samenhang tussen geslacht en lengte.
Geslacht en lengte zĳn gecorreleerd.
Lengte is geassoccieerd aan geslacht.

Vier heel correcte uitspraken, maar (en) ze betekenen allemaal precies hetzelfde. Wat met deze uitspraken wordt bedoeld is - enkel en alleen - dat mannen over het algemeen een andere lengte hebben dan vrouwen, dus dat mannen gemiddeld gezien verschillen in lengte van de vrouwen. Er is dus een (systematisch) verschil in lengte tussen mannen en vrouwen. Wĳ weten zelfs (uit ervaring of onderzoek) dat mannen meestal langer zĳn dan vrouwen (dit blĳkt niet uit bovenstaande uitspraken, die zeggen alleen maar dat er verschil is, maar niet welke kant dat verschil op gaat). Anyway, je zal dus een hoop moeilĳke begrippen tegenkomen, maar mocht je even in de war raken, besef dan dat bĳ statistiek altĳd alles om verschil gaat. Verschillen op het een, geeft vaak een verschil op het ander.

0.1.2 Aapjes

Om verschillende technieken of analyses uit te leggen, gebruik ik in de les altĳd ‘mĳn aapjes’. Mĳn aapjes houden de boel tastbaar en daar wordt mens, kind en dier blĳ van. Dus ook voor jullie voer ik mĳn aapjes door, zodat jullie er ook van kunnen genieten. Na een paar oefeningen zal je zien dat je de aapjes wel kunt dromen en tĳdens tentamens komen ze goed van pas. Als je het even niet meer weet, kun je je hoogst waarschĳnlĳk wel weer aan hun op trekken. Je hebt dan één ‘kant en klaar voorbeeld’ in je hoofd zitten (met antwoorden) die meteen op de meeste zaken toepasbaar is. Je zult alleen nog even de getallen moeten veranderen. Het zĳn mĳn $9$ aapjes die ik ooit in een bruin verleden heb gevangen (ik doe zo min mogelĳk aan ethiek in deze handleiding) omdat ik me verbaasde over de verschillen die ik bĳ hun zag. Het was een heerlĳke verwondering, want deze lieve aapjes varieerde in lengte, leeftĳd en aapsoort. Hoe mooi kan variatie zĳn! Maar goed, later dus veel meer over de apen.

0.2 Onderzoek en aantal algemene definities voordat we aan de slag gaan met het echte rekenwerk, het absoluut minimale dus.

Wetenschappers houden zich vooral bezig met het doen van onderzoek, maar wat is onderzoek in het algemeen, welk doel heeft onderzoek en wat doen onderzoekers nou eigenlĳk feitelĳk?

Onderzoek

Het ontdekken, beschrĳven en verklaren van (observeerbare of meetbare) verschĳnselen, patronen of relaties (zoals gedrag en mentale processen) in de werkelĳkheid.

Met de werkelĳkheid bedoel ík alles wat maar ‘waar te nemen’ of te observeren valt in onze omgeving. Dus onder de werkelijkheid versta ik bijvoorbeeld (het gedrag van) mensen, apen, hersenen, nieren, een stad, een land, een auto, de aarde of iets anders in ons Heelal. De werkelĳkheid is dus een heel ruim begrip hier. En ik neem voor het gemak even aan dat deze werkelijkheid ook echt bestaat! We mogen dan misschien niet allemaal dezelfde interpretatie van de werkelijkheid hebben, maar ik neem dus wel even aan dat we allemaal naar dezelfde werkelijkheid kijken.

Onderzoeksobject

Het onderzoeksobject is die of datgene van wie of wat je informatie verzamelt voor een onderzoek.

Het onderzoeksobject is dus de persoon, het ding, zaak, case (casus) of dus object dat wordt onderzocht binnen een onderzoek en aan wie of wat dus de observeerbare verschĳnselen of informatie over eigenschappen, toebehoren. Binnen een onderzoek kan het één object zĳn, maar meestal zĳn het er meerderen.

Voorbeelden: meestal mensen (of dus slechts één mens), proefpersonen of proefdieren, maar soms ook een bepaalde dag of dagen in het jaar, landen of andere objecten zoals een school, ziekenhuis, gevangenis of één of meer steden.

Gebruik: Een onderzoek kan zich richten op Nederlandse adolescenten (onderzoeksobjecten) en hun vrĳetĳdsbestedingen (observeerbare verschĳnselen).

Variabele

‘Iets dat varieert’, ‘iets, eigenschap of verschĳnsel dat een bepaalde grootte of waarde kan aannemen en dus verschillend qua waarde of grootte kan zĳn’, een (bepaald soort) grootheid, een (bepaald soort) dimensie.

Voorbeelden: geslacht, lengte, leeftĳd, soort depressie, maar ook mate van depressie, opleidingsniveau, economische status, nationaliteit, kans op slagen of kans op ziek worden, temperatuur, bloeddruk, aapsoort.

Gebruik: Eén persoon kan op één moment niet verschillende lengtes hebben, het is de variabele ‘lengte’ die bĳ verschillende personen verschillende waarde zal aannemen. Een persoon kan natuurlijk wel over meerdere momenten variëren en dus andere waarden aannemen (denk aan een toenemende lengte bij een kind). We noemen variatie binnen één persoon within subject variation. Als het gaat om verschil in waarden tussen personen, en dus wel op één moment dan wordt het between subject variation genoemd.

Waarde of categorie (zelfde!)

Een getal of naam (label) dat kan worden toegekend aan een eigenschap van een zaak, ding of (onderzoeks-) object.

Voorbeelden: een lengte van ‘$172$ cm’, een IQ van ‘$130$ punten’ of een ‘bipolaire depressiestoornis’.

Let op bĳ gebruik: waarden én categorieën zĳn dus niet hetzelfde als variabelen. Een variabele of dimensie kan dus wel een bepaalde waarde of categorie aannemen. Het is de variabele die (op een bepaald moment) een (bepaalde) waarde aanneemt.

Gebruik:

De variabele ‘geslacht’ kan de twee waarden (of categorieën) ‘man’ of ‘vrouw’ aannemen (alsjeblieft geen ethiek hier, maar natuurlĳk erkennen we tegenwoordig meerdere soorten geslachtsvormen)
De variabele ‘lengte’ neemt bĳ pasgeboren babies (objecten) meestal een waarde aan ergens tussen $30$ en $60$ cm.
De meeste mensen die een universitaire opleiding (waarde op de variabele ‘opleidingsniveau’) hebben afgerond, scoren vaak hoger (waarde) op cognitieve dimensies (een dimensie is hetzelfde als een variabele) dan mensen met een lager (waarde) opleidingsniveau (variabele).
Vandaag (object) is de temperatuur (variabele) $30$ graden Celsius (waarde).
Een onderzoek richt zich op de relatie tussen ‘studiekeuze’ (variabele) en het ‘soort bĳbaantje’ (variabele) bĳ Nederlandse adolescenten (onderzoeksobjecten).
Mĳn onderzoek richt zich op ‘het verband tussen leeftĳd en lengte bĳ apen’. De ‘onderzoeksvraag’ is hier eigenlĳk of de verschillen in leeftĳd systematisch samen gaan met verschillen in lengte bĳ apen. Of makkelĳker gezegd: ‘Of ze dus groeien naarmate ze ouder worden’. De wĳsneus, ik dus, zou meteen vragen, maar waarom ‘zonodig’ omhoog groeien en niet omlaag? Later gaan we hier moeilĳk over doen, wees gerust.

Observatie

Meting (bepaling aan de hand van een meetinstrument) van een bepaalde waarde op een variabele, toebehorend aan een onderzoeksobject.

Voorbeeld:

We kunnen observeren (meten of bepalen) of een bepaald persoon (onderzoeksobject) een man (één van de twee waarden die de variabele geslacht kan aannemen) dan wel een vrouw (de andere waarde of categorie) is.
Aan de hand van een IQ-test (meetinstrument) observeren of meten we hoe hoog een bepaald persoon scoort.

0.3 Rekenen aan Apen.

Even warm worden. Voordat we inhoudelĳk naar theorie en analyses gaan kĳken, wil ik dus eerst even mĳn apen introduceren. Op basis van de gegevens (data) gaan we vast wat rekenen, zodat we een aantal rekenregels tegenkomen die later van pas zullen komen. Ook tĳdens deze berekeningen behandel ik al belangrĳke theorie, maar ik zal nog niet alle begrippen die ik hier gebruik uitleggen, soms doe ik dat pas verderop in deze handleiding. Maar ook hier genoeg theorie voor je eerste tentamen statistiek. Het is voor nu ook nog even niet nodig dat je alle begrippen meteen snapt, alles op z’n tĳd en ik wil nu graag puur even rekenen en wat extra aandacht aan de rekenregels geven. In de dataset in onderstaande tabel, vind je de scores (datapunten) die ik verzameld heb tĳdens mĳn onderzoek naar aapjes. Mĳn $9$ aapjes vormen een steekproef en heb ik eerlĳk geselecteerd (uitgekozen) uit de hele populatie (ergens in land waar je heel lekker kunt eten, Indonesië ofzo). Je ziet $3$ variabelen (de drie kolommen) in deze tabel. De eerste variabele $i$ - spreken we even af - noemen we ‘respondent- of case-nummer’ en is alleen maar om mĳn andere - of echte - waarnemingen of observaties te organiseren (ik heb dus alle aapjes genummerd van $1$ tot en met $9$). In de tweede kolom vind je $9$ scores voor hun ‘lengte in cm’. Uit luiheid gebruiken we eigenlĳk altĳd een letter voor een variabele. Hier staat $Y_i$ voor de score qua lengte in cm voor het ‘$i$-de’ of ‘zoveelste’ aapje. Je mag dus zeggen dat de score qua lengte voor bĳvoorbeeld het tweede aapje ook wel te schrĳven is als $Y_2 = 130$. In de derde kolom vind je de variabele $X_i$ die in dit geval voor de ‘leeftĳd in jaren’ staat (voor aapje nummer $i$ weliswaar). Dus $X_9 = 2.0$ betekent alleen maar dat aapje nummer $9$ een leeftĳd heeft van $2.0$ jaar.

Tabel 0.1: Aapjes Data
Respondentnummer	Lengte	Leeftijd
$i$	$Y_i$	$X_i$
1	120	1.0
2	130	1.0
3	140	1.0
4	140	1.5
5	150	1.5
6	160	1.5
7	160	2.0
8	170	2.0
9	180	2.0

0.3.1 Waarnemingen samenvatten aan de hand van statistieken.

We gaan onze eerste statistieken uitrekenen: het gemiddelde ($\bar{Y}$), standaarddeviatie $S_y$ en variantie ($S^2_y$) voor de variabele $Y$ (lengte in cm). Verder heb ik ook de scores voor lengte even grafisch (in een plaatje) weergeven aan de hand van een getallenlĳn. Je ziet maar zeven punten op de getallenlĳn in plaats van negen, maar dat komt dus omdat we twee keer een dubbele waarneming hebben, bĳ $140$ en $160$ cm.

Figuur 0.1: getallenlijn van de lengtes van de appjes

Het gemiddelde is ook wel de verwachte waarde (voor een variabele). Het gemiddelde is een statistiek (een beschrĳvend of samenvattend getalletje) die de positie van het centrum van een verzameling datapunten aangeeft waardoor we ook wel de ligging (plek of positie) van onze scores weten. Als je aan een getallenlĳn denkt (zie figuur 0.1) dan is het gemiddelde ook wel een soort plaatsbepaling (van het centrum van de datapunten). Naast die plaatsbepaling (beschrĳving van positie of lokatie) heeft het gemiddelde nog een andere belangrĳke rol. Je zou kunnen zeggen dat het gemiddelde ook wel de beste gok is als je een voorspelling wilt doen. Dus als één van onze negen aapjes binnen zou komen wandelen, wat zou dan je verwachting of voorspelling zĳn qua lengte? Vandaar dus ook de naam ‘verwachte waarde’ voor het gemiddelde. Omdat het gemiddelde je beste gok is (bĳ gebrek aan andere informatie), kun je zeggen dat het gemiddelde je meest basale voorspelling, theorie of (voorspel-) model is. Termen als ‘intercept model’ of het ‘nul-model’ zĳn ook veel gebruikte termen voor het gemiddelde. Als je een model maakt, probeer je alleen maar de realiteit of de werkelĳkheid te benaderen of weer te geven. Een model stelt meestal een representatie (soort kopietje) van iets anders (werkelĳkheid) voor. Sommige modellen zĳn complex (ingewikkeld) zoals een regressiemodel met tien voorspellers om het algemeen welzĳn van een persoon te voorspellen, een maatpak (helemaal op maat gemaakt en ‘representeert’ de vorm van een lichaam), een landkaart met alle wandelwegen van Nederland of zelfs een fotomodel (die modelleert om schoonheid te representeren) en sommige modellen (of theorieën) zĳn heel simpel zoals het gemiddelde zelf, een spĳkerbroek, het liefst een Levi’s $28/32$ (‘$28$’ staat hier voor de breedte en $32$ voor de lengte en met slechts twee ‘parameters’ (beschrĳvers) weet de winkelier dus al genoeg en pakt dan zo de juiste spĳkerbroek (model) uit de kast, een speelgoedautootje, of een plattegrond van je schoolgebouw. Een ‘model’ is dus een ruim begrip, maar de modellen die we in de statistiek bouwen zĳn eigenlĳk altĳd bedoeld om verschĳnselen (in de werkelĳkheid) te beschrĳven of te voorspellen.

0.3.2 De berekening van het gemiddelde voor een variabele.

In woorden zou de berekening voor het gemiddelde van de variabele $Y$ zĳn: eerst alle $Y$-scores voor een variabele optellen en dan pas delen door het aantal. Je deelt dus de som van alle scores door het aantal scores. Je kan het ook moeilĳk(er) zeggen: om het gemiddelde (mean, average, expected value) te vinden, deel je de sommatie van alle scores (ook wel: $\sum\limits^{i=n}_{i=1}{Y_i}$) door het aantal waarnemingen ($n$) in je steekproef. In formulevorm wordt het gemiddelde voor $Y$ ($\bar{Y}$) als volgt uitgeschreven:

\[\overline{Y}\ =\frac{\sum\limits^{i=n}_{i=1}{Y_i}}{n}\ \]

We komen dus nu voor het eerst het ‘sommatieteken’ tegen ($\sum{}$). Officieel heet dit teken ook wel ‘sigma’, maar die term ga ik niet gebruiken (omdat de standaardafwĳking voor een populatie ook die naam draagt) en gebruik ik dus gewoon de het woord ‘sommatieteken’. In deze formule zie je een onderschift (sub-script) ‘$i=1$’ en een bovenschrift (super-script) ‘$i=n$’ bĳ het sommatieteken. Heel vaak laten ze onder- en bovenschrift weg, dat doe ík nog even niet, ik wil graag dat je beseft waar ze voor staan. $i$ staat bĳ ons nu voor respondentnummer en de letter $n$ staat voor de totale steekproefgrootte, dus $9$ bĳ ons, of ook wel de hoogst mogelĳke waarde voor $i$. Later krĳgen de $i$-tjes een andere betekenis (bĳvoorbeeld groepsnummer i.p.v. respondentnummer) en hebben we ook $j$-tjes en $k$-tjes nodig om de boel te organiseren en laat ik ze nu dus staan, zodat je eraan kunt wennen. De formule staat nu in een breukvorm. In het het bovenste gedeelte van de breuk (de teller of numerator in het engels) staat dus $\sum\limits^{i=n}_{i=1}{Y_i}$. Het onderschrift ‘$i=1$’ hierin vertelt ons dus dat we eerst datgene dat achter het sommatieteken staat (hier alleen $Y_i$ ), voor elke waarde van $i$ (beginnend bĳ ‘$i=1$’ en eindigend bĳ ‘$i=n$’ , dus ‘$i=9$’ bĳ ons) moeten invullen (vervangen) en daarna pas deze negen waarden moeten optellen:

Als we eerst alleen de $i$-tjes vervangen met de respondentnummers krijgen we:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{Y_i} = Y_1 + Y_2 + Y_3 + Y_4 + Y_5 + Y_6 + Y_7 + Y_8 + Y_9$

En als we vervolgens $Y_1$ tot en met $Y_9$ vervangen met de daadwerkelijke waarden, kunnen we (pas) echt gaan rekenen en krijgen we de uiteindelijke waarde voor de som van alle $9$ scores:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{Y_i} = 120 +130 +140 + 140 +150 + 160 + 160 + 170 + 180 = 1350$

De som of sommatie van alle scores is dus (heeft een waarde van) $1350$. Overigens hebben we het hier nog steeds over centimeters, dus als de $9$ aapjes boven op elkaar zouden staan, hebben we een apentoren van $1350$ cm lang. Stel dat ik alleen de middelste drie lengtes van mĳn aapjes zou willen optellen dan zouden dus alleen het onder en bovenschrift bij het sommatieteken veranderen:

$\:\:\:\:\:\:\sum\limits^{i=6}_{i=4}{Y_i} = Y_4 + Y_5 + Y_6$

Wordt dus:

$\:\:\:\:\:\:\sum\limits^{i=6}_{i=4}{Y_i} = 140 + 150 + 160 = 450$

Maar we waren er nog niet want in het onderste gedeelte van de breuk (noemer, denominator in het Engels) stond ook nog een $n$. Die staat vaak voor de totale steekproefgrootte, hier dus ook. Maar soms kom je een kleine letter $n$ én een grote letter $N$ tegen binnen één formule. In dat geval bedoelen ze met de kleine $n$ de groepsgroottes van de subgroepen binnen je steekproef (aantal mannen en vrouwen bijvoorbeeld) en de grote $N$ voor totale steekproefgrootte (aantal mensen). Anyway, we moeten de sommatie van de scores ($1350$) dus nog delen door $9$ en we hebben de gemiddelde waarde van $Y$ gevonden. Natuurlĳk reken je vaak met tussen-antwoorden en type je dus niet altĳd de hele berekening in één keer in. Om het formule gevoel toch een beetje op te krikken, schrĳf ik het toch even op zoals je het allemaal in één keer zou kunnen intypen op je rekenmachine:

$\:\:\:\:\:\:\overline{Y}\ =\frac{\sum\limits^{i=n}_{i=1}{Y_i}}{n} = [120+130+140+140+150+160+160+170+180] / 9 = 150$

Ik gebruik altĳd (vaak) blokhaken om aan te geven dat ik een sommatieteken uitwerk. Met je rekenmachine type je (natuurlĳk) gewone haakjes in plaats van blokhaken. De intype-manier wordt dus als volgt:

$\:\:\:\:\:\:\ \overline{Y}\ =\frac{\sum\limits^{i=n}_{i=1}{Y_i}}{n} = (120+130+140+140+150+160+160+170+180) / 9 = 150$

Het gemiddelde voor lengte, dus $\overline{Y}$, voor deze steekproef is dus (of bedraagt) $150$ cm en is dus ook de verwachting, voorspelling, of verwachte waarde (expected value $E(Y)$) als je wilt voorspellen wat de waarde van een aapje zal zĳn, als er een willekeurig aapje binnen komt lopen. Soms kom je de formule voor het gemiddelde in een andere vorm tegen. En omdat we later met veel moeilĳkere formules moeten werken, wil ik dat je beide vormen even goed snapt en kunt toepassen. De moeilĳke versie ziet er als volgt uit:

\[\overline{Y} = \frac{1}{n} \cdot \sum\limits^{i=n}_{i=1}{Y_i}\]

Mischien ken je de regel ‘delen door een getal is hetzelfde als vermenigvuldigen met het omgekeerde’. Neem bĳvoorbeeld $8/2 = \frac{8}{2} = 4$. We delen dus hier het getal $8$ door het getal $2$. Wat de regel eigenlĳk zegt, is dat je het getal $8$ ook kunt vermenigvuldigen met het omgekeerde van het getal $2$. Het ‘omgekeerde’ van het getal $2$ is $\frac{1}{2}$ en het omgekeerde van bĳvoorbeeld $100$ is ook wel ‘$1$ gedeeld door $100$’, dus $\frac{1}{100}$ (één honderdste). Dus je had ook $8 \cdot \frac{1}{2}=4$ kunnen doen of draai het om: $\frac{1}{2} \cdot 8 = 1/2 \cdot 8 =4$. Je ziet dus dat ik het ‘keer-teken’ met een puntje doe, maar als ik het uitschrĳf voor de rekenmachine zal ik (vaak) een ’*’ gebruiken voor het maalteken. De ouderwetse keer, ofwel ‘x’, kunnen we nu niet meer gebruiken omdat de meeste variabelen uit luiheid, de naam (symbool of letter) ‘X’ krĳgen en we willen zo min mogelĳk verwarring met ‘X’-en en keer-tekens.

Tabel 0.2: Omgekeerden
Getal of Waarde	Omgekeerde in breukvorm	Omgekeerde in 2 decimalen
1	$\frac{1}{1} = 1$	1.00
3	$\frac{1}{3}$	0.33
100	$\frac{1}{100}$	0.01
$\frac{1}{3}$	$\frac{1}{\frac{1}{3}}=3$	3.00
$\frac{2}{5}$	$\frac{1}{\frac{2}{5}} = \frac{5}{2}$	2.50
$n$	$\frac{1}{n}$	Dit kun je pas uitrekenen als je de waarde van $n$ weet
$n-1$	$\frac{1}{n-1}$	Dit kun je pas uitrekenen als je de waarde van $n$ weet
$Benjamin$	$\frac{1}{Benjamin}$	Dit kun je pas uitrekenen als je de waarde van $Benjamin$ weet

Dus het liefst had je de formule als volgt ingevuld:

\[\overline{Y} = E(Y) = \frac{1}{n} \cdot \sum\limits^{i=n}_{i=1}{Y_i} = \frac{1}{9} \cdot [120+130+140+140+150+160+160+170+180] = 150\]

Of qua intypen op je rekenmachine:

\[\overline{Y} = E(Y) = \frac{1}{n} \cdot \sum\limits^{i=n}_{i=1}{Y_i} = 1/9 \cdot (120+130+140+140+150+160+160+170+180) = 150\]

Merk op dat ik $1/9$ niet tussen haakjes heb gezet, ik weet dat de meesten van jullie gek zĳn op haakjes, maar ik doe het alleen als het nodig is. Denk dus óók na als ik géén haakjes gebruik en type alsjeblieft de formules letterlĳk in zoals ik ze uitschrĳf (en zie dan dat het blĳkbaar zo mag, tenzĳ je een rekenmachine uit de tĳd van Kniertje hebt, maar dan zal je een nieuwe moeten halen; een zogenaamd ‘wetenschappelĳk’ rekenmachientje of een Grafische Rekenmachine, Texas TI (nog wat). Grafische rekenmachientjes zijn niet op alle opleidingen toegestaan, dus check vooral met je opleiding en een wetenschappelijk reken-apparaat is wel minimaal als je veel (lange berekeningen) moet intypen. Het leren lezen van woorden is één ding, maar het lezen (en invullen) van formules is van een heel andere orde. Soms zul je dus gewoon - symbool voor symbool - een formule moeten uit-spellen tĳdens het overnemen van een formule in je ruitjes-schrift.

0.3.3 De berekening van de Variantie en de Standaardafwijking

Standaardafwĳking, standaarddeviatie, standard deviation

De volgende - en misschien wel de meest belangrĳke - statistiek die we nu gaan berekenen, is de standaardafwĳking. Ook deze statistiek beschrĳft een karakteristiek (eigenschap) van een verzameling scores voor een variabele, bĳ ons de variabele lengte ($Y_i$) dus. De standaardafwĳking is een spreidingsmaat en vertelt je in hoeverre de scores (van een variabele) juist bĳ elkaar of juist uit elkaar liggen. Als je naar de getallenlĳn kĳkt, gaat het dus nu om de concentratie (dichtheid) van datapuntjes. Als de punten dicht bĳ elkaar liggen, is er weinig spreiding en heeft de standaardafwĳking een relatief lagere waarde dan als de punten juist verder uit elkaar liggen.

Standaardafwĳking

De standaardafwĳking is de gemiddelde afwĳking (afstand of verschil) van een observatie (of score) naar het gemiddelde.

In gewone woorden zou je ook wel kunnen zeggen dat de standaardafwĳking de grootte van de gemiddelde gokfout (afstand, verschil, afwĳking, blauw streepje) is als je de scores van jouw variabele probeert terug te voorspellen (gokken) met het gemiddelde als verwachte waarde (als beste gok of voorspelling dus). Als ik standaardafwĳking zeg, denk ik vaak gewoon: de grootte van de gemiddelde gokfout (als je het spelletje zou spelen, dus zou gokken of voorspellen wat de lengte van een aapje is voordat hĳ binnenkomt en het gemiddelde als beste gok gebruikt, ik noem dit ‘het spelletje’). Hier gaan we even dieper (en makkelĳker) over nadenken door het spelletje te spelen. Stel je voor dat onze negen aapjes op de gang staan en dat er willekeurig (je weet niet welke) één aapje binnen komt wandelen. Je hebt de data inmiddels gezien, je weet dus ook welke ‘waarden’ binnen zouden kunnen komen wandelen. Inmiddels weet je ook dat het gemiddelde je beste gok is, je weet misschien nog niet waarom, maar dat wordt nu hopelĳk duidelĳk. Stel, jĳ zegt dus: ‘Het aapje dat binnenkomt, zal wel $150$ cm zĳn’. Er is maar één aapje precies $150$ cm lang, dus een grote kans dat je precies goed gokt (en er dus $0$ cm naast zit met jouw gok of verwachting), heb je niet (die kans is slechts $1$ op $9$ of $1/9$ of $0.11111....$). Maar daar gaat het nu ook niet om (gek genoeg). Het gaat dus niet om ‘zo vaak mogelĳk precies goed gokken’, maar juist om ‘gemiddeld gezien er zo dicht bĳ in de buurt komen’. En daarop moet je beste keuze - qua voorspelling gebaseerd zĳn. Je wilt - gemiddeld genomen - de kleinst mogelĳke gokfout weten, als je het spelletje herhaald. En als je dus het gemiddelde kiest als beste gok, dan is je gemiddelde gokfout - dus de standaardafwĳking - het kleinst. Goed, we gaan hem - de standaardafwĳking - berekenen, in dit geval dus voor de variabele $Y_i$ (lengte in cm). We bouwen het langzaam op, want tĳdens onze berekening komen we ook weer een aantal rekenregels en theorie tegen die je later weer zal moeten gebruiken, dus blĳf opletten.

Individuele afwĳking

Een individuele afwĳking van een observatie naar het gemiddelde is de afstand van de waarde van een waarneming naar het gemiddelde (denk dus een individuele gokfout).

Wĳ spreken af dat als een score boven (of rechts van, als je aan de getallen lĳn denkt) de verwachting (het gemiddelde) ligt, die score een positieve afwĳking heeft ten op zichte van het gemiddelde (een positief residu). Als de score onder (of links) van de verwachting ligt, noemen we het dus een negatieve afwĳking (of dus een negatief residu). Om de afstand dus juist te berekenen, neem je altĳd de waarde van de observatie (het meest specifieke) en daar trek je de verwachting (het meest algemene) van af. Onthoud vast: een verschil (afstand tussen) is altĳd ‘specifiek min algemeen’ en een observatie is natuurlĳk veel specifieker dan de verwachting (het gemiddelde). Maar dus altĳd, in deze volgorde.

Residual = Observed - Expected

Een residu is ook wel iets dat je overhoudt (in dit geval verschil, afstand of hoeveelheid) na een bepaalde behandeling (een aftrekking), je hebt meerdere soorten residuen, maar dat is nu nog even niet aan de orde. Voor nu zou je een (individuele) gokfout dus ook wel een residu kunnen noemen. Laten we vast alle residuen (ten op zichte van het gemiddelde uit rekenen).

Residual = Observed - Expected = $Y_i - \overline{Y}$

De afwĳking van aapje nummer $1$ is $Y_1 - \overline{Y} = 120 - 150 = \text{-}30$ en is dus een negatieve afwĳking. Voor respondentnummer $1$ kan je dus zeggen dat de gokfout een waarde heeft van $-30$ en bĳvoorbeeld voor aapje nummer $8$ dus $20$. Omdat we straks gaan optellen en we telkens gelĳksoortige handelingen gaan doen, zet ik de resultaten vast in kolomen in de tabel hieronder. Als je naar de de individuele afwĳkingen kĳkt dan zie je dat de kleinste afstand $0$ is (voor aapje nummer $5$, want die ligt precies op het gemiddelde) en de grootste afstand $30$ of $\text{-}30$ is. De standaardafwĳking is de gemiddelde afwĳking (van een observatie naar het gemiddelde). Dus je zou misschien zeggen dat als je alle individuele afwĳkingen bĳ elkaar optelt en vervolgens deelt door het aantal, dan heb je de standaardafwĳking gevonden (berekend) hebt. Maar helaas, zo werkt het dus niet (maar ik zou het wel zo voelen als ik jou was) We komen twee of drie problemen tegen waarvoor we nog moeten corrigeren (een oplossing voor moeten vinden).

Tabel 0.3: Residuen
Respondentnummer	Lengte	Indiviuele Afwijking	Gekwadrateerde Indiviuele Afwijking
$i$	$Y_i$	$Y_i - \overline{Y}$	$(Y_i - \overline{Y})^2$
1	120	-30	900
2	130	-20	400
3	140	-10	100
4	140	-10	100
5	150	0	0
6	160	10	100
7	160	10	100
8	170	20	400
9	180	30	900
	$\sum\limits^{i=9}_{i=1}{Y_i} = 1350$	$\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = 0$	$\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = 3000$

Het foute gevoel moet dus zĳn: Eerst de gokfouten (individuele afwijkingen) optellen en daarna de optelling (of som) delen door het aantal, want dan weet je de gemiddelde lengte van die gokfouten, dus de standaardafwĳking (zie het dus als negen blauwe streepjes waar je de gemiddelde lengte van berekent, bĳ mĳ in de les zĳn deze streepjes altĳd blauw).

Figuur 0.2: Individuele afwijkingen of: blauwe streepjes

Probleem $1$: Alle gokfouten optellen geeft nul, daarom gaan we eerst de gokfouten kwadrateren en daarna pas optellen. We kwadrateren hier om alle negatieve waarden positief te maken, zodat we ze wel kunnen optellen en dat de som dus niet tot nul optelt. In formule-vorm zou de optelling (of sommatie) van de individuele afwĳkingen er als volgt uitzien:

\[ \sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})} \]

Wat dus wil zeggen dat je eerst het hele gedeelte na het sommatieteken voor ieder aapje moet invullen en uitrekenen en daarna pas die uitkomsten per aapje moet optellen (dus ook wel gewoon de optelling van de getallen in de derde kolom, zie tabel). Uitgeschreven gaat ie als volgt:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = (Y_1-\overline{Y}) + (Y_2-\overline{Y}) + (Y_3-\overline{Y}) + (Y_4-\overline{Y}) + (Y_5-\overline{Y})\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(Y_6-\overline{Y}) + (Y_7-\overline{Y}) + (Y_8-\overline{Y}) + (Y_9-\overline{Y})$

En dan vervangen door de juiste getallen en de boel uitrekenen:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = [(120-150)+(130-150)+(140-150)+(140-150)+(150-150)\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(160-150)+(160-150)+(170-150)+(180-150)] = 0$

Of als je dit intypet:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = (120-150)+(130-150)+(140-150)+(140-150)+(150-150)\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(160-150)+(160-150)+(170-150)+(180-150) = 0$

Of met tussen-antwoorden (de uitkomsten van de individuele afwĳkingen):

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = \text{-}30 + \text{-}20 + \text{-}10 + \text{-}10 + 0 + 10 + 10 + 20 + 30 = 0$

Ook hier even aandacht voor de minnetjes (en plussen). Eigenlĳk kennen we twee soorten min-tekens. De gewone min op je rekenmachine is de min van ‘aftrekken’ (ik noem hem als nodig de ‘aftrek-min’ dus als je twee getallen van elkaar wil aftrekken). Die andere min op je rekenmachien is ook wel de min om aan te duiden dat een getal een negatieve waarde heeft (een minnetje tussen twee haakjes op je rekenmachien). Ik noem hem ‘de min van negatief’. En in de bovenstaande formule is de eerste min na het ‘=’- teken (die dus voor de 30 staat) een min van negatief getal, de tweede (voor 20) ook. Eigenlĳk zie je hierboven dus ook een optelling of sommatie van positieve en negatieve getallen. De meeste mensen zouden zeggen dat als je $8-6=2$ doet, dat dat een aftrekking (aftreksom) is, maar ik zou het liever willen zien als de optelling van een positief getal (8) en een negatief getal (-6), dus $8+\text{-}6=2$. Als je namelĳk $8$ euro in je portemonnee hebt én (plus) je hebt ook nog een schuld van $6$ euro, zou je dus $2$ euro overhouden. Misschien vind je dat ik moeilĳk doe, maar later zul je me dankbaar zĳn…. Anyway, bĳna iedereen weet dat ‘+ -’ gewoon min wordt. Dus uiteindelĳk ziet de som van alle individuele afwĳkingen er als volgt uit:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = \text{-}30 -20 -10 -10 + 0 + 10 + 10 + 20 + 30 = 0$

En deze som heeft dus de waarde nul, hier voelt het een beetje alsof de gokfouten ‘verdwenen’ zĳn, maar bĳ optelling van gewone residuen (of gokfouten) krĳg je dus altĳd nul. Je kan ook zeggen dat de gokfouten elkaar opheffen omdat de uitkomst van de som dus nul is. Eigenlĳk moeten we dus van alle negatieve waarden af, zodat we de gokfouten wel kunnen optellen. Wĳ gaan de gokfouten straks kwadrateren om van de minnetjes af te komen, maar eerst nog een uitwĳding over absolute waarden. We zeggen ook wel dat de waarden ‘30’ en ‘-30’ absoluut gezien even groot zĳn, omdat ze (op de getallenlĳn) dezelfde afstand tot nul hebben. Je moet even ver wandelen om vanuit $30$ of $-30$ naar $0$ te lopen, alleen de richting verschilt. We gebruiken absoluut-tekens om een getal om te zetten naar zĳn absolute waarde (of aan te kondigen dat de absolute waarde eraan komt na het ‘=’ teken). Absoluut-teken(s) doe je met twee verticale strepen om een waarde heen:

$\:\:\:\:\:\: |\text{-}30| = 30$

Je zegt dan: de absolute waarde van $\text{-}30$ is $30$. Of:

$\:\:\:\:\:\:|20| = 20$

Het getal $20$ is dus al gelĳk aan zĳn eigen absolute waarde. Je zegt in dit laatste geval dus dat de absulote waarde van $20$, dus gewoon $20$ is (best flauw dus). Bij absolute waarden denk je dus gewoon het min-teken weg! Dus absoluut gezien, is bĳ ons de kleinst mogelĳke gokfout $0$ cm en de grootste $30$ cm. Alle andere gokfouten hadden dus een absolute waarde ergens tussen de $0$ en de $30$.

Als je zou moeten schatten wat ongeveer de waarde is van de gemiddelde gokfout zou je dus ergens tussen de $0$ en de $30$ in moeten gaan zitten, zeg voor het moment dat die waarde bĳvoorbeeld ongeveer $15$ zal zĳn. Hou dit gevoel, een gemiddelde gokfout van ongeveer $15$ cm, even vast. Als een aapje binnen komt wandelen, zeggen wĳ dat ie wel $150$ cm zal zĳn, maar het kan dus zĳn dat: - een aapje (maximaal) $30$ cm boven de verwachting zit - een aapje (maximaal) $30$ cm onder de verwachting zit - een aapje precies op de verwachting zit (er $0$ cm vandaan zit) - een aapje tussen de $0$ en de $30$ cm van de verwachting vandaan zit

Gemiddeld gezien zitten ze dus ongeveer $15$ cm onder of boven de verwachting, misschien iets meer of iets minder, dit gaan we berekenen zo. De som van de gokfouten geeft dus nul en heeft geen zin, we moeten dus van die minnetjes af. Sommige formules voor de standaardafwĳking gebruiken absoluut-strepen om van alle minnetjes af te komen, wĳ gebruiken een andere formule (of manier) en kwadrateren dus eerst de gokfouten voordat we ze optellen. In de statistiek zul je heel vaak waarden moeten kwadrateren (een getal keer zichzelf doen) (ja, tot vervelens toe) en daarna optellen, we hebben daar dus ook een naam voor: ‘De Som van de Kwadraten’ of kortweg de ‘Kwadratensom’ of Sum of Squares. Het is dus níet ‘het kwadraat van de som’, want dan zou je eerst optellen en dan pas kwadrateren. En de optelling (of som) van de ongekwadrateerde residuen (afwijkingen) geeft toch echt de waarde $0$. Dus het kwadraat van de som (van gewone residuen) zou dan dus $0^2 = 0$ zijn! Altijd, altijd en altijd. Dus kwadrateer die residuen eerst even voordat je de boel optelt!

een individuele gekwadrateerde afwijking = $(Y_i - \overline{Y})^2$

Voor aapje nummer $1$ word het dus:

$\:\:\:\:\:\:(Y_1-\overline{Y}) = (120–150)^2 =(–30)^2 = –30 · –30 = 900$

0.3.3.1 Rekenregels en volgorde van toepassing

Ook hier weer even aandacht voor de rekenregels. Voor het gewone rekenwerk heb je een aantal handelingen (operaties) waarvan de volgorde dwingend is:

haakjes
machten (wortels en andere machts-wortels)
vermenigvuldigen (en delen)
optellen (en aftrekken)

1. Haakjes

Altĳd eerst berekeningen uitwerken - voor zover mogelĳk - die tussen haakjes staan. Ik geef eerst een voorbeeld zonder haakjes en dan een paar met.

$\:\:\:\:\:\:2 \cdot 3 + 5 = 6 + 5 = 11$

Hier staan geen haakjes. De vermenigvuldiging moet dus eerst gebeuren en daarna pas de optelling. Alleen kijkend naar het linker gedeelte ‘$2 \cdot 3 + 5$’ zie ik een som staan van twee dingen of termen. De eerste term is ‘$2 \cdot 3$’ en de twee term .

$\:\:\:\:\:\:(5+2) \cdot 3 = (5+2) \cdot 3 = (7) \cdot 3 = 7 \cdot 3 = 21$

$\:\:\:\:\:\:5 + (2 \cdot 3) = 5 + 6 = 11$

Altĳd eerst opschonen (herleiden of korter schrĳven) wat tussen haakjes staat. Zodra je niet verder kan zoals bĳ ‘$(7)$’, dan zĳn de haakjes overbodig geworden.

Hier zĳn de haakjes dus overbodig omdat je sowieso eerst moet vermenigvuldigen en daarna pas op te tellen.

2. Machten en Wortels

Bĳ statistiek komen jullie eigenlĳk vooral kwadraatjes tegen (tot de tweede macht), maar soms ook hogere of lagere machten. Neem bĳvoorbeeld $2^4$ (waarbij het getal $4$ dus in het bovenschrift (superscript) staat van het getal $2$) kun je op meerdere manieren uitspreken:

‘twee tot de macht vier’ of:
‘twee tot de vierde macht (verheven)’ en:
‘je verheft twee, tot de macht (van) vier’.

Je schrĳft het dus als: $2^4$ en het betekent ook wel: $2 \cdot 2 \cdot 2 \cdot 2$ of ook wel’ het getal $2$, $3$ keer met zichzelf vermenigvuldigd’. Ja, pas op, drie keer, want als je een getal één keer met zichzelf vermenigvuldigt, heb je het al tot de macht $2$ gedaan of verheven (gekwadrateerd dus). In $2^4$ is het ‘grondtal’ $2$ en noem je $4$ dus (de waarde van) de ‘macht’ of ‘exponent’.

Bĳ de ‘gewone’ wortel (huhuh…, maar heet ook wel ‘tweedemachts’wortel), werkt het precies omgekeerd als bĳ ’een getal tot de tweede macht (verheffen)’. Neem bĳvoorbeeld $9^2$ waarbĳ ik het getal $9$ dus tot de tweede macht verhef (kwadrateer). Je spreekt het uit als: ‘negen tot de macht twee’ of ‘het kwadraat van negen’. $9$ is hier het ‘grondtal’ en $2$ is de macht (waarmee je $9$ verheft).

Handeling bĳ $9^2$ : Hier doe je ‘$9$’, één keer zichzelf, dus: $9 \cdot 9 = 81$. $81$ noemen we ook wel het kwadraat van $9$.

En nu bĳvoordeeld juist de wortel van ‘$9$’, dus $\sqrt{9}$ . Je spreekt het uit als; ‘de wortel van negen’. Om de wortel van negen te vinden, is de vraag hierbĳ eigenlĳk:

Wat keer wat is $9$?
Wat of welke waarde zou één keer zichzelf, $9$ zĳn?
welk getal voor $X$ (wat), zou keer zichzelf als antwoord ‘$9$’ geven?
Welk getal moet je kwadrateren om $9$ te krijgen?

Bĳ de vraag wat is de waarde van $\sqrt{9}$ hoort ook wel de vergelijking: $x^2 = 9$, waarbij je dus $x^2$ gelijk stelt aan het getal $9$. Welk getal moet ik tot de macht twee verheffen om precies negen te krĳgen of: $x \cdot x = 9$ dus voor welke waarde van $x$ klopt deze vergelĳking?

Het antwoord (de juiste waarde voor $x$) is natuurlĳk hier ‘$3$’, want $3^2 = 3 \cdot 3 = 9$. Trouwens, de wortel van $9$ is óók $-3$ omdat $(\text{-}3)^2 = \text{-}3 \cdot \text{-}3 = 9$. Dit laatste mag je voorlopig vergeten. Sterker nog: Er bestaan ook hogere (of lagere) machtwortels dan de tweedemachts (gewone) wortel. Voorlopig hebben we die niet nodig en daar ga ik - gelukkig voor jullie - nu ook niet op in. Al met al voor ons:

$\sqrt{9} =3$ Dit is ook het enige antwoord dat je rekenmachientje geeft en niet de negatieve waarde dus.

Een paar wortels, dus kĳk even of je rekenmachine doet wat ie moet doen:

Tabel 0.4: Wortels
Wortel-behandeling	exact resultaat of antwoord	reden (bewijs)	Resultaat afgerond op drie decimalen
$\sqrt{1}$	$1$	$1 \cdot 1 = 1$	1.000
$\sqrt{2}$	$\sqrt{2}$	$\sqrt{2} \cdot \sqrt{2} = 2$	1.414
$\sqrt{3}$	$\sqrt{3}$	$\sqrt{3} \cdot \sqrt{3} = 3$	1.732
$\sqrt{4}$	$2$	$2 \cdot 2 = 4$	2.000
$\sqrt{9}$	$3$	$3 \cdot 3 = 9$	3.000
$\sqrt{10}$	$\sqrt{10}$	$\sqrt{10} \cdot \sqrt{10} = 10$	3.162
$\sqrt{49}$	$7$	$7 \cdot 7 = 49$	7.000
$\sqrt{n}$	$\sqrt{n}$	$\sqrt{n} \cdot \sqrt{n} = n$	onbekend zolang $n$ onbekend is

3.Vermenigvuldigen en Delen

Ik hou het hier vooral even bĳ het moeilĳke ‘taaltje’ dat je moet snappen en moet kunnen vertalen naar een vermenigvuldiging of deling. Hoevaak zie ik mensen niet denken, na een vraagstuk: ‘Uhm, moet ik nou juist delen of keer doen?’. Beide operaties lĳken weer erg op elkaar, ze zĳn alleen verschillend omdat ze het omgekeerde van elkaar zĳn. Beetje vaag vooralsnog, maar je kan ‘iets’ of een hoeveelheid, groter of kleiner maken, meer of minder. Stel, je hebt heel veel dingen van hetzelfde, bĳvoorbeeld heel veel briefjes van $10$ euro, zeg $30$ stuks. Natuurlĳk ben je geïnteresseerd in het totale bedrag. Maar wat is de snelste manier? Natuurlĳk niet briefje voor briefje optellen ($10 + 10 + .... + 10 = 300$). Omdat elk briefje dezelfde waarde heeft, maken we ‘de waarde (van één briefje) ook wel dertig keer zo groot (of belangrijk)’. Je pakt je rekenmachientje (je hoeft van mĳ niet te kunnen hoofdrekenen, zelfs dit niet) en tikt het in. Maar eigenlĳk maak je het getal $10$ met een factor $30$ groter, het getal of de waarde $10$ vermenigvuldig je dus met de waarde $30$ (de factor) en natuurlĳk geeft dat $300$. of je nou $10$ keer $30$ doet of dat je het omdraaid: $30$ keer $10$, het geeft allebei hetzelfde antwoord. Wat algemener:

\[a·b = b·a\]

Bĳ ‘$12$ gedeeld door $4$ is $3$’, als je dus aan het delen bent (hier door het getal $4$), maak je een bepaalde waarde of hoeveelheid (hier dus $12$) kleiner, ook wel zoveel keer ($4$ keer dus) kleiner als waar je die hoeveelheid ($12$) door deelt (door $4$ dus). Dus als je weet dat je iets $4$ keer kleiner moet maken, dan moet je dus door $4$ delen (of vermenigvuldigen met het omgekeerde: $\frac{1}{4}$). Dus $12$ gedeeld door $4$ kun je op verschillende manieren opschrijven:

$\:\:\:\:\:\:12:4 = 12/4 = \frac{12}{4} = 12 \cdot \frac{1}{4} = \frac{1}{4} \cdot 12 = 3$

of algemener

$\:\:\:\:\:\:a:b = a/b = \frac{a}{b} = a \cdot \frac{1}{b} = \frac{1}{b} \cdot a$

4. Optellen en Aftrekken

Als je verschillende waarden (getallen en/of soms letters) bij elkaar wilt voegen en een zo kort mogelijk antwoord wilt, ben je aan het optellen. Je neemt dan de som (sommatie of optelling) van alle losse elemenenten of termen (in die berekening). Denk vooral ook even aan de getallenlijn. Neem de som ‘$6 + 8$’ (dus de som van twee termen, ‘$6$’ en ‘$8$’). Je start op het punt op de getallenlijn waar het getal $6$ ligt en vervolgens wandel je $8$ éénheden naar rechts en kom je dus vervolgens bij het punt uit waar het getal $14$ ligt. Neem nu de som ‘$6 - 8$’. Ja ook al noemen mensen dit vaak een min-sommetje of een aftrekking, ik noem dit gewoon een som. Een som is een optelling (ook wel een combinatie van termen). Maar wat tel je dan bij elkaar op bij het sommetje’$6 - 8$‘? Je telt hier dus de twee termen’$6$’ en ‘$-8$’ bij elkaar op. Ik zie het sommetje ‘$6 - 8$’ dus liever in de vorm ‘$6 + - 8$’, waarbij ik dus de twee termen ‘$6$’ en ‘$-8$’ bij elkaar voeg. Als je een negatieve waarde (hier ‘$-8$’) toegevoegt aan een willekeurig andere waarde (hier ‘$6$’) (dus eigenlijk aftrekt), schuif je op naar links vanuit het eerste getal. Nog een hersenkraker: als je een negatieve waarde van een (andere) willekeurige waarde aftrekt, dan schuif je dus naar rechts op (min min wordt plus zegt men ook wel). Toch nog even wat voorbeelden voor als je toch nog in de war raakt:

$\:\:\:\:\:\:3+5 = 8$

$\:\:\:\:\:\:3+ \text{-}5 = 3–5 = \text{-}2$

$\:\:\:\:\:\:3– \text{-}5 = 3+5 = 2$

$\:\:\:\:\:\:\text{-}3+5 = 2$

$\:\:\:\:\:\:\text{-}3+ \text{-}5 = \text{-}3–5 = \text{-}8$

$\:\:\:\:\:\:\text{-}3–5 = \text{-}8$

$\:\:\:\:\:\:\text{-}3– \text{-}5 = \text{-}3+5 = 2$

We lopen de berekening voor de gekwadrateerde individuele afwijking voor het eerste aapje $(Y_1 - \overline{Y})^2 = (120-150)^2$ aan de hand van de volgorde van operaties nog een keer door. Lekker moeilĳk doen over makkelĳke dingen.

Staan er haakjes in? Ja en daarom moeten we eerst kĳken wat er tussen de haakjes staat en dat zover mogelĳk oplossen. Tussen de haakjes staan geen haakjes ($1$), machten ($2$) of vermenigvuldigingen ($3$), er staat alleen maar een aftrekking ($4$), dus die kan je meteen doen. Tussen de haakjes staat $120-150$, ook wel een (aftrek) som van twee termen ($120$ en $\text{-}150$). We noemen deze twee termen ‘gelĳksoortig’ omdat de twee getallen over dezelfde éénheid gaan (centimeter). In een sommetje zoals ‘$4+2a$’ zĳn de twee termen ($4$ [vier wat?] en $2a$ [twee keer een ‘aatje’]) niet gelĳksoortig en kan je het sommetje dus ook niet verder uitwerken (korter opschrijven). Dus opschonen wat tussen de haakjes staat geeft:

$\:\:\:\:\:\:(120-150)^2 = (\text{-}30)^2$

Tussen de haakjes staat dus de waarde $\text{-}30$ en we kunnen nu dus zeggen dat wat er tussen haakjes staat echt één waarde is (geworden).

Staan er machten in $(\text{-}30)^2$?

Ja, de tweede macht, het kwadraat (een kwadraat is een macht) komen we tegen en het kwadraat slaat hier op alles wat tussen haakjes staat, ‘$\text{-}30$’ dus. Een kwadraat betekent ook wel dat je de waarde ($\text{-}30$) die je ‘kwadrateert’, keer zichzelf moet doen.

$\:\:\:\:\:\:(\text{-}30)^2 = \text{-}30 \cdot \text{-}30$

Alledrie de minnen hier zĳn van ‘negatief’. Het rechter gedeelte van de vergelijking intypen als $\text{-}30 \cdot \text{-}30$ en je uitkomst is dan $900$, min keer min is altĳd plus. Vaak typen mensen het toch fout in en typen ze letterlĳk $-30^2$ in en dat geeft toch écht een ander antwoord:

$\:\:\:\:\:\:\text{-}30^2 = \text{-}30 \cdot 30 = \text{-}900$

Je ziet hier dat het kwadraatje dus - blĳkbaar - alleen maar op die $30$ slaat en dus geen betrekking op het minnetje heeft. Dus als je weet dat je een negatieve waarde moet kwadrateren bĳvoorbeeld ‘$\text{-}6$’, dan zĳn er maar twee correcte manieren: $(\text{-}6)^2 = 36$ of $6^2 = 36$ en bĳ de laatste laat je min-teken dus gewoon weg.

4. Blauwe streepjes en blauwe vierkantjes

Wat gebeurt er eigenlĳk als je ‘$6$ cm’ kwadrateert? Als je de oppervlakte van een vierkant wil berekenen, hoef je alleen maar de breedte maal de lengte te doen. En aangezien een vierkant vier gelĳke zĳdes heeft (de breedte van het vierkant is dus gelijk aan zijn lengte), kun je dus ook de lengte van één zĳde kwadrateren! $6^2 = 6 \cdot 6 = 36$ Maar officieel zou je ook de meeteenheid in je berekening moeten zetten. $(6$ cm $)^2 = (6 \cdot$ cm $)^2 = 6$ cm $\cdot 6$ cm $= 6 \cdot 6·$ cm $\cdot$ cm $= 36$ cm${}^2$ Het resultaat is dus $36$ centimeter kwadraat of ook wel $36$ vierkante centimeter. Onthoud voor jezelf dat de oppervlakte van een vierkant (met eenheid in cm${}^2$) dus altijd het kwadraat is van de lengte van zijn eigen zijde is (met eenheid in cm)

Verder met de echte kwadratensom, de som van de gekwadrateerde afwĳkingen.

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = (120-150)^2+(130-150)^2+(140-150)^2+(140-150)^2+(150-150)^2\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(160-150)^2+(160-150)^2+(170-150)^2+(180-150)^2$

In de vierde kolom van de tabel vind je de gekwadrateerde residuen (individuale afwijkingen of gokfoutjes), natuurlĳk allemaal positief (daar ging het juist om), maar dus wel een stuk groter geworden. Of beter gezegd: We hebben van de blauwe streepjes, blauwe vierkantjes gemaakt. De kleinste gekwadrateerde gokfout is $0$ en de grootste heeft een waarde van $900$. Je mag dus ook denken in termen van blauwe gekwadrateerde streepjes (de gekwadrateerde afstand van een observatie naar het gemiddelde). Blauwe vierkantjes dus (waarvan de lengte van hun zĳdes - blauwe streepjes - gelĳk is aan de wortel van hun oppervlakte)! Als je een grove schatting zou moeten geven van de waarde van ‘de gemiddelde gekwadrateerde afstand van een observatie naar het gemiddelde’ dus de gemiddelde oppervlakte van een blauw vierkantje, wat zou je dan kunnen zeggen? Als het kleinste kwadraat (oppervlakte van vierkantje) $0$ is en de grootste een waarde van $900$ heeft, zou ik er tussenin gaan zitten, zeg $450$. Dus de gemiddelde gekwadrateerde gokfout heeft ongeveer een waarde van $450$. En met je juiste eenheid erbij wordt het dus $450$ cm${}^2$. Qua berekening zou je zeggen dat als je de gemiddelde gekwadrateerde afwĳking wil berekenen, moet je ze eerst optellen en daarna pas delen door het aantal, bĳ ons delen door $9$ dus. Maar ook hier gaan we wat anders doen:

Probleem $2$: We delen de kwadratensom niet door ‘$n$’ (aantal waarnemingen), maar door ‘$n-1$’, ook wel het aantal vrĳheidsgraden of degrees of freedom genoemd. Het draait allemaal om gokken, maar neem even het volgende voorbeeld. Stel, ik heb drie portemonnees met daarin wat geld en ik vertel je dat er gemiddeld - per portemonnee - $10$ euro in zit. Dat betekent dus dat als ik een portemonnee open, jĳ zou zeggen of voorspellen, dat er $10$ euro in zit, omdat dat de verwachte waarde is. Als ik nu de eerste portemonnee open en er blĳkt $7$ euro in te zitten, heb jĳ dus een gokfout gemaakt van $X_i - \overline{X} = X_1 - \overline{X} = 7-10 = \text{-}3$, ik gebruik hier even $X$-en (voor de lol). Als ik ook de tweede portemonne open maak, zeg jĳ natuurlĳk weer $10$ euro en hier zat nu bĳvoorbeeld $11$ euro in. Nu heb je dus informatie over de eerste twee portemonnees, wat zou je nu - gegeven deze nieuwe informatie - voor de derde - en laatste - portemonnee zeggen of voorspellen? Omdat je weet dat het gemiddelde $10$ is $\overline{X} = 10$, gegeven) en er $3$ observaties zĳn ($n=3$) gegeven, weet je ook (zou je moeten kunnen beredeneren):

dat de optelling van de drie scores $30$ zou moeten zĳn; $\sum\limits^{i=3}_{i=1}{X_i} = 30$.
dat de optelling van alle residuen nul zou moeten zĳn; $\sum\limits^{i=3}_{i=1}({X_i - \overline{X})} = 0$.
dat in de derde portemonnee dus $12$ euro moet zitten.

Want als je kĳkt naar de formule voor het gemiddelde en daar alles invult dat er gegeven is kan je de waarde van $X_3$ dus uitrekenen.

$\:\:\:\:\:\:\overline{X} = \frac{\sum\limits^{i=3}_{i=1}{X_i}}{n} = \frac{X_1 + X_2 +X_3}{n}$

invullen wat je weet geeft:

$\:\:\:\:\:\:\overline{X} = \frac{7 + 11 + X_3}{3} = 10$

We willen dus de vergelijking $\frac{7 + 11 + X_3}{3} = 10$ oplossen voor $X_3$. We willen dus weten voor welke waarde van $X_3$ de vergelijking klopt.

Om deze vergelĳking op te lossen, kun je gebruik maken van het volgende, ik geef jullie twee manieren: Manier $1$: De vergelĳking staat ook wel in van de vorm $\frac{8}{4} = 2$ (ik kies hier dus even makkelĳke getallen). De ‘$8$’ in de teller van de breuk, komt overeen met de som van de drie $X$-scores ($7 + 11 + X_3$). De $4$ komt overeen met de noemer van de breuk uit de vergelijking ($3$) en de $2$ met de rechter kant van de vergelijking (het gemiddelde van $10$). We zĳn op zoek naar de waarde van de som van $X_i$ zodanig dat de vergelĳking klopt. Wat moet je met $4$ en $2$ doen om $8$ te krĳgen? Met elkaar vermenigvuldigen, want $8 = 2 \cdot 4$. Omdat onze vergelĳking dezelfde vorm heeft kunnen we dus hetzelfde doen:

$\:\:\:\:\:\:(7 + 11 + X_3) = 3 \cdot 10$

$\:\:\:\:\:\:7 + 11 + X_3 = 30$

of manier 2, via de balance-methode:

$\:\:\:\:\:\:\frac{7 + 11 + X_3}{3} = 10$

Beide zijdes met drie vermenigvuldigen zodat de drie in de noemer aan de linkerkant van de vergelijking wegvalt (in twee stappen):

$\:\:\:\:\:\:3 \cdot \frac{7 + 11 + X_3}{3} = 10 \cdot 3$

$\:\:\:\:\:\:\frac{3 \cdot (7 + 11 + X_3)}{3} = 10 \cdot 3$

$\:\:\:\:\:\:\frac{1 \cdot (7 + 11 + X_3)}{1} = 30$

$\:\:\:\:\:\:(7 + 11 + X_3) = 30$ Haakjes staan nu voor Jan Joker:

$\:\:\:\:\:\:7 + 11 + X_3 = 30$

Als je dus al weet dat de som $30$ moet zĳn (omdat het gemiddelde ook al bekend was) én je weet dat $X_1=7$ en $X_2=11$, dan moeten $X_3$ wel een waarde zĳn van $12$, want $7+11+12=30$. Om de waarde van $X_3$ te vinden, kan je natuurlijk ook de vergelijking verder oplossen:

$\:\:\:\:\:\:7 + 11 + X_3 = 30$ Eerst aan beide zijden een $7$ en een $11$ ervan afhalen:

$\:\:\:\:\:\:7 + 11 + X_3 - 7 -11 = 30 - 7 - 11$ geeft:

$\:\:\:\:\:\:X_3 = 12$

Conclusie: als je dus het gemiddelde weet van een verzameling (set) getallen dan weet je dus ook wat de optelling of som van die getallen moet zĳn en je kunt dus altĳd de laatste waarneming (bĳ ons net $X_3$) dus zelf uitrekenen als de rest ($n-1$) van de waarnemingen, gegeven of bekend zĳn.

Hetzelfde antwoord ($X_3 = 12$) konden we ook vinden door een vergelijking aan de hand van de residuen op te stellen, de som van residuen is altijd nul:

$\:\:\:\:\:\:\sum\limits^{i=3}_{i=1}{(X_i-\overline{X})}=0$

$\:\:\:\:\:\:(X_1-\overline{X}) + (X_2-\overline{X}) + (X_3-\overline{X}) = 0$

$\:\:\:\:\:\:(7–10) + (11–10) + (X_3–10) = 0$ Omdat in deze vergelĳking er geen machten of vermenigvuldigingen gebruikt worden, staan de haakjes er hier voor Jan Joker, ze kunnen dus weg:

$\:\:\:\:\:\:7–10 + 11–10 + X_3–10 = 0$ Even opschonen, volgorde niet van belang:

$\:\:\:\:\:\:\text{-}3 + 1 + X_3 - 10 = 0$

$\text{-}3 + 1 + \text{-}10 + X_3 = 0$

$\text{-}12 + X_3 = 0$ Beide kanten er $12$ bij optellen om van de linker $\text{-}12$ af te komen:

En sorry, heel even zoals in de brugklas, de ‘balance-methode’ beetje uitgelegd: Omdat dit een vergelĳking is ($\text{-}12 + X_3 = 0$) is dat gewoon een stelling (uitspraak). Die stelling luidt als volgt: ‘Het linker deel is gelĳk aan het rechter deel.’ Of: Het deel links van het ‘=’-teken - dus ‘$\text{-}12+X_3$’- is gelĳk (van waarde) aan het rechter deel, dus ‘$0$’. De vraag is hier dus eigenlĳk: ‘Voor welke waarde van $X_3$ klopt deze stelling?’. Om deze vraag op te lossen, kun je aan beide kanten een éénzelfde hoeveelheid erbĳ gooien (dus optellen). Ik ga aan beide kanten er $12$ bĳ knallen, dat is wel zo eerlijk en blijft de de boel dus in balance balance (gelijk);

$\:\:\:\:\:\:\text{-}12 + X_3 + 12 = 0 + 12$

De gelĳksoortige termen bĳ elkaar rapen en de boel opruimen, geeft:

$\:\:\:\:\:\:X_3 = 12$

En wat roep je dan als antwoord? Waarschĳnlĳk roep je nu iets als ‘IKS-drie is $12$’ en daarop zeg ik (dolgelukkig): ‘FOUT!’… en geef ik je stralend het goede antwoord: ’ In de derde portemonnee zit $12$ EURO!’, want de harde - en dus tastbare - realiteit gaat niet over $X$-en of wiskundig geleuter, maar gewoon over appels en peren, dus laten we die vooral benoemen. Zou even mooi zĳn: Sta je bĳ de bakker en je vraagt hem om brood, maar je krĳgt een briefje met een broodrecept in je hand gedrukt. Nu ik toch uitweid, mocht je zover als hier gekomen zĳn en de boel tot zover min of meer begrepen hebben, zou ik me geen zorgen maken over de rest - met aandacht - wordt het een makkie.

Almost wrapping things up,

Samengenomen hebben we nu dus ontdekt dat als je een bekende set (verzameling) getallen probeert ‘terug’ te voorspellen, dat je het laatste getal of waarde dus niet hoeft te gokken, maar gewoon kan uitrekenen. Dus als je onze aapjes één voor één laat binnenlopen (op willekeurige volgorde), moet je dus de eerste $8$ ($n-1$) aapjes gokken (en je gebruikt het gemiddelde als beste gok), maar als je tussendoor netjes je acht observaties opschrĳft (onthoudt) kun je dus het laatste aapje, de negende, netjes uitrekenen (zĳn lengte dan). Het ‘laatste’ aapje zit dus eigenlĳk altĳd ‘vast’ qua waarde, maar de eerste acht hebben dus alle ‘vrĳheid’. En daarom dus ‘vrĳheidsgraden’. We zeggen ook wel: ‘Een set van $9$ waarnemingen heeft $n-1 = 8$ vrĳheidsgraden (en één waarneming zit dus vast (gegeven een bepaald gemiddelde)). Simpel gezegd: als je negen getallen hebt, hoef je er maar acht te gokken, omdat je het laatste getal dus kunt uitrekenen. Of nog korter; ’Some things are redundant to say…(duh)’. Maar goed, een set van $n$ getallen heeft dus $n-1$ vrĳheidsgraden en het vertelt ons in termen van gokfouten, dat je bĳ de aapjes dus maar acht gokfouten hebt en niet negen!

De kwadratensom wordt dus gedeeld door het aantal vrĳheidsgraden of degrees of freedom ($df = n-1 = 8$), omdat we maar acht gokfouten hebben (die laatste kon je uitrekenen). En tenslotte was toch de gemiddelde gekwadrateerde gokfout het doel? Ja, dus punt. Afgezien dat ik nog steeds een ‘dergrees of freedom’-party wil geven, moet je er tĳdens berekeningen wel heel vaak rekening mee houden. Die vrĳheidsgraadjes komen bovendien in een grote verschĳdenheid voor. Dus genieten. Terug naar de uitwerking:

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = (120-150)^2+(130-150)^2+(140-150)^2+(140-150)^2+(150-150)^2\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(160-150)^2+(160-150)^2+(170-150)^2+(180-150)^2$

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = (\text{-}30)^2 + (\text{-}20)^2 + (\text{-}10)^2 +(\text{-}10)^2 +(0)^2 +(10)^2 +(10)^2 +(20)^2 +(30)^2$

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = (\text{-}30)^2 + (\text{-}20)^2 + (\text{-}10)^2 +(\text{-}10)^2 + 0^2 +10^2 +10^2 +20^2 +30^2$

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = 900 + 400 + 100 +100 +0 +100 +100 +400 +900$

$\:\:\:\:\:\:\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = 3000$

Nu de kwadratensom delen door het aantal vrĳheidsgraden, $n-1$ (en dus niet door $n$, vanwege die ene niet gemaakte gokfout). De waarde die hier uitrolt, noem je de ‘variantie’ met als symbool: $s^2$. Ook de variantie ($s^2$) is een statistiek en beschrijft dus je steekproefdata. Wij willen de variantie voor de variabele ‘$Y$’ in onze steekproef, dus bij ons wordt het nu:$s_y^2$. De variantie is dus gelijk aan de oppervlakte van een gemiddeld blauw vierkantje, dus de gemiddelde gekwadrateerde afwijking van een observatie naar het gemiddelde, dus de gemiddelde waarde van een gekwadrateerd blauw streepje. Dus de gemiddelde oppervlakte van een blauw vierkantje.

\[\:\:\:\:\:\:s_y^2 = \frac{\sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})^2}}{n-1}\]

Is dus hetzelfde als deze moeilijkere versie, je vermenigvuldigt met het omgekeerde van $n-1$:

\[\:\:\:\:\:\:s_y^2 = \frac{1}{n-1} \cdot \sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})^2}\]

$\:\:\:\:\:\:s_y^2 = \frac{1}{n-1} \cdot \sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})^2} = \frac{1}{9-1} \cdot 3000 = \frac{1}{8} \cdot 3000 = 1/8 \cdot 3000 = 375$

Nu vast moeilĳk doen is, goed voor later, maar we hebben dus een antwoord: de gemiddelde kwadrateerde gokfout heeft een waarde van $375$ (officieel: $375$ cm${}^2$, met éénheden, maar vergeet dit echt alsjeblieft). Weet je nog, wĳ hadden $450$ geschat, prima dus, niet helemaal dezelfde waarde, maar wĳ waren wel heel grof. Maar wie wil er nou een gemiddelde gekwadrateerde afwĳking? Niemand, mag ik hopen, dus we moeten nog de wortel nemen om het laatste probleem op te lossen, bĳna ademhalen dus. Wĳ hadden de gokfouten gekwadrateerd (vierkant gemaakt) en daarvan de gemiddelde waarde berekend. We moeten dus nog de wortel trekken om eindelĳk klaar te zĳn. Dan hebben we eindelijk de gemiddelde lengte van een blauw streepje, dus de gemiddelde afwijking van een observatie naar het gemiddelde. Dit noem je de ‘standaardafwijking’ of ‘standaard deviatie’ met als symbool (letter): $s$

Trek de wortel van de variantie ($s_y^2$) om de standaardafwijking ($s_y$) te berekenen:

\[s_y = \sqrt{s_y^2} = \sqrt{\frac{1}{n-1} \cdot \sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})^2}}\] Bij ons is de waarde van de standaardafwijking dus:

$\:\:\:\:\:\:s_y = \sqrt{375} \approx 19.36$

De (gewone) gemiddelde gokfout - de standaardafwĳking - heeft dus ongeveer een waarde van $19.36$ en ik kies hier even voor een afronding op twee decimalen. Geeft me meteen een reden om over afrondingen te praten. $19.36$ is slechts een afronding, eigenlĳk komen er nog heel veel cĳfers achter het laatste cĳfertje ‘$6$’, sterker nog; het zou zo maar kunnen dat het echte aantal cĳfers achter de komma (bĳ ons een punt, ik gebruik de engelse manier zoals je misschien wel is opgevallen) oneindig groot is. Exact gezien, heeft de standaardafwĳking van $y$ een waarde van $sqrt{375}$, dit zou dus een exact antwoord zĳn en in onze eind-antwoorden geven wĳ altĳd een benadering in meestal $2$, maar soms ook $3$ decimalen ($2$ of $3$ cĳfers achter de komma of punt), we moeten dus de lange getallen afronden, hoe gaat dat ook al weer? Hier even een paar voorbeelden.

Afrondingen

Tabel 0.5: Afrondingen
Willekeurige exacte waarden	Afronding in 5 decimalen	Afronding in 3 decimalen	Afronding in 2 decimalen
$\sqrt{375}$	$19.36492$	$19.365$	$19.36$
$1.234567890$	$7.12346$	$7.123$	$7.12$
$9.989898989$	$9.98990$	$9.990$	$9.99$
$99.99999999$	100.00000	100.000	100.00
$\pi$ (het getal of constante ‘pi’	$3.14159$	$3.142$	$3.14$
$e$ het getal of constante ‘e’	$2.71828$	$2.718$	$2.72$

De regel hierbĳ is dat als je bĳvoorbeeld op drie decimalen moet afronden, je altĳd alleen één cĳfer verder kijkt om te bepalen wat het derde decimaal wordt. Je kijkt in dit geval dus naar het vierde decimaal of cĳfer na de komma (punt) in het exacte getal. Als dat cĳfer een waarde heeft van $4$ of lager, dan blĳft het derde cĳfer gelĳk. Maar als het vierde cĳfer $5$ of hoger is, dan wordt het derde cĳfer één punt hoger. In die speciale gevallen (in de tabel het vierde exacte getal) waar het derde cĳfer een $9$ is én het vierde cĳfer 5 of hoger, zal het derde cĳfer dus eigenlĳk $10$ moeten worden, maar dat gaat niet zomaar en zal het tweede cĳfer ook mee moeten veranderen (ook ééntje hoger), maar als het tweede cĳfer ook een $9$ is…. Over het algemeen zal je niet zakken op een verkeerde afronding tĳdens je tentamens, dus maak je voorlopig niet te veel zorgen hierover, al gaande weg wordt het makkelĳker. Sommige getallen zĳn zo bĳzonder dat we ze een naam of symbool hebben gegeven, zoals bĳ pi ($\pi$), omdat dit eigenlĳk een te lang getal is (oneindig veel cĳfers achter de komma, waarschĳnlĳk) en we het niet altĳd willen afronden, schrĳven we het dus als een symbool (de Griekse letter $\pi$). En hetzelfde geldt dus ook voor het getal $e$ (het getal van Euler), maar later misschien hier meer over.

Finally. Het belangrĳkste, de interpretatie.

Dus de gemiddelde lengte van een blauw streepje is dus $19.36$ cm, of netter; de gemiddelde afwĳking van een observatie naar het gemiddelde heeft dus een waarde van $19.36$ cm, de standaardafwĳking. Nu weten we dus eindelĳk wat de waarde van de gemiddelde gokfout is, of qua gevoel nog beter; we weten nu wat we moeten gokken (het gemiddelde van $150$ cm) en hoe goed (of secht) we kunnen gokken (de standaardafwĳking van $19.36$ cm). Als we dus zeggen of voorspellen dat een aapje $150$ cm zal zĳn, zitten hun lengtes gemiddeld $19.36$ cm van onze verwachting vandaan (erboven of eronder). Als laatste nog één keer de juiste namen en symbolen bĳ de formules. De gemiddelde gekwadrateerde afwĳking voor de $Y$-scores wordt de variantie van $Y$ genoemd een heeft als dus als symbool: $S_y^2$. Met de formule voor de variantie (variance in het Engels):

\[s_y^2 = \frac{1}{n-1} \cdot \sum\limits^{i=n}_{i=1}{(Y_i-\overline{Y})^2}\]

Om de waarde te vinden van de standaardafwĳking van de variabele $Y$ ($s_y$), neem je dus de wortel van de variantie ($s_y^2$):

\[ s_y = \sqrt{s_y^2} \]

0.3.4 Minimale Oefening

Het gemiddelde, variantie en standaardafwĳking voor de variabele $X_i$ (leeftijd in jaren) berekenen we natuurlĳk op dezelfde manier, maar vervangen we de y$Y$-tjes door de $X$-jes in de formules.

\[\overline{X} = \frac{1}{n} \cdot \sum\limits^{i=n}_{i=1}{X_i}\] Invullen geeft:

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot [1+1+1+1.5+1.5+1.5+2+2+2]$

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot (1+1+1+1.5+1.5+1.5+2+2+2)$

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot 13.5 = 1.50$

Even voor de kicksaus deze berekening ook op een andere manier:

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot (1+1+1+1.5+1.5+1.5+2+2+2)$

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot (3 \cdot 1 + 3 \cdot 1.5+ 3 \cdot 2)$

Omdat bĳ ons de waarde $1$, $1.5$ en $2$ allemaal drie keer voorkomen, heb ik die waarden met $3$ vermenigvuldigd. Tussen de haakjes staat nu de optelling van drie termen: ‘$3 \cdot 1$’, $3 \cdot 1.5$’ en $3 \cdot 2$’ en zĳn alledrie als normale getalletjes te schrĳven en zĳn dus gelĳksoortig. Omdat hier de waarde $1$, $1.5$ en $2$, alledrie met $3$ worden vermenigvuldigd, mag je die $3$ ook buiten haakjes halen:

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot 3 \cdot ( 1 + 1.5 + 2)$

De drie termen die nu tussen de haakjes staan zĳn nog steeds gelĳksoortig, dus opschonen geeft:

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot 3 \cdot ( 4.5)$

De haakjes rond 4.5 staan er nu weer voor Joker en je kan ze dus weghalen;

$\:\:\:\:\:\:\overline{X} = \frac{1}{9} \cdot 3 \cdot 4.5$ $\:\:\:\:\:\:\overline{X} = 1 / 9 \cdot 3 \cdot 4.5 = 1.50$

En nu de variantie en de standaardafwijking voor $X_i$:

\[s_x^2 = \frac{1}{n-1} \cdot \sum\limits^{i=n}_{i=1}{(X_i-\overline{X})^2}\]

$\:\:\:\:\:\:s_x^2 = \frac{1}{9 – 1} \cdot [(1–1.5)^2 + (1–1.5)^2 + (1–1.5)^2 + (1.5–1.5)^2 + (1.5–1.5)^2\:+$

$\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:(1.5–1.5)^2 + (2–1.5)^2 + (2–1.5)^2 + (2–1.5)^2]$

Ik ga meteen wat rekenregels toepassen om wat handiger (sneller) te kunnen rekenen (je zou maar $1000$ observaties hebben…). Ik vervang ook de blokhaken door gewone haakjes:

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot (3 \cdot (1–1.5)^2 + 3 \cdot (1.5–1.5)^2 + 3 \cdot (2–1.5)^2)$

Dus weer, tussen de buitenste haakjes, drie gelĳksoortige termen met allemaal een $3$ erin, dus die $3$ kunnen we buitenhaakjes halen.

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot ((1–1.5)^2 + (1.5–1.5)^2 + (2–1.5)^2)$

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot ((\text{-}.5)^2 + (0)^2 + (.5)^2)$

Ik haal de overbodige haakjes weg:

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot ((\text{-}.5)^2 + 0^2 + .5^2)$

Dan de kwadraatjes wegwerken

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot (.25 + 0 + .25)$

Opschonen wat tussen de haakjes staat:

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot (.5)$

haakjes nu voor Jan Joker en intypen geeft:

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot .5 = 1 / 8 \cdot 1.5 = 0.1875$

En je hebt dus de waarde van de variantie ($s_x^2$) berekend ($0.1875$). Of als je een beetje met breuken wil stoeien:

$\:\:\:\:\:\:s_x^2 = \frac{1}{8} \cdot 3 \cdot .5 = \frac{1}{8} \cdot \frac{3}{1} \cdot .5 =\frac{1 \cdot 3}{8 \cdot 1} \cdot .5 = \frac{3}{8} \cdot .5 = 3/8 \cdot .5 = 0.1875$

$3$ is te schrĳven als $\frac{3}{1}$ (drie éénde of drie eerste, een breuk dus) en je kunt breuken met elkaar vermenigvuldigen door teller maal teller en noemer maal noemer te doen, dus respectievelĳk, $1$ keer $3$ en $8$ keer $1$.

Nu de standaardafwĳking:

$\:\:\:\:\:\:s_x = \sqrt{s_x^2} = \sqrt{0.1875} \approx 0.4330$

$\sqrt{0.1875}$ zou dus het exacte antwoord voor de standaardafwĳking ($s_x$) en $0.4330$ je antwoord afgerond in vier decimalen.

Zo, nu hebben we toch echt wel die aapjes behoorlĳk uitgemolken en zĳn we de nodige rekenregels tegenkomen.

0.4 Meetniveaus van variabelen

Een variabele (zoals de lengte of leeftijd van een aapje) kan dus (minimaal $2$) verschillende waarden aannemen. Verschillende waarden of categorieën (dit is hetzelfde) kennen we toe om aan te tonen dat dingen (aapjes) nou eenmaal op een bepaalde manier van elkaar verschillen (in lengte). Sommige studenten zĳn nou eenmaal universitaire studenten en anderen zĳn HBO studenten. Het meetniveau van een variabele vertelt ons wat we met die mogelĳke waarden (of categorieën) kunnen ‘doen’, dus hoe je die waarden kunt gebruiken of op welke manier met elkaar kunt vergelijken. Dus het meetniveau van een variabele zegt iets over de aard van die waarden of hoe die verschillende waarden (van een variabele) van elkaar verschillen. Met de twee mogelĳke waarden ‘man’ en ‘vrouw’ van de variabele geslacht kun je beduidend minder doen (statistische toepassing, berekening) dan met de waarden die (altĳd) in getallen worden uitgedrukt, zoals waarden bĳ de variabele lengte in cm. Je zou kunnen zeggen dat het verschil tussen de waarden ‘man’ of ‘vrouw’ minder kwaliteit(en) heeft dan het verschil in de waarden tussen $172$ cm of $151$ cm (bij lengte), omdat de laatste twee waarden meer informatie in zich dragen over hoe die twee waarden van elkaar verschillen. Bij ‘man’ en ‘vrouw’ kun je alleen zeggen dat de twee waarden van elkaar verschillen, maar je kunt bijvoorbeeld niet zeggen hoe groot dat verschil is. Bij twee verschillende waarden op de variabele lengte ($172$ cm of $151$ cm) kun je wel de grootte van het verschil benoemen ($172-151 = 21$). Het meetniveau van een variabele heeft vijf verschillende niveaus die aangeven hoe de waarden of categorieën bij een variabele in complexiteit van elkaar verschillen. De mogelĳke meetniveaus (op volgorde van complexiteit) zĳn nominaal, ordinaal, interval, ratio en absoluut. Er is een hoop verwarring over het meetniveau van een variabele en welk meetniveau een bepaalde variabele heeft, is ook zeker niet altijd éénduidig en dus betwistbaar! Wat is überhaupt het doel wanneer wij een variabele in het leven roepen? Kijk, bij de variabele ‘lengte in cm’ is het lekker simpel. We weten (omdat we zien, meten of voelen) dat mensen verschillende lengtes hebben. Sterker nog, neem een lineaal (meetlat) en die leg je netjes langs iemands lichaam en je weet hoelang die persoon is. Zo kunnen we dus redelijk makkelijk mensen van elkaar onderscheiden qua lengte. Je zou kunnen zeggen, het is wat het is, als twee mensen tien centimeter verschillen dan is dat tien centimeter. Maar zeker in de psychologie zijn de variabelen niet zo simpel, duidelijk, dus tastbaar en meetbaar zoals bij lengte. Neem nu de variabele ‘intelligentie’. Mensen geloven dat er zoiets bestaat als intelligentie, maar heeft iemand het gezien? Ja, ik zie iemand snel een probleem oplossen en neem vervolgens aan dat hij heel intelligent is of intelligenter dan iemand die datzelfde probleem niet kan oplossen. Niemand ziet ‘intelligentie’ direkt, we zien alleen gedrag en is gedrag hetzelfde als intelligentie? Volgens mij niet. Dus wat deed de mens, ze maakte een IQ-test met een aantal vraagjes, zeg $200$ probleemstellingen op op te lossen. Tuurlijk is het redelijk om aan te nemen dat iemand die meer vragen goed heeft ook relatief intelligenter is, maar hoe zit die relatie (tussen de test-score en de échte mate van intelligentie) nou echt? Alleen als intelligentie echt bestaat, dan kan er ook een relatie zijn tussen de twee, maar we weten het simpel weg niet, we kunnen intelligentie niet aanraken zoals bij lengte en weten dus eigenlijk ook niet hoe intelligentie variëert, veranderd of zich ‘gedraagt’. Bijvoorbeeld: Wat betekent het (praktisch of theoretisch) als iemand geen intelligentie heeft omdat hij nul punten op de IQ-test heeft? Wat is de kleinst mogelijke toename in intellegentie? Gaat een verandering in mate van intelligentie (als dat al kan) in sprongen (discreet) of geleidelijk (continue)? Intelligentie is een construct (een verzinsel of een bedacht idee) en we kunnen niet in de hersenen checken hoe slim iemand is. We kunnen alleen naar gedrag kijken. Het is het gedrag (probleemstelling op kunnen lossen) waarvan de meeste psychologen voorlopig aannemen dat dat wordt veroorzaakt door de ‘onderliggende’ intelligentie. Dit laatste noem je ook wel reflectief, dus intelligentie veroorzaakt gedrag. Soms geloven we dat het alleen zin heeft om in normatieve termen te praten over een construct (de te meten variabele). Dus bijvoorbeeld als je veel piekert, stress ervaart, niet je bed uit kan komen, zelfmoordgedachten hebt enzo, dan zeggen we ook wel dat je een depressie hebt. Als je zegt dat depressie die gedragingen heeft veroorzaakt dan is die relatie reflectief. Maar tegenwoordig zeggen ook een hoop psychologen, nee hoor, depressie bestaat helemaal niet! Depressie is alleen een handige naampje voor samenspel van die gedragingen dan bedoel je depressie in normatieve zin. Anyway: Als je variabelen gebruikt en dus ook de bijgekozen categorieën of waarden om verschillende toestanden (veel of weinig van construct) aan te duiden, is het dus altijd de vraag in hoeverre een gekozen waarde (of categorie) een correcte weergave is van datgeen wat je wilt meten. Omdat dit dus behoorlijk vaag is, gaat het er ook niet zozeer om wat het strikte meetniveau van een variabele is (dat is dus regelmatig betwistbaar), maar veel meer om wat jij (of de onderzoeker) dus aanneemt dat een redelijk meetniveua is voor de variabele die jij wilt of denkt te meten. Vrijheid allom dus. Heel verwarrend. Het gaat er vooral om dat jij straks snapt dat, als jij een bepaald meetniveau zou toekennen (of dit nou wel of niet terecht is) aan een variabele, dat je dan ook weet wat je er allemaal wel en niet mee mag doen, qua berekening (soort analyse), uitspraken of interpretaties die je kunt doen.

Tabel 0.6: De 5 Meetniveaus van een Variabele
Meetniveau	Voorbeeld Variabele	Mogelijke Waarden	Kwaliteit van het Verschil tussen Waarden
Nominaal	Geslacht	‘man’, ‘vrouw’	Verschil
Ordinaal	Opleidingsniveau	‘MAVO’, ‘HAVO’, ‘VWO’	Volgorde, Rangorde
Interval	Temperatuur in $^{\circ}C$	$\text{-}10 \; ^{\circ}C$, $0 \; ^{\circ}C$, $20 \; ^{\circ}C$	Hoeveelheid tussen waarden
Ratio	Lengte in cm	$0$ cm, $172$ cm, $151$ cm	Betekenisvol $0$-punt, Verhouding
Absoluut	Kans	$0$, $0.5$, $0.95$, $1.00$	Betekenisvolle $1$, dus Alles

0.4.1 Nominaal

Wanneer een variabele een nominaal meetniveau heeft (zoals bij de variabele geslacht met de twee categorieën of waarden ‘man’ en ‘vrouw’), zeggen we dat de mogelĳke waarden, die de variabele aan kan nemen, slechts een benaming of label is voor het gemeten aspect (het geslacht van het onderzoeksobject) en dus slechts aangeeft dat er een verschil is (tussen de mogelĳke waarden of categorieën), maar dus niet aangeeft hoe het verschil er uit ziet. Als een label anders ‘klinkt’ dan een andere label, is het dus ook iets anders, maar hoe anders? Geen flauw idee! Als twee objecten een andere (verschillende) label krijgen, weet je dus alleen dat die twee aspecten van elkaar verschillen, maar je weet dus niet meteen in welke hoedanigheid. Het nominale meetniveau is het meest basale (dus van lage complexiteit) meetniveau, dus met de minste kwaliteit of mogelĳkheden. Dus als twee objecten verschillen van naam (waarde), weten we alleen dat die twee objecten niet hetzelfde zĳn (qua eigenschap dus). Een nominaal meetniveau draagt alleen maar de kwaliteit ‘verschil’ in zich (dus best flauw eigenlĳk). Je kiest een andere naam (voor een eigenschap van een object) om aan te duiden dat ie anders is dan anders genoemde objecten.

Tabel 0.7: Nominale Variabelen
Nominale Variabele	Mogelijke Waarden of Categorieën	Mogelijke of Handige Codering
Naam	Benjamin, Keya, Otis	$-$
Gender	Man, Vrouw, Androgyne, Bygender	$1 =$ ‘Man’, $2 =$ ‘Vrouw’, $3 =$ ‘Androgyne’, $4 =$ ‘Bygender’
Aapsoort	Bonobo, Gorilla, Orang-oetan	$1 =$ ‘Bonobo’, $2 =$ ‘Gorilla’, $3 =$ ‘Orang-oetan’
Nationaliteit	Nederlands, Belgisch, Frans	$1 =$ ‘Belgisch’, $2 =$ ‘Frans’, $3 =$ ‘Nederlands’
Provincie	Zuid-Holland, Flevoland, Limburg	$1 =$ ‘Flevoland’, $2 =$ ‘Limburg’, $3 =$ ‘Zuid-Holland’
Soort Depressie	Dysthyme Stoornis, Bipolaire Stoornis	$1 =$ ‘Dysthyme Stoornis’, $2 =$ ‘Bipolaire Stoornis’
Al dan niet Slagen voor Tentamen	Gezakt, Geslaagd	$0 =$ ‘Gezakt’, $1 =$ ’Geslaagd
Ziek	‘niet ziek’, ‘ziek’	$0 =$ ‘niet ziek’, $1 =$ ‘ziek’

Statistische toepassing of mogelĳke berekeningen bij een nominale variabele.

Eigenlĳk kun je alleen maar (de verschillende) categorieën tellen en eventueel daarna rapporteren hoe vaak (dus de frequentie van) een bepaalde categorie (ruwe telling, in proportie, procenteel of relatief) voorkomt (in een steekproef).
Vaak coderen we categorieën als getallen, we kunnen bĳvoorbeeld afspreken dat de waarde ‘vrouw’ wordt gecodeerd als ‘$0$’ en ‘man’ als de waarde ‘$1$’. Deze keuze is dus geheel willekeurig (arbitrair) en doet er dus eigenlĳk niet toe omdat de betekenis van die getallen dus puur nominaal bedoeld is. Een andere keuze tot codering zou bĳvoorbeeld ‘$78$’ en ‘$132$’ kunnen zĳn, maar waarom zou je moeilĳke getallen kiezen als het ook simpel kan? Dus kies je (her) coderingen zo handig mogelĳk. Bij variabelen met slechts twee categorieën, dus ook wel binaire, dichotome of twee waardige variabelen, gebruiken we vaak de waarden $0$ en $1$. Bij de variabele ‘al dan niet ziek’ is het bijvorbeeld handig om de categorie ‘wel ziek’ als ‘$1$’ en de categorie ‘niet ziek’ als $0$ te benoemen (coderen). De waarde ‘$1$’ wordt vaak gebruikt voor (ziekte) aanwezig en ‘$0$’ voor (ziekte) afwezig. Vaak gebruiken de label waar de waarde ‘$1$’ voor codeert als naam voor de variabele, dus noemen we het gewoon de variabele ‘ziek’ en dit is ‘wel waar’ wanneer iemand een ‘$1$’ scoort en ‘niet waar’ wanneer iemand dus een ‘$0$’ scoort.

0.4.2 Ordinaal

Bĳ variabelen met een ordinaal meetniveau heeft het verschil tussen de waarden de een variabele aan kan nemen, een extra kwaliteit bovenop de nominale kwaliteit (verschil). Deze extra kwaliteit is een natuurlĳke rangordening van de categorieën (of waarden) die dus dwingend (of logisch) is. De twee kwaliteiten bĳ een ordinaal meetniveau zĳn dus ‘verschil’ en ‘een dwingende volg- of rangorde’. Ordinale waarden staan dus altĳd op dezelfde volgorde (qua grootte of hoeveelheid), maar het blĳft bĳ ordinaal wel onduidelĳk hoeveel verschil (qua grootte, hoeveelheid of afstand) tussen de verschillende waarden ligt. Aan de benamingen (waarden) ‘goed’, ‘beter’ en ‘best’ hoor je dat er verschil (eerste kwaliteit) en rangorde (tweede kwaliteit) in zit, maar je weet nooit hoeveel (derde kwaliteit, voor het volgende meetniveau) meer de categorie ‘best’ is dan ‘beter’. En automatisch weet je dus ook niet of de afstand tussen twee waarden (tussen ‘best’ en ‘beter’) even groot is als de afstand tussen twee andere waarden (bijv. tussen ‘beter’ en ‘goed’).

Tabel 0.8: Ordinale Variabelen
Ordinale Variabele	Mogelijke Waarden of Categorieën	Mogelijke of Handige Codering
Opleidingsniveau	MAVO, HAVO, VWO	$1 =$ ‘MAVO’, $2 =$ ‘HAVO’, $3 =$ ‘VWO’
Wiskundevaardigheid	Laag, Gemiddeld, Hoog	$1 =$ ‘Laag’, $2 =$ ‘Gemiddeld’, $3 =$ ‘Hoog’
Leeftijdscategorie	‘0 t/m 20’, ‘21 t/m 40’, ‘41 t/m 60’, ‘61 t/m 80’	$1 =$ ‘0 t/m 20’, $2 =$ ‘21 t/m 40’, $3 =$ ‘41 t/m 60’, $4 =$ ‘61 t/m 80’
Likert-schaal voor Overeenstemming	‘Helemaal mee oneens’, ‘Oneens’, ‘Neutraal’, ‘Eens’, ‘Helemaal mee eens’	$0 =$ ‘Helemaal mee oneens’, $1 =$ ‘Oneens’, $2 =$ ‘Neutraal’, $3 =$ ‘Eens’, $4 =$ ‘Helemaal mee eens’
Verkiezingseindstand	‘1e plaats’, ‘2e plaats’, ‘3e plaats’	$1 =$ ‘1e plaats’, $2 =$ ‘2e plaats’, $3 =$ ‘3e plaats’

Statistische toepassing, gebruik of mogelĳke berekeningen.

HAVO is een hoger opleidingsniveau dan VMBO (MAVO), maar het is onduidelĳk hoeveel moeilĳker, hoeveel meer werkende hersencellen, motivatie, studie uren - of wat dan ook - je zou moeten hebben om HAVO te kunnen halen dan VMBO. We weten al helemaal niet of die ‘afstand’ tussen twee naast elkaar liggende waarden zoals VMBO en HAVO, vergelĳkbaar is met de afstand van het volgende sprongetje, van HAVO naar VWO. We weten slechts dat het één hoger of meer is dan het andere. Uitspraken waar woorden zoals ‘hoger’, ‘meer’, ‘minder’ (vergrotende trap of comparatief) of ‘hoogst’, ‘meest’ of ‘minst’ in voorkomen zijn dus ordinale uitspraken. Comparatieven en superlatieven geven je informatie over de (bedoelde) rangordening van verschillende categorieën.
Strikt genomen, zou je bĳ een ordinaal meetniveau, net zoals bĳ nominaal, alleen maar het aantal categorieën kunnen tellen en bĳvoorbeeld aan de hand van een frequentieverdeling (een tabel of grafiek) kunnen rapporteren hoevaak mogelĳke categorieën voorkomen in een steekproef, in absolute aantallen of procentueel natuurlĳk. Het zou raar zĳn als je de genoemde Opleidingsniveaus als ‘$1$’, ‘$2$’ en ‘$3$’ codeert en dan vervolgens rapporteert dat het gemiddelde opleidingsniveau $2.46$ was in je steekproef, het zegt misschien wel wat (namelĳk dat er dus relatief veel VWO-ers in je steekproef zaten) maar netjes is het niet (ook niet gezellig).
Vaak wordt bĳ (strikt) ordinale schalen gesmokkeld en wordt er (onterecht) de derde kwaliteit aan ordinale schalen verleend. Mensen gaan dan de getallen (coderingen) eigenlĳk te serieus nemen. Dit gebeurt vaker als er wat meer opties (waarden) zĳn bĳ een variabele. Zoals bĳ Likert-schalen (bĳv. een vĳf (of zeven) puntschaal met als eerste antwoordmogelĳkheid ‘helemaal mee oneens’ tot en met ‘helemaal mee eens’ als laatste antwoordmogelĳkheid (gecodeerd als bijv. $1$ t/m $5$), vaak gebruikt bĳ opiniepĳlingen of vragenlĳst bĳvoorbeeld voor een depressie(stoornis). Vaak wordt er dan gerapporteerd dat men gemiddeld een $3.8$ antwoordde (scoorde) op een $5$-puntschaal op de vraag ‘In hoeverre bent u het met kernenergie eens?’ Oplopend van ‘geheel mee oneens’ tot en ‘geheel met eens’ is, strikt genomen, een ordinale schaal, maar het wordt behandeld alsof de schaal een interval meetniveau behelst. In zo’n geval wordt dus onterecht de derde kwaliteit - hoeveelheid, afstand, of grootte tussen waarden - aan de waarden toegekend. In de praktĳk zal dit (verkeerde) gebruik niet veel schade aanrichten, maar voorzichtigheid in interpretatie van de scores is dus (sowieso) geboden.
Ook het Nederlands cĳfersysteem wordt vaak onterecht overgekwalificeerd qua meetniveau. Strikt genomen kan je alleen maar zeggen dat iemand met een ‘$9$’, hoger scoort dan iemand met een ‘$8.5$’ en je hoopt daarmee te kunnen zeggen dat de prestatie (kennis, vaardigheid?) van de eerste persoon beter was dan van die tweede. Laten we wel wezen, maar wat is vaardigheid, kennis of prestatie? Tussen het cijfer $8.5$ en $9$ zit een halve punt verschil, hoeveel is een half puntje kennis of vaardigheid? Behoorlijk vaag eigenlijk. Als je waarden (of categorieën) gebruikt voor het onderscheiden van verschillende toestanden (dingen) die we niet zo goed snappen, is het dus al helemaal raar om over de grootte van die afstanden tussen die gekozen waarden te praten.
Regelmatig wordt er - eigenlĳk dus onterecht - met ordinale variabelen (of schalen) gerekend alsof deze variabelen dus van intervalniveau zouden zĳn. In dit geval wordt dus een hoger meetniveau (interval in dit geval) toegekend of aangenomen voor een variabele dan - strikt gezien - terecht is. Zeker binnen de sociale studies komt dit vaak voor. Maar voor ons wetenschappers is deze aanname dat een variabele zich ‘interval’ gedraagt een belangrĳke én noodzakelĳke aanname om überhaupt verder te kunnen (mogen) rekenen.

0.4.3 Interval

In geval van een intervalvariabele (scale variable) is er ook sprake van de derde kwaliteit waarop waarden zich van elkaar kunnen onderscheiden, namelĳk ‘een betekenisvol verschil in hoeveelheid, afstand of grootte tussen twee waarden’. Dit verschil tussen twee waarden kan nu dus worden uitgedrukt in numerieke waarden (echte getallen dus) én éénheden (bĳv IQ-punten). We weten nu dus ook, hoe groot het verschil (in éénheden) tussen twee gemeten waarden is en dus niet alleen of een bepaalde waarde alleen maar meer of minder is dan een andere waarde. Deze kwaliteit betreft alleen de grootte van het verschil tussen twee waarden. Waarden ‘op zich zelf’ betekenen nog niet heel veel, neem bijvoorbeeld een temperatuur van $25 \; ^{\circ}C$, weet jij hoe warm dat is? Ik eigenlijk niet! Ja, ik weet dat ik dan graag zonder jas buiten loop (weet ik uit ervaring)! Wat we wel precies kunnen zeggen, is hoeveel energie (of warmte) je moet toevoegen aan een liter water van $25 \; ^{\circ}C$ om het precies $10 \; ^{\circ}C$ te laten stijgen qua temperatuur (naar de waarde $35 \; ^{\circ}C$ dus). Sterker nog: voor elke graad stijging, is telkens weer dezelfde hoeveelheid energie of warmte nodig. Bij ordinale waarden zoals bij opleidingsniveau (MAVO, HAVO, VWO), kun je niet zeggen dat je even veel energie (of wat dan ook) nodig hebt om van MAVO naar HAVO te gaan, als van HAVO naar VWO, hier slechts rangschikking aan de orde, geen hoeveelheid tussen waarden. Volgens mij - zo zie ik het graag - betekent ‘inter’ ook wel ‘tussen’ en komt ‘val’ van ‘waarde’, hoe moeilijk kan het zijn om te onthouden dat je bij interval dus de afstand tussen waarden serieus mag nemen als je ze in getallen met éénheden uitdrukt?

Mag je dan ook zeggen dat $30 \; ^{\circ}C$ (op zichzelf), $2$ keer zo warm is als $15 \; ^{\circ}C$ (want $\frac{30}{12}=2$)? Nee, Nee Nee! Bij zo een uitspraak, vergelijk je twee hoeveelheden (waarden) verhoudingsgewijs. Als je de verhouding (ook wel deling, of een ratio) van twee waarden neemt, weet je hoeveel ($2$) keer de teller ($30$) in de breuk, groter (of kleiner) is dan de noemer ($15$) in de breuk. Kan iemand twee keer zo lang zijn als iemand anders? Ja, dat kan, ik zeg regelmatig tegen mensen dat ik 1.13 keer zo lang ben als mijn ex, ik zie dingen liever verhoudingsgewijs! Maar zeggen dat $30 \; ^{\circ}C$ twee keer zo warm of heet is als $15 \; ^{\circ}C$ kan écht niet. Als je dit zegt, suggereer je eigenlijk dat de waarde $0 \; ^{\circ}C$, absoluut geen warmte of hitte betekent, dus de afwezigheid van warmte. Onder het extreme geval dat er absoluut geen warmte, energie of hitte (het is tenslotte allemaal hetzelfde) zou zijn, zou alles in - en om - je heen, absoluut niet meer bewegen of trillen. Dit noemen we het absolute nul-punt voor Temperatuur en dat is bij $\text{-}273.15 \; ^{\circ}C$ of ook wel het aller koudst dus. Temperatuur in graden Celcius meten, is ook een rare bedoeling. Beter meet je Temperatuur met Kelvin (punten). Als het $0$ K is (zou zijn), weet je meteen dat er geen temperatuur (warmte, energie, trilling) meer is. Als de waarde ‘$0$’ bij een variabele echt ‘niks’ betekent en dus verwijst naar de afwezigheid van iets (temperatuur, lengte of afstand, gewicht), alleen dan mag je verhoudingsgewijze uitspraken doen. Maar als je dit mag doen (of doet), heb je al een Ratio meetniveau voor je variabele aangenomen! Bij temperatuur in graden Celcius is de waarde $0$ willekeurig (arbitrair) gekozen, zomaar dus. Nou ja zomaar? Ze vonden het handig om de nul-waarde hier op het vriespunt van water (bij een luchtdruk van $1000$ milibar) te zetten. Ze hadden dat ook kunnen doen bij het vriespunt van alcohol of een andere handige vloeistof. Maar als het $0 \; ^{\circ}C$ buiten is, wil dat dus niet zeggen dat de temperatuur (of warmte) afwezig is en de nul betekent hier dus niet niks.

$\:\:\:\:\:\:0$ K $= \text{-}273.15 \; ^{\circ}C$ of

$\:\:\:\:\:\:273.15$ K $=0 \; ^{\circ}C$

En omdat een toename van één graad Celcius ($1$ eenheid dus) precies overeenkomt met een toename van één eenheid in Kelvin (even veel energie of warmte verschil), kun je de volgende omreken- (transformatie) formule opstellen om op basis van Temperatuur ($C$), gemeten in graden Celsius, $ ^{}C$), de overeenkomende Temperatuur in Kelvin ($K$) berekenen:

$\:\:\:\:\:\:K = 273.15 + C$

Dus bijvoorbeeld als iemand een lichaamstemperatuur heeft van $37.2 \; ^{\circ}C$, dan is dat dus 310.35 $K$ ($273.15 + 37.2 = 310.35$).

Tabel 0.9: Interval Variabelen
Interval Variabele	Mogelijke Waarden of Categorieën
Temperatuur in $^{\circ}C$	$\text{-}273$, $\text{-}100$, $0$, $10$
Wiskundecijfer	$1.00$, $4.50$, $6.00$, $8.50$, $10.00$
IQ-score	$61$, $85$, $100$, $106$, $130$, $200$

Praktische toepassingen.

Hier wordt het leuk, bĳna alles mag qua berekeningen, je kunt gemiddelden, of andere statistieken zoals een standaardafwĳking voor een variabele berekenen. Soms wil je losse scores of verschillende variabelen optellen om een nieuwe of totaal score te berekenen, denk aan een proefwerkcĳfer wat bestaat uit meerdere lossen vragen, IQ-test of een test bestaande uit meerdere vragen om de mate van depressie vast te stellen. Scores verhoudingsgewĳs bekĳken mag dus eigenlĳk niet want als je twee scores door elkaar deelt is de betekenis van die verhouding dus eigenlĳk niets zeggend. Als je weet dat er een afstand zit van $10$ punten tussen twee verschillende waarden, weet je nog niet hoeveel keer groter de éne waarde is dan de andere. Hou het gewoon bij het verschil in waarden (een verschil bereken je door een aftrekking) en bekijk de waarden dus niet verhoudingsgewijs (deling).

In de sociale wetenschappen zĳn het vooral de eerste drie meetniveaus (nominaal, ordinaal en interval) die van belang zĳn bĳ onderzoek. Als variabelen zelfs aan hogere meetniveaus voldoen, hebben (ratio of absoluut), vinden we dat misschien prachtig, maar niet echt relevant voor nodige of verdere analyses die we meestal doen. Bĳ meer biologische, technische of beta-studies, zĳn vaker ook de hogere meetniveaus van variabelen van belang, denk aan biologie, medicĳnen, genetica, hersenonderzoek, scheikunde of natuurkunde. Hogere meetniveaus mag je altĳd negeren en variabelen op een lager meetniveau opvatten of behandelen. In de psychologie is het vaak genoeg om slechts te weten hoeveel punten mensen van elkaar verschillen en heeft het geen (praktische) zin om te weten hoe hoog iemand op zichzelf scoort. Mĳn dochter had een keer een $5.6$ voor haar wiskunde proefwerk, maar het was wel het hoogste van de klas! Bĳ psychologie gaat het meestal om de grootte van verschillen tussen scores en dus niet om de waarden zelf (wat is een angst score van $325$ punten?) of om verhoudingen daarvan zoals in een uitspraak: ‘Jĳ hebt drie keer zoveel angst als ik’. Een wel zinvolle interval uitspraak zou kunnen zĳn: ‘Op deze faalangst test scoor ik $14$ punten meer dan jĳ.’ zolang je de schaal gewoon in punten laat staan en niet gaat nadenken over de betekenis van één angst-punt nadenkt (dan behalve dat één angst-punt voor een vaste denkbeeldige afstand staat op een getallenlĳn).

0.4.4 Ratio

De vierde kwaliteit die wordt toegevoegd aan het interval-meetniveau, is het ‘absolute nulpunt’ (op een schaal of variabele) en zo ontstaat het op - één na - hoogste meetniveau, het ratiomeetniveau. De waarde nul of ‘$0$’ heeft nu wel echt betekenis en verwĳst dus (echt) naar ‘niks, leeg of afwezig’ en is dus niet zomaar ergens opgeplakt. Denk maar aan de variabele lengte (gemeten in cm), niemand heeft een lengte van $0$ cm, maar we weten allemaal wat we met nul bedoelen: er is geen afstand of lengte, je hebt niks van wat je wilt meten (cm). Andere mogelĳke waarden zoals ‘$0.45$’, ‘$1$’, ‘$17$’ of ‘$99.99$’ (die het gemeten object toebehoren), hebben nu (met de eenheid) ook betekenis (en dus niet meer alleen betekenis voor het ‘verschil’ tussen twee waarden zoals bĳ interval). De waarden hebben dus nu ook betekenis op zichzelf en daarmee heeft dus ook de verhouding van twee waarden (ook wel deling, ratio of breuk) betekenis gekregen. Deze kwaliteit van ‘betekenisvolle’$0$‘-waarde, en dus de verhouding van waarden’ mag dus alleen toegekend worden aan variabelen met (minimaal) een ratio-meetniveau. Als schalen van ratio-meetniveau zĳn (of nog hoger) kun je dus meer kwaliteit toekennen dan bij de lagere meetniveaus en zĳn uitspraken als ‘ik ben $1.139$ keer zo lang als mĳn ex’ dus betekenisvol. Eén resterend probleem is nog wel dat we nog niet meteen kunnen begrĳpen wat de éénheid (waarmee gemeten is) precies betekent, hiervoor zĳn nog altĳd afspraken nodig. De eenheid ‘meter’ moet dus wel door iemand zĳn gedefiniëerd. Afspraken over (meet-) éénheden zĳn dus altĳd nodig voor interpretatie van scores als je met een ratio-meetniveau (of lager niveau) te maken hebt. Maar als je dus weet wat de eenheid betekent (wij weten precies wat 1 meter betekent). Kun je dus elke andere waarde (verhoudingsgewijs) vergelijken met de waarde $1$. $20$ meter is echt $20$ keer zo groot als $1$ meter!

Tabel 0.10: Ratio Variabelen
Ratio Variabele	Voorbeelden van Mogelijke Waarden
Lengte in meter	$0$ m, $1.00$ m, $1.72$ m, $10.00$ m, $8848.86$ m
Temperatuur in Kelvin	$0$ K, , $1$ K, $273.15$ K, $310.35$ K
Leeftijd in jaren	$0$ jaar, $0.8$ jaar, $1.5$ jaar $46$ jaar,
Een telling (frequentie) aantal bacteriën	$0$ bacteriën, $1.00$ bacterie, $1000000$ bacteriën
Massa in Kilogram	$0$ kg, $54.5$ kg, $100$ kg
Snelheid in kilometer per uur	$0$ km/u, $0.1$ km/u,$10$ km/u,$1.08$ miljard km/u

De vĳfde - en hoogste - kwaliteit: ‘de éénheid $1$ staat voor alles (of voor perfectie)’. Bĳ deze kwaliteit is de waarde ‘1’ op zichzelf - dus zonder eenheid - meteen duidelĳk en zou het probleem van afspraken over de betekenis van eenheden moeten oplossen. Het ‘getal’ of score spreekt dan helemaal voor zich. Maar die kwaliteit is dus alleen weggelegd voor waarden met het hoogst mogelĳk meetniveau: het absolute meetniveau.

Gebruik en toepassingen.

De eenheid ‘meter’ voor de ratio-variabele ‘lengte’ is oorspronkelĳk in 1793 gedefinieerd als de afstand van de evenaar tot de noordpool gedeeld door 10 miljoen of ook wel de omtrek (uitgedrukt in een afstand) van de aarde gedeeld door 40 miljoen’, dus als je die omtrek in 40 miljoen stukjes verdeelt dan heb je een echte meter te pakken. Tegen woordig gebruiken ze andere (éénduidigere) manieren om af te spreken wat een meter precies is (aan de hand van lichtsnelheid bĳvoorbeeld). Gelukkig ligt er ook ergens in een museum in Parĳs een lat waarmee we kunnen laten zien hoe wĳ de eenheid ‘meter’ hebben afgesproken (geoperationaliseerd), maar besef wel dat die lat altĳd bĳ dezelfde (constante) temperatuur en druk moet liggen anders verandert toch echt de (absolute) lengte van die lat.

Als ik zou zeggen dat ik 1.139 keer zolang ben als mĳn ex, ken ik dus ook een ratiokwaliteit toe aan de variabele lengte in cm. Het verhoudingsgetal ‘1.139’ wordt hier ook wel een ‘vergrotingsfactor’ of gewoon een ‘factor’ genoemd omdat je mĳn ex haar lengte (151 cm) alleen maar met 1.139 hoeft te vermenigvuldigen om mĳn lengte te vinden. - Temperatuur gemeten in Kelvin (K) word ook wel een ‘thermodynamische’ temperatuur genoemd omdat temperatuur ook wel te maken heeft met trillingen of bewegingen (vandaar dynamisch) van kleine deeltjes. Als een object een temperatuur heeft van 0 Kelvin, kan je dus ook wel zeggen dat alle deeltjes gestopt zĳn met bewegen en is er dus een afwezigheid van beweging. Je kan dus echt zeggen dat de waarde 0 hier dus ook verwĳst naar niks (geen beweging van deeltjes). Nul Kelvin komt trouwens overeen met ongeveer ‘- 273.15 graden Celsius’ en is dus de koudst mogelĳke temperatuur (geen beweging, warmte of temperatuur) in dit heelal, waarschĳnlĳk zĳn er praktisch geen objecten met precies die temperatuur van 0 Kelvin, maar theoretisch (of hypothetisch) weten we wel wat we bedoelen met 0 Kelvin (geen temperatuur, beweging of warmte). Zo ook met lengte van een mens in centimeters: niemand heeft een lengte van nul centimeter, maar we weten wel wat we met ‘0 cm’ bedoelen, namelĳk geen (of een afwezige) lengte.

0.4.5 Absoluut

Het laatste - en hoogst mogelĳke - meetniveau kent en heeft dus nog een kwaliteit extra: ‘Het getal of waarde 1 betekent meteen alles of perfect’. Er zĳn niet veel variabelen die hieraan voldoen en veel statistiekboeken benoemen dit meetniveau niet eens en hanteren dus maar vier meetnveaus. Waar het bij deze extra kwaliteit om gaat, is dat de waarde ‘$1$’ gebruik meteen alles aangeeft. Een ratio variabele heeft dus ook als maximale waarde, de waarde ‘$1$’. De variabele proportie (of gedeelte van het geheel) is een waarde die je uitdrukt in een getal met als laagst mogelijke waarde ‘0’ en als hoogst mogelĳke waarde een ‘1’. Alle getallen ertussen zĳn natuurlĳk ook mogelĳk bĳ proporties. Is een proportie dan ook een variabele? Ja, omdat een proportie ook iets is wat (per object) kan variëren. De variabele ‘kans’, ook uitgedrukt in een getal tussen de 0 en de 1, heeft ook een ratio-meetniveau. Ook kans is een variabele, de ene persoon heeft nou eenmaal meer kans om te slagen voor een bepaald vak dan een ander en daarmee varieert dus de mogelĳke kans op slagen (per mens). We drukken dus (vaak) kansen in getallen uit, maar besef dus dat je geen eenheid nodig hebt om het getal duidelĳk te maken, de waarde van het getal staat dus helemaal op zichzelf omdat alle mogelĳke informatie of kwaliteiten aanwezig zĳn. En als je een kans hebt van ‘$p = 1.00$ om te slagen voor je tentamen (waarbij $p$ staat voor de variabele ’probability’), weet je helemaal zeker dat je dus slaagt voor je tentamen. Bij een kans van ‘$p = 0.00$, weet je absoluut zeker dat je hem niet haalt. Als de correlatie tussen twee variabelen de waarde’$1$’ heeft is er sprake van een perfect verband en kun je de ene variabele uit de andere variabele perfect voorspellen (het doel van wetenschap weet je nog?)

Tabel 0.11: Absolute Variabelen
Absolute Variabele	Mogelijke Waarden of Categorieën
Kans (probability, $p$)	$0$, $0.01$, $0.5$, $.7$, $1.00$
proportie of gedeelte	$0$, $0.25$, $0.5$, $.8$, $1.00$
Correlatie, $r_{xy}$	$0$, $\text{-}0.73$, $0.20$, $0.50$, $0.80$, $0.8944$, $1.00$

Toepassing en gebruik.

Een kans-waarde van ‘0’ voor het slagen voor een tentamen betekent dat iemand het tentamen sowieso niet zal halen. Hoe hoger de waarde wordt, des te meer zal een persoon geneigd zĳn om het tentamen te halen. Bĳ een waarde van ‘.5’ betekent het dat er net zoveel kans is op slagen als op zakken (bĳ herhaling zal iemand het tentamen even vaak halen als dat hĳ er voor zal zakken, dus half om half). Een win kans van bĳvoorbeeld ‘.8’ betekent dat je, naar verwachting, 4 van de 5 zal winnen. En ten slotte: de waarde 1 bĳ een kans betekent dat het verschĳnsel waar de kans voor bedoeld is sowieso zal optreden, alles ervan is dus aanwezig. Iemand zal bĳ een kans-waarde van $1$ het spelletje zonder enige twĳfel winnen en is de uitkomst (het winnen van het spel) dus geheel bepaald of gedetermineerd.

Een correlatie is een getal tussen de -1 en 1 (en kan dus ook negatief zijn) die aangeeft in hoeverre twee variabelen samenhangen. Neem bijvoorbeeld het verband (correlatie) tussen lengte en gewicht bij mensen, hoe kleiner iemand is, des te lager zal zĳn gewicht zĳn (we spreken hier over een positief verband omdat de twee variabelen bĳ een object dus vaak dezelfde kant op wĳzen (in dit geval laag en laag, of klein en licht, allebei dus negatief afwĳken van het gemiddelde).

Het negeren van hogere meetniveaus.

Als twee mensen dus twee verschillende waarden hebben voor bĳvoorbeeld de kans op slagen, zeg de waarden $0.7$ en $0.9$, kan je die informatie puur nominaal opvatten door alleen maar te zeggen dat er verschil is tussen de twee personen omdat ‘$0.7$’ en ‘$0.9$’ nou eenmaal (als label) anders klinken van elkaar. Als alleen van belang is dat de ene persoon meer kans heeft op slagen, kun je dus met een ordinale uitspraak of kwaliteit volstaan: ‘De ene persoon is meer geneigd te slagen dan de andere’. Ook al heeft een kansvariabele dus strikt genomen zelfs een absoluut meetniveau, je kan een variabele dus altĳd op een lager niveau gebruiken of opvatten door informatie of kwaliteiten te negeren. Let dus op het verschil in het meetniveau qua uitspraak of toepassing enerzĳds en het strikte meetniveau van variabelen anderzĳds. Binnen de sociale wetenschappen is vaak de praktische toekenning van een hoger meetniveau dan interval niet nodig. De meest gebruikte statistische analyses, zoals in deze handleiding, kunnen al toegepast worden op variabelen met een nominaal, ordinaal en interval meetniveau.

Als ik zeg dat het verschil in lengte tussen mĳ en mĳn ex ‘$2$’ keer zo groot is als het verschil in lengte tussen mĳ en mĳn dochter, ken ik dus een interval-kwaliteit toe aan de variabele lengte. Omdat ik slechts de afstanden tussen waarden benoem en daarvan de relatieve groottes vergelĳk en dit mag alleen bĳ interval variabelen (of van hoger meetniveau) terwĳl strikt genomen de variabele lengte in cm van ratio-meetniveau is. Eigenlĳk kan je dus zeggen dat het ‘meetniveau’ (van een variabele zoals geslacht of lengte in cm) ook een variabele is die iets zegt over de mogelĳke waarde van een andere variabele (zoals geslacht of lengte in cm). Het beoordelen onderscheiden van het juiste meetniveau van een variabele of schaal – of praktische toekenning aan - is uitermate belangrĳk: De onderzoeksvraag en meetniveaus van de variabelen in je onderzoek bepalen geheel welke statistische analyse voor jouw vraagstuk, probleemstelling of onderzoek van toepassing is!

0.4.6 Andere soorten indelingen (dan het meetniveau) voor soorten variabelen

Continu versus discreet

We hebben nu het meetniveau van een variabele gehad, maar er zĳn nog meer indelingen voor het onderscheid tussen soorten variabelen waar we op moeten letten. Neem een dobbelsteen, noem hem voor het gemak even de variabele X. Je kan wel de waarde $X = 3$ of $X = 6$ gooien, maar het is onmogelĳk om bĳvoorbeeld $X = 3.5$ te gooien. Omdat deze variabele $X$ nogal beperkt is qua aantal mogelĳkheden, noem je deze variabele discreet (als je vreemd gaat, wil je ook graag dat je vrienden daar discreet - of dus beperkt - over zĳn). Als een variabele een onbeperkt aantal waarden heeft, noemen we het een continue variabele, zoals bĳ lengte in cm. Er zĳn natuurlĳk waarden die (praktisch) niet voorkomen, zoals een persoon van $289$ cm lang. Maar tussen bĳvoorbeeld $170$ cm en $172$ cm liggen oneindig veel andere waarden zoals bĳv. $171.3567$ cm. Je kunt ook wel denken dat als je de mogelĳke waarden van een dobbelsteen op de getallenlĳn zet, moet je ‘springen’ om van $1$ naar $2$ te gaan. Maar als je de waarden van lengte in cm (van personen) op de getallen lĳn uitzet hoef je nooit te springen om bĳ een andere waarde uit te komen, want elk punt op die lĳn staat voor een mogelĳke waarde. Een lĳn of lĳnstuk, bestaat per definitie uit oneindig veel punten (dus waarden). Sowieso zĳn nominale en ordinale variabelen altĳd discreet en bĳ de hogere meetniveaus (interval, ratio en absoluut) hangt het dus van het aantal én de ligging van mogelĳke waarden af. Zĳn het er oneindig veel én liggen de waarden echt tegen elkaar aan, dan noemen we het een continue variabele en zĳn het een beperkt aantal opties dan noemen we hem dus discreet van karakter.

Dichotoom, Binair, Twee-waardig.

Heeft een variabele slechts twee waarden (niveaus of categorieën) zoals bĳ geslacht, zakken of slagen, wel of niet ziek zĳn of een andere groepsindeling waar je maar keuze hebt uit twee groepen, noemen we hem ook wel dichotoom, binair of op zĳn echt Nederlands; ‘tweewaardig’. Dichotome variabelen zĳn heel handig voor statistische analyses als je die variabelen - of beter de twee categorieen (her)codeerd met eentjes (bĳv. ziekte aanwezig) en nulletjes (ziekte afwezig) dan kun je hele leuke analyses doen (bĳvoorbeeld een regressie-analyse).

Ook hier word weleens gesmokkelt en wordt gedaan alsof een telling (discreet) zich toch continue gedraagt. Een strikt continue variabele heeft meer kwaliteiten (meer mogelĳkheden) dan een discrete variabele. Soms passen we ‘continuïteits correcties’ toe zodat we toch weer de analyses kunnen doen die we graag zouden willen doen en soms zĳn we lui en laten we het voor wat het is en smokkelen we een beetje.

0.5 Het Beschrĳven van Data aan de hand Statistieken en Parameters

Als je weet wie en wat je wilt onderzoeken, is het dus zaak om eerst informatie over de te onderzoeken verschĳnselen te verzamelen, dus je metingen doen bĳ je respondenten (onderzoeksobjecten). Bĳ het verzamelen van de data ben je in de ‘Toetsingsfase’ van de empirische cyclus van de Groot (de Groot, 1961) beland. Hier gebeurt eigenlĳk het meeste werk:

Metingen verrichten van alle mogelĳke verschĳnselen binnen jouw onderzoek (dataverzameling),
Vervolgens voer je de data in een statistiek programma zoals ‘JASP’, ‘EXCEL’, ‘SPSS’ of ‘R’ (data-opslag),
Daarna verwerk je en analyseer je de data (Data-Analyse of ook wel gewoon: berekeningen uitvoeren).
Aan de hand van je data-analyse of beter - je resultaten of uitkomsten van die analyses - kun je beschrĳven (samenvatten) wat er gebeurt binnen jouw steekproef én kĳk je of jouw bevindingen te generaliseren vallen naar situaties buiten jouw steekproef (populatie) door conclusies op basis van je analyses te trekken.

Dit behoort allemaal tot de Toetsingsfase en deze handleiding gaat dus ook vooral over alle processen binnen deze fase.

Data-punten

We verzamelen dus informatie over verschĳnselen die de onderzoeksobjecten (proefpersonen) toebehoren door metingen (observaties) te doen over één of meer aspecten kenmerkend voor het onderzoeksobject (waarden op variabelen). Het woord ‘datum’ betekent ook wel ‘gegeven’ of ‘informatie’. Eén datapunt is één enkel gegeven (over een object), bĳvoorbeeld iemands lengte ($172$ cm). Een datapunt staat dus voor één enkele waarde (van een variabele voor een bepaald object) en als je meerdere datapunten hebt verzameld, dan heb je te maken met een verzameling van data - of beter - een dataset. Kortweg vaak gewoon je ‘data’ (alle gegevens die je hebt verzameld). Een dataset bestaat dus uit (heel veel) verzamelde waarden voor één of meer variabelen. Een van de eerste stappen na het verzamelen van je data, is het beschrĳven van je gegevens. De meest precieze beschrĳving van je data, zou een letterlĳke opsomming zĳn van al je datapunten zĳn, maar dat zou wel heel vervelend en saai worden, het is helemaal niet raar als je meer dan tienduizend waarnemingen of waarden hebt verzameld. Beschrĳven doen we hier aan de hand van een samenvatting van onze data. De dataset samenvatten (beschrĳven) doen we aan de hand van één of meer statistieken, zoals het gemiddelde en de standaardafwijking voor een variabele die je gemten hebt.

Het beschrĳven van steekproefdata.

Statistiek

Een statistiek is een beschrĳvende waarde (meestal uitgedrukt in een getal) die een eigenschap of karakterestiek van (een gedeelte van) de dataset beschrĳft.

Een statistiek zegt dus altĳd iets over datapunten uit een steekproef en is dus een beschrĳver of samenvatter van _steekproef_data. Er bestaan natuurlĳk meerdere manieren om iets over een verzameling datapunten te zeggen: soms wil je iets zeggen over de waarden die onder één enkele variabele vallen, maar vaak wil je ook meer zeggen, bĳvoorbeeld hoe (waarden van) verschillende variabelen bĳvoorbeeld samenhangen in je steekproef, ook wel het verband of correlatie tussen twee variabelen genoemd. Dat komt natuurlijk allemaal aan de orde in deze handleiding.

Het beschrĳven van populatiedata

Parameter

Een parameter is een beschrĳvende waarde (meestal uitgedrukt in een getal) die een eigenschap of karakterestiek van de populatie (-data) beschrĳft.

Natuurlĳk is het doel van een wetenschapper om uiteindelĳk uitspraken te doen over populatiegevens. Populatiedata (of gegevens) beschrĳven we aan de hand van ‘parameters’ (met de klemtoon op ‘ra’). Dus het gemiddelde van een populatie noemt men een parameter. We hebben hier alleen een ontzettend groot probleem. Niemand is in staat om met absolute zekerheid iets zeggen over sitiuaties waarin niet alle objecten gemeten zĳn. Een populatie (van objecten) is per definitie oneindig groot qua aantal objecten. Omdat dus niet alle gegevens praktisch te verzamelen zĳn, kun je nooit precies zeggen of beschrĳven wat er in een populatie precies of exact gebeurt. Dus het ware of echte gemiddelde voor een bepaalde populatie kan dus niemand weten (behalve God of een ander alwetend figuur en dat is behoorlĳk vaag). Voor de notatie van parameters gebruiken we altĳd griekse letters (ook lekker vaag dus). Onthoud dus: vage dingen (parameters) doen we aan de hand van vage letters (griekse alfabet). Statitieken kun je dus wél berekenen en dus de echte waarde kennen omdat de data uit een steekproef wel beperkt en dus eindig is, dat is praktisch wel te doen, zeker met die monster rekenprogramma’s waar we tegenwoordig gebruik van maken. Hieronder vast een aantal beschrijvers, de eerste drie hebben wij al uitvoerig besproken en mee geoefend en kun je dus nu ook al zelf berekenen! En natuurlijk komt er ook nog genoeg oefening in de volgende hoofdstukken.

Tabel 0.12: Data Beschrijvers
Soort Beschrijver	Soort Maat	Bijbehorende Statistiek	Bijbehorende Parameter	Uitspraak Parameter
Gemiddelde	centrummaat	$\overline{Y}$	$\mu_y$	mu y
Standaardafwijking	spreidingsmaat	$S_y$	$\sigma_y$	sigma y
Variantie	spreidingsmaat	$S_y^2$	$\sigma_y^2$	sigma kwadraat y
Covariantie	ruwe samenhangsmaat	$S_{xy}$	$\sigma_{xy}$	sigma x y
Correlatie	gestandaardiseerde samenhangsmaat	$r_{xy}$	$\rho_{xy}$	rho xy
Intercept	startgetal of snijpunt van een lijn met de $Y$-as	$b_0$	$\beta_0$	beta nul
Slope	richtingscoëfficiënt of helling van een lijn	$b_1$	$\beta_1$	beta één

Parameters kunnen we schatten aan de hand van hun bijbehorende statistieken.

Natuurlĳk kunnen we wel schatten wat er ongeveer gebeurt in een populatie op basis van een steekproef (een deelverzameling van je populatie die je wilt onderzoeken). De waarde voor het echte gemiddelde voor een variabele van een populatie (de parameter ‘het gemiddelde’) kan dus niemand weten, maar we gebruiken een statistiek (het gemiddelde van een steekproef) als beste schatting voor het ware gemiddelde van de populatie. Een statistiek is dus een schatter (of puntschatting, omdat het één enkele waarde is) voor een parameter. De puntschatting (statistiek) hoeft dus niet precies hetzelfde te zĳn als het echte gemiddelde (parameter), maar naarmate je steekproef groter is, zal de waarschĳnlĳkheid (of kans) dat jouw puntschatting (statistiek) meer lĳkt op de ware waarde van de parameter toenemen. In het algemeen: Hoe groter de steekproef, des te betrouwbaarder (precieser, accurater) worden jouw schattingen voor echte populatie-waarden of verschĳnselen. Tuurlijk, een relatief grotere steekproef geeft vaker betrouwbare informatie over wat er daadwerkelijk in de gehele populatie aan de hand zou kunnen zijn.

0.6 Het Grotere Doel (Lekker Significant).

Wetenschappers zijn eigenlijk niet echt geïnteresseerd in hun steekproef. Steekproeven zijn veels te beperkt! Wetenschappers willen heel graag algemene uitspraken doen en niet alleen maar over wat er in hun steekproefje gebeurt. Als je onderzoek doet naar de kwaliteit van leven bij chronisch zieke kinderen, dan doe je dat, omdat je uiteindelijk graag elk kind van de populatie chonisch zieke kinderen wilt begrijpen (en hopelijk ook wilt helpen). Dus eigenlijk doen we onderzoek naar populaties aan de hand van een steekproef in de hoop dat die steekproef gelijke karakterestieken vertoont als de populatie waar die steekproef uitkomt. In dit boek laat ik je zien hoe je op basis van berekende statistieken, schattingen kunt doen over populaties en hoe je de zekerheid van je schattingen vertaalt naar betrouwbare algemene uitspraken over kenmerken van een populatie.

Laten we wel en eerlijk zijn tegenover onszelf: Als mens (en dier) proberen we onze direkte omgeving (steekproef) zodanig te snappen dat we ook met nieuwe situaties (populatie) om kunnen gaan. Dus als mens zijn we continue bezig (al doen we dit discreet) om zo efficiënt mogelijk de direkte informatie die op ons afkomt te verwerken en te begrijpen, juist zodat we de algemene werking van iets snappen of dat we een uitspraak of voorspelling kunnen doen voor al dat in en om ons heen ooit nog zou kunnen gebeuren.

0.7 Rekenen met JASP

In deze handleiding ga ik in op handmatige berekeningen, zodat je begrijpt wat er gebeurd en je de theorie achter al die berekeningen beter kunt snappen. Voor je scriptie of onderzoek, laat je de boel voor je uitrekenen. Er zijn een tal van reken programma’s zoals ‘SPSS’ of ‘EXCEl’ die allemaal ‘prima’ werk kunnen verrichten. Zeker SPSS is super duur om aan te schaffen en moet je maar net mazzel hebben dat je werk of opleiding je daarin kan voorzien. Het software programma (of app) JASP is gratis, uitstekend en heel vriendelijk voor psychologen en eigenlijk (vaak) veel beter dan SPSS of EXCEL. Vooral hoe de resultaten en uitkomsten van berekeningen (‘output’) gepresenteerd worden zie je interactief veranderen als je verschillende opties kiest. Super mooi dus en ook nog ‘APA’ verantwoord. Om JASP te downloaden en te installeren ga je naar https://jasp-stats.org/download/ en kies je de versie die geschikt is voor jouw computer (‘Windows’, ‘macOS’ of ‘linux’). Volg de stappen bij het installeren. Op dezelfde site vind je ook een link om JASP online te kunnen gebruiken in een web-brouwser, maar beter installeer je het programma gewoon, kun je hem ook offline gebruiken. Er zijn ook tal van instructiefilmpjes op YouTube, dus google op ‘JASP tutorials’ of gebruik deze link:

https://www.youtube.com/watch?v=bVR3LrmfNYA&ab_channel=ResearchByDesign

Zeker in de eerste paar (basis) hoofdstukken zal ik nog niet altijd JASP gebruiken. Naarmate we meer en meer in het echte en praktische onderzoeksdomein komen, zullen berekeningen met JASP de overhand nemen en laat ik de handmatige berekeningen dus achterwege. Uiteindelijk doen we alles met JASP en heb je dus ook geen potlood of een gummetje meer nodig. Ik leg alles uit, in tekst en met plaatjes, zodat je weet waar je moet klikken, we bouwen het rustig op, no worries dus, let’s JASP!

Getal of Waarde	Omgekeerde in breukvorm	Omgekeerde in 2 decimalen
1	\(\frac{1}{1} = 1\)	1.00
3	\(\frac{1}{3}\)	0.33
100	\(\frac{1}{100}\)	0.01
\(\frac{1}{3}\)	\(\frac{1}{\frac{1}{3}}=3\)	3.00
\(\frac{2}{5}\)	\(\frac{1}{\frac{2}{5}} = \frac{5}{2}\)	2.50
\(n\)	\(\frac{1}{n}\)	Dit kun je pas uitrekenen als je de waarde van \(n\) weet
\(n-1\)	\(\frac{1}{n-1}\)	Dit kun je pas uitrekenen als je de waarde van \(n\) weet
\(Benjamin\)	\(\frac{1}{Benjamin}\)	Dit kun je pas uitrekenen als je de waarde van \(Benjamin\) weet

Wortel-behandeling	exact resultaat of antwoord	reden (bewijs)	Resultaat afgerond op drie decimalen
\(\sqrt{1}\)	\(1\)	\(1 \cdot 1 = 1\)	1.000
\(\sqrt{2}\)	\(\sqrt{2}\)	\(\sqrt{2} \cdot \sqrt{2} = 2\)	1.414
\(\sqrt{3}\)	\(\sqrt{3}\)	\(\sqrt{3} \cdot \sqrt{3} = 3\)	1.732
\(\sqrt{4}\)	\(2\)	\(2 \cdot 2 = 4\)	2.000
\(\sqrt{9}\)	\(3\)	\(3 \cdot 3 = 9\)	3.000
\(\sqrt{10}\)	\(\sqrt{10}\)	\(\sqrt{10} \cdot \sqrt{10} = 10\)	3.162
\(\sqrt{49}\)	\(7\)	\(7 \cdot 7 = 49\)	7.000
\(\sqrt{n}\)	\(\sqrt{n}\)	\(\sqrt{n} \cdot \sqrt{n} = n\)	onbekend zolang \(n\) onbekend is

Willekeurige exacte waarden	Afronding in 5 decimalen	Afronding in 3 decimalen	Afronding in 2 decimalen
\(\sqrt{375}\)	\(19.36492\)	\(19.365\)	\(19.36\)
\(1.234567890\)	\(7.12346\)	\(7.123\)	\(7.12\)
\(9.989898989\)	\(9.98990\)	\(9.990\)	\(9.99\)
\(99.99999999\)	100.00000	100.000	100.00
\(\pi\) (het getal of constante ‘pi’	\(3.14159\)	\(3.142\)	\(3.14\)
\(e\) het getal of constante ‘e’	\(2.71828\)	\(2.718\)	\(2.72\)

Absolute Variabele	Mogelijke Waarden of Categorieën
Kans (probability, \(p\))	\(0\), \(0.01\), \(0.5\), \(.7\), \(1.00\)
proportie of gedeelte	\(0\), \(0.25\), \(0.5\), \(.8\), \(1.00\)
Correlatie, \(r_{xy}\)	\(0\), \(\text{-}0.73\), \(0.20\), \(0.50\), \(0.80\), \(0.8944\), \(1.00\)

Respondentnummer	Lengte	Leeftijd
\(i\)	\(Y_i\)	\(X_i\)
1	120	1.0
2	130	1.0
3	140	1.0
4	140	1.5
5	150	1.5
6	160	1.5
7	160	2.0
8	170	2.0
9	180	2.0

Respondentnummer	Lengte	Indiviuele Afwijking	Gekwadrateerde Indiviuele Afwijking
\(i\)	\(Y_i\)	\(Y_i - \overline{Y}\)	\((Y_i - \overline{Y})^2\)
1	120	-30	900
2	130	-20	400
3	140	-10	100
4	140	-10	100
5	150	0	0
6	160	10	100
7	160	10	100
8	170	20	400
9	180	30	900
	\(\sum\limits^{i=9}_{i=1}{Y_i} = 1350\)	\(\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})} = 0\)	\(\sum\limits^{i=9}_{i=1}{(Y_i-\overline{Y})^2} = 3000\)

Nominale Variabele	Mogelijke Waarden of Categorieën	Mogelijke of Handige Codering
Naam	Benjamin, Keya, Otis	\(-\)
Gender	Man, Vrouw, Androgyne, Bygender	\(1 =\) ‘Man’, \(2 =\) ‘Vrouw’, \(3 =\) ‘Androgyne’, \(4 =\) ‘Bygender’
Aapsoort	Bonobo, Gorilla, Orang-oetan	\(1 =\) ‘Bonobo’, \(2 =\) ‘Gorilla’, \(3 =\) ‘Orang-oetan’
Nationaliteit	Nederlands, Belgisch, Frans	\(1 =\) ‘Belgisch’, \(2 =\) ‘Frans’, \(3 =\) ‘Nederlands’
Provincie	Zuid-Holland, Flevoland, Limburg	\(1 =\) ‘Flevoland’, \(2 =\) ‘Limburg’, \(3 =\) ‘Zuid-Holland’
Soort Depressie	Dysthyme Stoornis, Bipolaire Stoornis	\(1 =\) ‘Dysthyme Stoornis’, \(2 =\) ‘Bipolaire Stoornis’
Al dan niet Slagen voor Tentamen	Gezakt, Geslaagd	\(0 =\) ‘Gezakt’, \(1 =\) ’Geslaagd
Ziek	‘niet ziek’, ‘ziek’	\(0 =\) ‘niet ziek’, \(1 =\) ‘ziek’

Ordinale Variabele	Mogelijke Waarden of Categorieën	Mogelijke of Handige Codering
Opleidingsniveau	MAVO, HAVO, VWO	\(1 =\) ‘MAVO’, \(2 =\) ‘HAVO’, \(3 =\) ‘VWO’
Wiskundevaardigheid	Laag, Gemiddeld, Hoog	\(1 =\) ‘Laag’, \(2 =\) ‘Gemiddeld’, \(3 =\) ‘Hoog’
Leeftijdscategorie	‘0 t/m 20’, ‘21 t/m 40’, ‘41 t/m 60’, ‘61 t/m 80’	\(1 =\) ‘0 t/m 20’, \(2 =\) ‘21 t/m 40’, \(3 =\) ‘41 t/m 60’, \(4 =\) ‘61 t/m 80’
Likert-schaal voor Overeenstemming	‘Helemaal mee oneens’, ‘Oneens’, ‘Neutraal’, ‘Eens’, ‘Helemaal mee eens’	\(0 =\) ‘Helemaal mee oneens’, \(1 =\) ‘Oneens’, \(2 =\) ‘Neutraal’, \(3 =\) ‘Eens’, \(4 =\) ‘Helemaal mee eens’
Verkiezingseindstand	‘1e plaats’, ‘2e plaats’, ‘3e plaats’	\(1 =\) ‘1e plaats’, \(2 =\) ‘2e plaats’, \(3 =\) ‘3e plaats’

Interval Variabele	Mogelijke Waarden of Categorieën
Temperatuur in \(^{\circ}C\)	\(\text{-}273\), \(\text{-}100\), \(0\), \(10\)
Wiskundecijfer	\(1.00\), \(4.50\), \(6.00\), \(8.50\), \(10.00\)
IQ-score	\(61\), \(85\), \(100\), \(106\), \(130\), \(200\)

Ratio Variabele	Voorbeelden van Mogelijke Waarden
Lengte in meter	\(0\) m, \(1.00\) m, \(1.72\) m, \(10.00\) m, \(8848.86\) m
Temperatuur in Kelvin	\(0\) K, , \(1\) K, \(273.15\) K, \(310.35\) K
Leeftijd in jaren	\(0\) jaar, \(0.8\) jaar, \(1.5\) jaar \(46\) jaar,
Een telling (frequentie) aantal bacteriën	\(0\) bacteriën, \(1.00\) bacterie, \(1000000\) bacteriën
Massa in Kilogram	\(0\) kg, \(54.5\) kg, \(100\) kg
Snelheid in kilometer per uur	\(0\) km/u, \(0.1\) km/u,\(10\) km/u,\(1.08\) miljard km/u

Soort Beschrijver	Soort Maat	Bijbehorende Statistiek	Bijbehorende Parameter	Uitspraak Parameter
Gemiddelde	centrummaat	\(\overline{Y}\)	\(\mu_y\)	mu y
Standaardafwijking	spreidingsmaat	\(S_y\)	\(\sigma_y\)	sigma y
Variantie	spreidingsmaat	\(S_y^2\)	\(\sigma_y^2\)	sigma kwadraat y
Covariantie	ruwe samenhangsmaat	\(S_{xy}\)	\(\sigma_{xy}\)	sigma x y
Correlatie	gestandaardiseerde samenhangsmaat	\(r_{xy}\)	\(\rho_{xy}\)	rho xy
Intercept	startgetal of snijpunt van een lijn met de \(Y\)-as	\(b_0\)	\(\beta_0\)	beta nul
Slope	richtingscoëfficiënt of helling van een lijn	\(b_1\)	\(\beta_1\)	beta één