Wir betrachten ein Beispiel: Werbewirksamkeit der Farbe eines Verkaufsregals
Eine Unternehmung, die Tee aus fairem Anbau vertreibt, überlegt, für die Verkaufsregale ein einheitliches Design zu entwerfen. Als Farbe kommen ein dunkleres Gelb oder ein helles Türkis in Frage. Es werden in 11 Supermärkten gelbe Regale und in 9 Supermärkten türkise Regale aufgestellt. Es geht darum, ob sich die mittleren Umsätze bezüglich der Farbe unterscheiden.
Wir bezeichnen mit
die Zahl der Pakete, die in den ersteren Märkten, und mit
die Zahl der Pakete, die in den letzteren Märkten verkauft wurden. Die beiden Zufallsvariablen sind normalverteilt, jeweils mit dem Erwartungswert :
bzw.
.
Von Interesse ist, ob der durchschnittliche Absatz von Teepackungen aus gelben Regalen gleich dem von türkisen Regalen sein könnte. Wir testen also
.
Welche Prüfgröße nimmt man hier? Die obige Hypothesenstellung ist da wenig hilfreich, denn wir haben hier eine Gleichung als unbekannten Parameter. Wir können aber
umformen zu
.
Nun brauchen wir noch eine passende Schätzfunktion für die Differenz der Erwartungswerte: Es bieten sich die entsprechenden arithmetischen Durchschnitte
und
an, die durchschnittlichen Absatzzahlen von Teepaketen je Regalfarbe. Die Differenz
ist natürlich wieder eine Zufallsvariable, die ebenfalls normalverteilt ist. Ihr Erwartungswert ist
, wie uns von linearen Transformationen von Zufallsvariablen bekannt ist. Wären die Varianzen von
und
bekannt, ergäbe sich die Varianz von
als Summe der Varianzen von
und
, also
. Wir hätten also nun normalverteilte Prüfgröße
.
Leider ist der Statistikgott grausam und verrät uns normalerweise die Varianzen in den Grundgesamtheiten nicht. Hier beginnt die Tragödie: Da wir die Varianzen schätzen müssen, erhalten wir eine
-verteilte Prüfgröße. Nun ist die
-Verteilung nicht reproduktiv, eine Summe von
-verteilten Zufallsvariablen ist nicht per se wieder
-verteilt. Wir bekommen also bei der Bestimmung der Prüfgrößenverteilung Probleme. Wir sind mit zwei Möglichkeiten konfrontiert:
- Die Varianzen der
sind gleich.
- Hier ist die resultierende
-Verteilung reproduktiv, und die Ermittlung der Verteilung einfach.
- Die Varianzen sind ungleich.
- Im Nenner der Prüfgröße befinden sich nun die Wurzeln zweier verschiedener Quadratsummen. Hier können wir keine exakte Verteilung der Prüfgröße angeben. Wir haben eine
-Verteilung mit einer unbekannten Zahl von Freiheitsgraden, die lediglich näherungsweise bestimmt werden können.
Meistens wird wohl getestet, ob es generell zwischen den beiden Erwartungswerten einen Unterschied gibt, als Punkthypothese
,
als Bereichshypothesen
,
.
Bemerkung: Es kann mal vorkommen, dass wir eine Hypothese
gegeben haben, was bedeutet,
ist größer als
. Hielten wir uns an die Prüfgröße der Formel mit dem Zähler
, müssten wir die Hypothese umformen zu
. Das Hantieren mit Ungleichungen bereitet Anfängern häufig Schwierigkeiten. Wir können es aber auch in der Hypothese bei
belassen und in die Prüfgröße statt des Zählers
die Differenz
schreiben, was uns die Umdrehung der Ungleichung erspart. Ansonsten hat das keine Auswirkungen, denn die Ausdrücke mit den Varianzen bleiben gleich.
Vergleich von Erwartungswerten, wenn die Varianzen gleich sind
[Bearbeiten]
Sind die Varianzen gleich, steht auch nur eine Varianz im Nenner der Prüfgröße. Wir berechnen aus allen Beobachtungen die gemeinsame Stichprobenvarianz
, die auch gepoolte Varianz genannt wird. Nennen wir die Daten aus der ersten Stichprobe
und die der zweiten Stichprobe
. Die Gesamtzahl aller Beobachtungen ist dann
. Die gepoolte Varianz wird ermittelt als
,
was wir auch schreiben können als
.
Woher wissen wir eigentlich, dass die Varianzen gleich sind, wenn wir sie gar nicht kenne? Das können wir mit einem Test auf Gleichheit der Varianzen zweier Zufallvariablen rauskriegen.
Wird dieser Test nicht abgelehnt, vermuten wir Gleichheit der Varianzen (mit allen Problemen des β-Fehlers, die man bei Nichtablehnung einkauft) und erhalten die Prüfgröße
,
die wegen
zu
vereinfacht werden kann.
im Nenner entspricht dem
, das wir von
schon kennen.
ist
-verteilt mit
Freiheitsgraden. Es gehen hier zwei Freiheitsgrade verloren, denn bei der Berechnung der Varianz ersetzen wir die unbekannten Erwartungswerte
und
durch die Schätzer
und
.
Vorgehensweise:
Der Stichprobenwert der Prüfgröße ist
.
Wir verwenden die Entscheidungsregeln
wird abgelehnt, falls
oder
ist.
wird abgelehnt, falls
ist.
wird abgelehnt, falls
ist.
Nun wollen wir unser Verkaufsregalbeispiel durchrechnen:
Wir testen
bei einem
.
Zuerst müssen wir den Nichtablehnungsbereich festlegen: Laut obiger Vorschrift ist er das Intervall
![{\displaystyle [-t(1-{\frac {\alpha }{2}};n_{1}+n_{2}-2);\ t(1-{\frac {\alpha }{2}};n_{1}+n_{2}-2)]=}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ea60ad3252705733d46cc8bd279437d04010652e)
![{\displaystyle [-t(0,975;11+9-2);\ t(0,975;11+9-2)]=}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7f615e697398a25856900ad4979d97b80898e8cc)
![{\displaystyle [-2,10;2,10].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b2e72752e2c15057335c6777c74441e8d8dfac58)
Nun werden wir die Prüfgröße berechnen:
In den
Supermärkten mit den gelben Regalen wurden
25 28 35 30 18 27 26 21 27 30 30
Päckchen verkauft, und in den
Supermärkten mit den türkisen Regalen

30 18 24 26 27 23 18 24 26
viele. Es ergeben sich die Schätzungen
,
,
und
.
Die Nullhypothese, dass die Varianzen gleich sind, wird nicht abgelehnt (hier). Wir berechnen somit die gepoolte Varianz als

beziehungsweise
.
Die Stichprobe ergibt also
Die Nullhypothese kann nicht abgelehnt werden. Die Farbe der Regale scheint die Kauflust nicht zu beeinflussen.
Vergleich von Erwartungswerten, wenn die Varianzen ungleich sind
[Bearbeiten]
Für die Nullhypothesen verwenden wir jetzt analog zur obigen Formel

die entsprechende Prüfgröße
,
die bei normalverteilter Grundgesamtheit grundsätzlich
-verteilt ist.
Die Freiheitsgrade
können jetzt nur näherungsweise ermittelt werden mit der Formel

Wir verwenden die Entscheidungsregeln
wird abgelehnt, falls
oder
ist.
wird abgelehnt, falls
ist.
wird abgelehnt, falls
ist.
Beispiel
Es wurden
Studentinnen und
Studenten befragt, wie viel Zeit sie in in der Woche für das Pauken einer vorgeschriebenen Fremdsprache aufwendeten .
Beim Signifikanzniveau
soll geprüft werden, ob Studentinnen im Durchschnitt weniger Zeit aufwenden als Studenten, also
bzw.
.
Es ergaben sich die Kennwerte
,
,
und
. Der Test auf Varianzgleichheit wurde abgelehnt. Die Zahl
der Freiheitsgrade ist dann


Da wir eine Höchststhypothese haben, packen wir den Ablehnungsbereich ans obere Ende der Verteilung und entscheiden so: Wenn der Wert der Prüfgröße
ist, wird
abgelehnt.
In unserem Beispiel haben wir es allerdings bei
mit mehr als 30 Freiheitsgraden zu tun. Deshalb können wir die Prüfgröße als näherungsweise normalverteilt ansehen. Und wir lehnen nun ab, wenn
ist. Für
erhalten wir
.
Da
ist, wird die Hypothese abgelehnt. Studentinnen wenden vermutlich im Mittel mindestens genau so viel Zeit für das Erlernen von Sprachen auf wie Studenten.
Vergleich der Erwartungswerte von zwei Zufallsvariablen unbekannter Verteilung
[Bearbeiten]
Wir werden gelegentlich mit Daten konfrontiert sein, die wir bei bestem Willen nicht als normalverteilt andienen können. Ist der Stichprobenumfang genügend groß, kann die Verteilung der Prüfgröße als annähernd standardnormalverteilt angesehen werden.
Wir gehen so vor:
Es wird der Unterschied der Erwartungswerte
und
geprüft. Verteilung und Varianz von
und
sind unbekannt.
Wenn
und
oder
gilt, ist die Prüfgröße
für

näherungsweise normalverteilt.
wird abgelehnt, falls
oder
ist.
wird abgelehnt, falls
ist.
wird abgelehnt, falls
ist.
Vergleich der Anteilswerte zweier binomialverteilter Grundgesamtheiten
[Bearbeiten]
Wir betrachten zwei Urnen mit je zwei Sorten Kugeln. Zu jeder Urne (auch Grundgesamtheit genannt) gehört eine binomialverteilte Zufallsvariable
und
. Von Interesse könnte sein, ob die Parameter
und
verschieden sind. Wir testen also die Anteilswerte auf Gleichheit:
bzw. 
bei der komplementären Alternativhypothese
.
Es werden zufällig
bzw.
Kugeln mit Zurücklegen entnommen.
Für den Test müssen die
s geschätzt werden: Der Anteilswert
in der ersten Urne wird mit dem Stichprobenanteil
,
entsprechend mit
geschätzt.
Bei genügend großem Stichprobenumfang ist die Differenz der zu Grunde liegenden Zufallsvariablen
näherungsweise normalverteilt.
Wir wenden wieder das bekannte Approximationskriterium an:
Wenn
und
sind, ist die resultierende Prüfgröße näherungsweise standardnormalverteilt.
Unter
sind die Anteilswerte gleich, also dann auch ihre Varianz
. Wir berechnen diese mit Hilfe des gepoolten Anteilswerts

Für die Prüfgröße verwenden wir den Stichprobenwert

Unsere Entscheidungsregeln lauten:
wird abgelehnt, falls
oder
ist.
wird abgelehnt, falls
ist.
wird abgelehnt, falls
ist.
Bemerkung: Grundsätzlich kann wie beim Vergleich von Erwartungswerten auch bei diesem Test auf einen bestimmten Unterschied hin geprüft werden. Es sollen hier aber lediglich die Tests auf Gleichheit betrachtet werden .
Beispiel: Zufriedenheit bei Bahnkunden
Ein privater Bahnbetreiber veranlasst zum Zweck der Qualitätssicherung eine Kundenbefragung. Unter anderem wurden die Kunden in die Kategorien Senior (mindestens 60 Jahre alt) und jüngerer Fahrgast eingeteilt. Während einer Zugfahrt wurden
jüngere Fahrgäste und
Senioren befragt. Von den jüngeren Fahrgästen wünschten 49, dass man auch ein Fahrrad mitnehmen kann, bei den Senioren waren es 22. Es soll bei
die Hypothese getestet werden, dass der Anteil der jüngeren Fahrgäste, die das Rad mitnehmen wollen, größer ist als der entsprechende Anteil der Senioren.
Zu prüfen ist

Der Stichprobenanteil für
berechnet sich als
und der für
als
.
Zuerst müssen wir prüfen, ob die Prüfgröße näherungsweise normalverteilt ist.
Es sind

und
.
Wir können also mit der Normalverteilung approximieren und lehnen die Hypothese ab, wenn
, also
ist.
Nun brauchen wir noch den gepoolten Anteilswert

Der Stichprobenwert der Prüfgröße ist dann

liegt im Nichtablehnungsbereich. Es liegt also kein signifikanter Unterschied zwischen den Wünschen der beiden Gruppen vor.