Mit den Methoden der schließenden Statistik lassen sich Aussagen über eine Grundgesamtheit treffen die in den meisten Fällen nicht bekannt ist. In der Regele sind nur Stichproben bekannt und von diesen soll auf eine Gesamtheit geschlossen werden.
Um Aussagen treffen zu können wird eine Zufallsvariable X definiert, die ein Merkmal (Körpergröße, Gewicht, Handynutzung oder sonstiges) beschreibt. Dieser Zufallsvariable wird weiter eine Verteilung zugewiesen, die häufig von dem Erwartungswert und der Varianz abhängt.
Diese Größen sind nicht bekannt und müssen mit der Hilfe von Stichproben bestimmt werden. Daher ist es hilfreich sich eine Gegenüberstellung der Verteilungsgrößen und der Stichprobe anzuschauen.
Verteilung
Stichprobe
Zufallsvariable X (zum Durchzählen Xii-ter Zufallswert)
Messwert, Wert x (zum Durchzählen xii-ter Wert)
Anzahl der möglichen Werte: n
Anzahl der Werte in der Stichprobe: n
Wahrscheinlichkeit einer Zufallsvariablen: P(X)
(eventuell) relative Häufigkeit ein Wertes in der Stichprobe
Erwartungswert: E(X)=∑i=1nP(Xi)⋅Xi, wird als Zahlenwert zur Verteilung mit μ bezeichnet
Mittelwert: xˉ=n1∑i=1nxi
Varianz: Var(X)=E[(X−E[X])2]=E[X2]−E[X]2=σ2
Empirische Varianz: s2=n1∑i=1n(xi−xˉ)2
Standartabweichung: SD(X)=Std(X)=Var(X)
Empirische Standartabweichung: s(X)=s2
Schätzer für die Varianz bei bekanntem Erwartungswert μ: s^μ2=n1∑i=1n(xi−μ)2
Schätzer für die Varianz bei unbekanntem Erwartungswert: s^2=n−11∑i=1n(xi−xˉ)2
Wahrscheinlichkeit einer Zufallsvariablen: P(X)=61
(eventuell) relative Häufigkeit ein Wertes in der Stichprobe (s.o.)
Erwartungswert: E(X)=61⋅1+61⋅2+61⋅3+61⋅4+61⋅5+61⋅6=3,5, wird als Zahlenwert zur Verteilung mit μ bezeichnet
Mittelwert: xˉ=101(5+3+4+1+3+2+6+5+3+2)=3,4
Varianz: Var(X)≈2,92
Empirische Varianz: s2=2,24
Standartabweichung: SD(X)=Std(X)≈1,7
Empirische Standartabweichung: s(X)≈1,5
Schätzer für die Varianz bei bekanntem Erwartungswert μ=3,5: s^μ2=1,55
Schätzer für die Varianz bei unbekanntem Erwartungswert: s^2=2,48
Verschiebungssatz
Der Verschiebungssatz vereinfacht das Rechnen mit Summen von quadratischen Abweichungen. Er lässt sich auf Varianz und Standartabweichung übertragen.
∑i=1n(xi−xˉ)2=∑i=1n(xi2)−n⋅xˉ2
Beweis
Es gilt mit der 2. binomischen Formel:
∑i=1n(xi−xˉ)2=∑i=1n(xi2−2⋅xixˉ+xˉ2)
Die Summen dürfen in der Reihenfolge vertauscht werden, somit kann auch die große Summe von allen Teilsummen einzeln gebildet werden:
=∑i=1n(xi2)−∑i=1n(2⋅xixˉ)+∑i=1n(xˉ2)
Als nächstes kann man in der mittleren Summe die gleichen Faktoren xˉ und 2 ausklammern:
=∑i=1n(xi2)−2xˉ⋅∑i=1n(xi)+∑i=1n(xˉ2)
Jetzt nutzt man aus, dass $sum_{i=1}^n (x_i )=ncdot ar x$ und $sum_{i=1}^n (ar x^2) = ncdot ar x^2$ ist:
=∑i=1n(xi2)−2xˉ⋅n⋅xˉ+n⋅xˉ2
Zuletzt lassen sich die letzten beiden Teile zusammenfassen:
=∑i=1n(xi2)−n⋅xˉ2
Erwartungswerte von statistischen Größen
Im allgemeinen sollten die Methoden zur Untersuchung von Stichproben sinnvolle Werte für die Gesamtheit beschreiben und nicht nur den Datensatz/die Stichprobe beschreiben. Hierzu bestimmt man die Erwartung für die Berechnungen auf der Stichprobe.
Wenn eine Formel bzw. eine statistische Größe in der Erwartung den richtigen Wert liefert, spricht man von Erwartungswerttreue. Dies ist ein theoretisches Konzept, welches einiges nützliches an Informationen über die statistischen Größen liefert.
Mittelwert
Der Erwartungswert des Mittelwerts (arith. Mittel) für eine Verteilung mit gegebenen Erwartungswert μ und Varianz σ2 ist:
E(Xˉ)=E(n1∑i=1nXi)
=n1E(∑i=1nXi)
=n1∑i=1nE(Xi)
=n1∑i=1nμ
=n1n⋅μ
=μ
Im wesentlichen wurde genutzt, dass der Erwartungswert linear ist und somit mit allen linearen Operationen vertauscht werden kann (linear: Multiplikation mit einer Konstanten und Addition).
Es hat sich gezeigt, dass der Mittelwert im besten Fall den Erwartungswert einer Verteilung wiedergibt. Diese Aussage ist universell, da keine Einschränkungen gesetzt wurden.
Als nächstes kann noch die Varianz des Mittelwerts bestimmt werden:
Bis hierhin wurde gezeigt wie sich ein Faktor auf die Varianz Auswirkt. Im folgenden müsste gezeigt werden, dass die Kovarianz für unabhängige Zufallsvariablen 0 ist. Hierauf wird hier verzichtet und angenommen, dass Var(X1+⋯+Xn)=Var(X1)+⋯+Var(Xn) ist. In diesem Fall ist die Varianz einer Zufallsvariablen bekannt und es ergibt sich:
=(n1)2⋅(∑i=1nVar(Xi))
=(n1)2⋅∑i=1nσ2
=(n1)2⋅n⋅σ2
=nσ2
Dies bedeutet die Varianz nimmt ab, je mehr Werte man in seiner Stichprobe hat.
Empirische Standartabweichung
Ähnlich wie beim Mittelwert soll hier der Erwartungswert bestimmt werden. Es gelten die gleichen Annahmen. Um es etwas einfacher zu haben, berechnen wir den Erwartungswert für ∑i=1n(Xi−Xˉ)2 und nutzen zuerst den Verschiebungssatz:
E[∑i=1n(Xi−Xˉ)2]=E[∑i=1nXi2−n⋅Xˉ2]
Wie bereit besprochen dürfen Erwartungswert und Summen Vertauscht werden:
=∑i=1nE(Xi2)−n⋅E(Xˉ2)
Der Trick ist es jetzt die Formel für die Varianz umzustellen:
Var(X)=E[X2]−E[X]2⇔E[X2]=Var(X)+E[X]2=σ2+μ2
Dies ist auch möglich für den Mittelwert (Achtung, die Varianz ist eine andere):