Konfidenzintervall der Binomialverteilung

Das Konfidenzintervall oder auch Vertrauensintervall ist ein Bereich in dem aus einer Stichprobe geschätzte Werte mit eine bestimmten Wahrscheinlichkeit liegen. In den meisten Fällen möchte man einen Bereich angeben in dem mit sehr großer Wahrscheinlichkeit der gesuchte Wert liegt bzw. liegen darf. Sollte der Wert außerhalb liegen ist die Wahrscheinlichkeit sehr gering, dass die Schätzung zu der Annahme passt.

Beispiel

Bei einer Befragung von 20 Unternehmen der Region geben 8 an, dass sie mit fallenden Gewinnen im laufenden Jahr rechnen. Jetzt stellt sich die Frage, wie sich die gesamten Unternehmen der Region verhalten.

Der erste Schritt ist es den Erwartungswert zu bestimmen.

$E(X)=\mu = n\cdot p = 8$

In diesem Fall gilt besonderes Interesse dem Wert der Wahrscheinlichkeit $p$ .

$\hat p = \frac{\mu}{n} = \frac{8}{20} = 0,4$

$\hat p$ ist der beste Schätzer für die Wahrscheinlichkeit. Für den Erwartungswert gilt: $\hat p = \frac{E(X)}{n}=E\left(\frac{X}{n}\right)$

Als nächstes kann man die Standartabweichung durch die Varianz bestimmen. Hierbei soll nicht $Var(X)=n\cdot p\cdot(1-p)$ sondern $Var(\hat p)=Var\left(\frac{X}{n}\right)$ bestimmt werden.

$SD(\hat p) = \sqrt{Var(\hat p)} = \sqrt{Var\left(\frac{X}{n}\right)} = \sqrt{\frac{1}{n^2} Var(X)}$

(Vergleiche die Berechnung mit der Herleitung Varianz des Mittelwerts).

$= \sqrt{\frac{1}{n^2}\cdot n\cdot p \cdot (1-p)} = \sqrt{\frac{1}{n}\cdot p \cdot (1-p)} = \sqrt{\frac{1}{20}\cdot \frac{8}{20} \cdot \left(1-\frac{8}{20}\right)} = \sqrt{\frac{96}{8000}}\approx 0.110$

In Abhängigkeit der Standartabweichung kann ein Bereich bestimmt werden, in dem mit einer bekannten Sicherheit der gesuchte Wert liegt. Hierzu ist es die folgenden Zusammenhänge:

Im Intervall der Abweichung $\pm\sigma$ vom Erwartungswert sind $68,27$ % aller Messwerte zu finden.
Im Intervall der Abweichung $\pm 2\sigma$ vom Erwartungswert sind $95,45$ % aller Messwerte zu finden.
Im Intervall der Abweichung $\pm 3\sigma$ vom Erwartungswert sind $99,73$ % aller Messwerte zu finden.

Jetzt Ergeben sich Konfidenzintervalle um den Erwartungswert von $c\cdot \sigma$ mit $c=1;2;3$ :

$p_u = \hat p - c\cdot \sqrt{\frac{1}{n}\cdot p \cdot (1-p)}$

$p_o = \hat p + c\cdot \sqrt{\frac{1}{n}\cdot p \cdot (1-p)}$

In diesem fall für ein Intervall $[0,18;0,62]$ für eine $2\sigma$ Umgebung (95%). Es ist davon auszugehen, dass der wirkliche Anteil, an Unternehmen die an fallende Gewinne denken, in diesem Bereich liegt.

Erweiterung der Idee

Da es weitere Bereiche gibt die von Interesse sind und die angegebenen $\sigma$ -Umgebungen gerade bei kleinen Stichproben ungenau sind, Ist es sinnvoll eine andere Rechenmethode zur Verfügung zu haben. Hier nutzt man die Umkehrfunktion der zugrundeliegenden Verteilung.

Hier wird die Inverse der kumulative Binomialverteilung $InvBCD(P;n;p)=k$ verwendet. Mit dieser kann man die Quantielsgrenzen bestimmen, vor denen ein entsprechender Anteil an möglichen Ergebnissen liegt. Hier wäre es:

$p_u = \frac{k_u}{n}=\frac{InvBCD(P;n;p)}{n}=\frac{InvBCD(2,5\%; 20;0,4)}{20}=0.2$

$p_o = \frac{k_o}{n}=\frac{InvBCD(P;n;p)}{n}=\frac{InvBCD(97,5\%; 20;0,4)}{20}=0.6$

Literatur:

Krengel U. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg Verlag, Wiesbaden, 2003
Camps U, Cramer E. Grundlagen der Wahrscheinlichkeitsrechnung und Statistik. Springer Verlag, Berlin Heidelberg, 2007
Genschel U, Becker C. Schließende Statistik - Grundlegende Methoden. Springer Verlag, Berlin Heidelberg, 2005