Konfidenzintervall der Binomialverteilung

Das Konfidenzintervall oder auch Vertrauensintervall ist ein Bereich in dem aus einer Stichprobe geschätzte Werte mit eine bestimmten Wahrscheinlichkeit liegen. In den meisten Fällen möchte man einen Bereich angeben in dem mit sehr großer Wahrscheinlichkeit der gesuchte Wert liegt bzw. liegen darf. Sollte der Wert außerhalb liegen ist die Wahrscheinlichkeit sehr gering, dass die Schätzung zu der Annahme passt.

Beispiel

Bei einer Befragung von 20 Unternehmen der Region geben 8 an, dass sie mit fallenden Gewinnen im laufenden Jahr rechnen. Jetzt stellt sich die Frage, wie sich die gesamten Unternehmen der Region verhalten.

Der erste Schritt ist es den Erwartungswert zu bestimmen.

E(X)=μ=np=8E(X)=\mu = n\cdot p = 8

In diesem Fall gilt besonderes Interesse dem Wert der Wahrscheinlichkeit pp.

p^=μn=820=0,4\hat p = \frac{\mu}{n} = \frac{8}{20} = 0,4

p^\hat p ist der beste Schätzer für die Wahrscheinlichkeit. Für den Erwartungswert gilt: p^=E(X)n=E(Xn) \hat p = \frac{E(X)}{n}=E\left(\frac{X}{n}\right)

Als nächstes kann man die Standartabweichung durch die Varianz bestimmen. Hierbei soll nicht Var(X)=np(1p)Var(X)=n\cdot p\cdot(1-p) sondern Var(p^)=Var(Xn) Var(\hat p)=Var\left(\frac{X}{n}\right) bestimmt werden.

SD(p^)=Var(p^)=Var(Xn)=1n2Var(X)SD(\hat p) = \sqrt{Var(\hat p)} = \sqrt{Var\left(\frac{X}{n}\right)} = \sqrt{\frac{1}{n^2} Var(X)}

(Vergleiche die Berechnung mit der Herleitung Varianz des Mittelwerts).

=1n2np(1p)=1np(1p)=120820(1820)=9680000.110= \sqrt{\frac{1}{n^2}\cdot n\cdot p \cdot (1-p)} = \sqrt{\frac{1}{n}\cdot p \cdot (1-p)} = \sqrt{\frac{1}{20}\cdot \frac{8}{20} \cdot \left(1-\frac{8}{20}\right)} = \sqrt{\frac{96}{8000}}\approx 0.110

In Abhängigkeit der Standartabweichung kann ein Bereich bestimmt werden, in dem mit einer bekannten Sicherheit der gesuchte Wert liegt. Hierzu ist es die folgenden Zusammenhänge:

Jetzt Ergeben sich Konfidenzintervalle um den Erwartungswert von cσc\cdot \sigma mit c=1;2;3c=1;2;3:

pu=p^c1np(1p)p_u = \hat p - c\cdot \sqrt{\frac{1}{n}\cdot p \cdot (1-p)}

po=p^+c1np(1p)p_o = \hat p + c\cdot \sqrt{\frac{1}{n}\cdot p \cdot (1-p)}

In diesem fall für ein Intervall [0,18;0,62][0,18;0,62] für eine 2σ2\sigma Umgebung (95%). Es ist davon auszugehen, dass der wirkliche Anteil, an Unternehmen die an fallende Gewinne denken, in diesem Bereich liegt.

Erweiterung der Idee

Da es weitere Bereiche gibt die von Interesse sind und die angegebenen σ\sigma-Umgebungen gerade bei kleinen Stichproben ungenau sind, Ist es sinnvoll eine andere Rechenmethode zur Verfügung zu haben. Hier nutzt man die Umkehrfunktion der zugrundeliegenden Verteilung.

Hier wird die Inverse der kumulative Binomialverteilung InvBCD(P;n;p)=kInvBCD(P;n;p)=k verwendet. Mit dieser kann man die Quantielsgrenzen bestimmen, vor denen ein entsprechender Anteil an möglichen Ergebnissen liegt. Hier wäre es:

pu=kun=InvBCD(P;n;p)n=InvBCD(2,5%;20;0,4)20=0.2p_u = \frac{k_u}{n}=\frac{InvBCD(P;n;p)}{n}=\frac{InvBCD(2,5\%; 20;0,4)}{20}=0.2

po=kon=InvBCD(P;n;p)n=InvBCD(97,5%;20;0,4)20=0.6p_o = \frac{k_o}{n}=\frac{InvBCD(P;n;p)}{n}=\frac{InvBCD(97,5\%; 20;0,4)}{20}=0.6

Literatur:

  1. Krengel U. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg Verlag, Wiesbaden, 2003
  2. Camps U, Cramer E. Grundlagen der Wahrscheinlichkeitsrechnung und Statistik. Springer Verlag, Berlin Heidelberg, 2007
  3. Genschel U, Becker C. Schließende Statistik - Grundlegende Methoden. Springer Verlag, Berlin Heidelberg, 2005