Zum Inhalt springen

GNU R: boxplot

Aus Wikibooks

Dieses Kapitel oder dieser Abschnitt ist unverständlich formuliert. Ein Hinweis, was nicht verstanden wird, ist möglicherweise auf der Diskussionsseite des Artikels zu finden. Wenn Sie Hilfe benötigen, schauen Sie, welche Qualitätskriterien an ein gutes Buch gestellt werden. Das allgemeine Vorgehen bei diesem Baustein kannst Du hier nachlesen.

Der Boxplot wird über einem Zahlenstrahl dargestellt.

boxplot (auch Box-Whisker-Plot) ist ein Verfahren der explorativen Datenanalyse für kontinuierliche Variablen. Boxplots stellen einige wesentliche Beschreibungsmerkmale einer Verteilung in einem Diagramm dar. Es handelt sich dabei um den Median (mittlerer fetter Balken), das untere und obere Quartil (die untere und obere Begrenzung der Box, die 50% der Daten umfasst) und damit auch den Interquartilabstand. Die Whiskers (Schnurrhaare) zeigen das Maximum beziehungsweise das Minimum einer Verteilung, sofern diese nicht mehr als das 1,5-fache des Interquartilabstands von der Box (dem nähesten Quartil) abweichen. Datenpunkte, die außerhalb dieses Ranges liegen, gelten als Ausreißer und werden als einzelne Datenpunkte dargestellt. Zudem vermittelt das Diagramm einen Eindruck davon, ob eine Verteilung symmetrisch oder schief ist. Weniger geeignet ist der Boxplot für bi- oder multimodale Verteilungen. Hier empfiehlt sich die Verwendung von Histogrammen bzw. die grafische Umsetzung von Kerndichteschätzungen.


Beispiele

[Bearbeiten]

Boxplot einer Variablen

[Bearbeiten]
einfacher Boxplot einer Variablen
par(las = 1)                 # alle Achsenbeschriftungen 
                             # mit horizontaler Ausrichtung anzeigen
boxplot(iris$Sepal.Length)   # Boxplot der Variablen Sepal.Length
                             # des Irisdatensatzes aus R

Im ersten Beispiel wird ein einfacher Boxplot der Variable Sepal.Length des Iris-Datensatzes ausgegeben. Im Standardpaket von R sind zahlreiche Datensätze vorhanden. Geben Sie data() ein. Es wird eine Liste der vorhandenen Datensätze ausgegeben. Mit data(DATENSATZNAME) wird ein Datensatz in den aktuellen Arbeitsbereich übernommen. In den neueren Versionen von R reicht es, einen Datensatz direkt ohne data(DATENSATZNAME) aufzurufen. iris führt zur Anzeige des Iris-Datensatzes. Sofern Sie die Variablennamen nicht mit attach(iris) dem Namensraum bekannt geben, ist es erforderlich einzelne Variablen mit dem Namen des Datasets, in diesem Fall iris gefolgt vom Dollarzeichen und dem Variablennamen aufzurufen: iris$Sepal.Length.


par(las = 1) bewirkt, dass alle Achsenbeschriftungen mit horizontaler Ausrichtung angezeigt werden.

Die parallele Darstellung der Verteilung von Teilstichproben

[Bearbeiten]
Boxplot einer gruppierten Variablen
par(las = 1)                    
boxplot(Sepal.Length ~ Species, 
               iris,            
       notch=TRUE,              
       horizontal = TRUE)       

Die Fälle im Iris-Datensatz gehören drei verschiedenen Kategorien an. Das ist in der Variablen Species kodiert. Species gehört zur R-Klasse factor. Mit iris$Sepal.Length können Sie das selbst überprüfen. In diesem Boxplotbeispiel wird für jede Kategorie ein eigener Boxplot erstellt. Dies wird der Formel Sepal.Length ~ Species erreicht. Der Parameter notch=TRUE bewirkt eine Einschnürung im mittleren Balken, der den Median der zugehörigen Verteilung repräsentiert. Wenn diese Einschnürungen sich nicht überlappen, dann ist das ein starker Hinweis dafür, dass sich die Mediane signifikant unterscheiden. horizontal = TRUE führt zu einer horizontalen Anordnung der Boxplots.

Der Vergleich verschiedener Variablen

[Bearbeiten]
Boxplot mehrerer Variablen
par(las = 1)                  

boxplot(iris,	
	 col = "blue", 
	 main = "Boxplot des Irisdatensatzes",
	 sub = "alle Variablen (Untertitel)",  
	 xlab = "Variablen des Irisdatensatzes",
	 ylab = "Angaben in \n inch")

Im dritten Beispiel wird für alle Variablen des Iris-Datensatzes ein Boxplot ausgegeben, auch für Species, die nur drei Abstufung hat. Daher fehlen auch die Wiskers. Überschriften und Achsenbeschriftungen werden mit den Parametern main (Überschrift), xlab (x-Achsenbeschriftung), ylab (y-Achsenbeschriftung) und sub für den Untertitel übergeben. Beim Untertitel handelt es sich aber eher um eine zu groß geratene Fußnote, da sub am unteren Rand der Grafik erscheint. Der Backslash mit folgendem n in der y-Achsenbeschriftung bewirkt einen Zeilenumbruch. Mit col = "blue" werden die Boxen blau eingefärbt.

Die Ausgabe der Statistiken

[Bearbeiten]

Für Boxplots werden mehrere statistische Parameter berechnet. Diese erhalten Sie mit dem Parameter plot = FALSE. Allerdings wird damit auch die Ausgabe der Grafik unterdrückt. Setzt man den gesamten Befehl in Klammern, werden die statistischen Daten und die Grafik ausgegeben. Siehe zur Ausgabe der Boxplotstatistiken aber auch boxplot.stats.

Parameter (Auswahl)

[Bearbeiten]

Das Erscheinungsbild von Boxplots lässt sich in R über Parameter an die eigenen Bedürfnisse anpassen.


Parameter Beschreibung Beispiel
notch Mit notch auf TRUE wird die Box eingeschnürt. Wenn sich die Einschnürungen von zwei Boxplots nicht überschneiden, dann ist das ein starker Hinweis darauf, dass sich die beiden Mediane signifikant unterscheiden. notch=TRUE
plot Mit der Standardeinstellung TRUE wird die Grafik ausgegeben. Mit der Einstellung FALSE werden die Statistiken ausgegeben, auf denen Boxplots basieren. plot=TRUE
border Ein optionaler Vektor von Farben für die Umrisse der Boxplots. Wenn weniger Farben angegeben sind als Boxplots gezeichnet werden, wiederholen sich die Farben. border = (farbe <- c("black", "green"))
col Mit col kann die Farbe des Boxhintergrunds bestimmt werden. Standardeinstellung ist NULL und damit der Boxhintergrund auf die Hintergrundfarbe des Diagramms eingestellt. col="blue"
horizontal Mit dem Wert TRUE werden die Boxplots mit horizontaler Ausrichtung dargestellt. horizontal = TRUE
main Überschrift main="Überschrift"
sub Untertitel am unteren Grafikrand sub="Abbildung 1"
xlab Beschriftung der X-Achse xlab="X-Achse"
ylab Beschriftung der Y-Achse ylab="Y-Achse"


Es gibt zahlreiche weitere Parameter, mit denen Boxplots an die eigenen Bedürfnisse angepasst werden können. Diese erhalten Sie, indem Sie mit ?boxplot die Hilfe zu Boxplot konsultieren.

siehe auch

[Bearbeiten]
  • hist - Erzeugt Histogramme
  • par - Funktion zum Setzen grafischer Parameter
  • Diagramme
[Bearbeiten]