Datenquellen im betrieblichen und institutionellen Umfeld

Durch die zunehmende Etablierung moderner IT-Infrastruktur in Betrieben und Unternehmen aber auch durch die immer stärkere Durchdringung des menschlichen Lebens generell durch Informationstechnologien steht Betrieben und Institutionen ein immer größerer Pool an Informationsquellen zur Verfügung. Im Zuge der 360 Grad Kundensicht (engl. 360 degress Customer View) geht es darum, die dem Unternehmen zur Verfügung stehenden Datentypen – es kann auch von Datenquellen gesprochen werden – zu konsolidieren. Und mittlerweile stehen immer mehr Datenquellen in den Firmen zu Verfügung: Deskriptoren (engl. Descriptive data),  Verhaltensbeschreibende Daten (engl. Behavioral data), Kundenbeziehungsdaten (engl. Interaction data) und schließlich Daten, die sich mit den Einstellungen, Bedürfnissen, Vorlieben und Wünschen sowie Meinungen der Kunden (oder solcher, die es noch werden sollen oder es schon einmal waren), beschäftigen. Eine Übersicht zeigt die folgende Abbildung:

Abbildung: Betriebliche und institutionelle Datenquellen

Dabei kommt dem Marketing Research noch eine weitere Bedeutung zu – profitable Kunden zu halten, neue Kunden zu gewinnen und ehemalige (profitable) Kunden zurückzugewinnen. Der Datenquellensicht muss also noch eine zeitliche Ebene hinzugefügt werden. Dies lässt sich am einfachsten über einen Kundenlebenszyklus abbilden. Entlang des in der nächsten Abbildung gezeigten Kundenlebenszyklus lassen sich gut die Datenquellen, die zur Verfügung stehen und für Analysen nutzbar gemacht werden, abbilden.

Abbildung Kundenlebenszyklus und Datenquellen

Zentral ist jedoch, dass jedes Unternehmen eine Identifikation der für sie spezifisch zur Verfügung stehenden Datenquellen vornimmt und den Kundenlebenszyklus an spezifische Besonderheiten und Datenquellen anpasst. So entsteht eine Art Karte, entlang der über den Kundenzyklus hinweg an den zur Verfügung stehenden Datenquellen Maßnahmen durchgeführt werden können, die zu einem positiven Return-on-Investment führen.

Welche Maßnahmen sind durchzuführen?

Eine Vielzahl an Maßnahmen steht zur Verfügung. Zentral ist die Verzahnung sowohl der Maßnahmen als auch der Datenquellen, um ein abgerundetes Bild zu erhalten. Das Ziel sollte die beschriebene 360 Grad Kundensicht sein, die mit den zur Verfügung stehenden Datenquellen und Analysetechniken immer mehr zu erreichbarer Realität wird.

Analyse der Vergangenheit vs. Prognose der Zukunft

Entlang des Kundenlebenszyklus kann auch die Analyserichtung festgelegt werden – zwei Analyserichtungen sind zum Beispiel zurückschauend durch Aufbereitung des Datensatzes und Identifikation bestimmter Muster und zur Identifikation der Anteile an Kunden entlang des Kundenlebenszyklus. Oder aber Prognosegetrieben: Mit welchen Neukunden sind bei bestehenden Maßnahmen zu rechnen? Welche Kunden wandern ab? Können profitable Kunden zurückgewonnen werden?

Nächste Einträge in diesem Themenbereich:
Analysemöglichkeiten entlang des datengetriebenen Kundenlebenszyklus

Ist jeder Kunde ein profitabler Kunde? Einige empirische Ergebnisse zu typischen (Vor-)Urteilen im Marketing

Autoren: Nataliya Möser / Guido Möser

 

 

MIMIC Modelle zur Modellierung von Moderatoreinflüsse (Kovariaten) in Strukturgleichungsmodellen

MIMIC Modelle (MIMIC = Multiple Indicators Multiple Causes,  z.B. Jöreskog & Goldberger, 1975) stellen ein relativ unkompliziertes  Verfahren dar, um den EInfluss von Moderatoren oder generell Kovariaten  auf latente Konstrukte und Indikatoren untersuchen zu können. Dabei werden die latenten Konstrukte und/oder Indikatoren auf den Moderator regressed. Die folgenden Abbildungen zeigen dies: In Abbildung 1a wird das latente Konstrukt mit den zugehörigen Indikatoren gezeigt. In Abbildung 1b wird überprüft, ob die Teilnahme an der letzten nationalen Wahl einen Einfluss auf das latente Konstrukt hat.

Abbildung 1a – Konfirmatorische Faktorenanalyse Ausgangsmodell [Ind. = Indikator; e = Residuum] 

 

Abbildung 1b – MIMIC Modell: Erweiterung der konfirmatorischen Faktorenanalyse um eine Kovariate  [Ind. = Indikator; e = Residuum, Kov. = Kovariate]

Neben dem Einsatz der MIMIC Modelle zur Überprüfung des Einflusses von Kovariaten, z.B. dem Alter, auf das latente Konstrukt und dessen Indikatoren können noch eine einfache Art des Gruppenvergleiches durchgeführt werden.  Im Falle des Gruppenvergleichs wird das latente Konstrukt und ggf. deren Indikatoren auf die Gruppenvariable zurückgeführt (regressed). Die Gruppenzugehörigkeitsvariable (Gru. in Abbildung 1c) muss dabei als Dummy kodiert sein. Sollen mehr als zwei Gruppen getestet werden, so sind entsprechend mehr Dummies zu erzeugen (zu erzeugende Dummies: Anzahl der Gruppen – 1).

 

Abbildung 1c – MIMIC Modell zur Durchführung eines einfachen Gruppenvergleichs: Erweiterung der konfirmatorischen Faktorenanalyse aus Abb. 1a um eine Gruppenvariable [Dummykodierung] [Ind. = Indikator; e = Residuum, Gru. = Gruppierungsvariable]

Generelle Idee von MIMIC Modellen: Auspartialisierung

Die generelle Idee des Einbezugs einer Kovariaten ist deren Auspartialisierung. Die dann abhängigen Variablen (latentes Konstrukt, ausgewählte Indikatoren) sind nach dem Einbezug um die Wirkung der Kovariaten „bereinigt“.

 

Gruppenvergleiche mit MIMIC Modellen

Gruppenvergleiche können – eingeschränkt – durch MIMIC-Modelle durchgeführt werden.  Dabei sind zwei Tests möglich:

a)     Population Heterogeneity: Ein signifikanter Effekt der Gruppierungsvariable auf das latente Konstrukt deutet auf Heterogenität der Population hinsichtlich der Gruppierungsvariable hin: Die Mittelwerte des latenten Konstrukts variieren über die unterschiedlichen Merkmalsausprägungen der Gruppierungsvariablen hinweg (entspricht dem Test auf equal latent means in MGSEM (= Multiple Group Structural Equation Modeling).

Dabei handelt es sich um eine Kontrastkodierung, d.h. der Mittelwert der latenten Variable ist in der Gruppe mit dem Indikator 1 (bei Annahme der Kodierung der Gruppierungsvariable mit 0 und 1) um den Pfadkoeffizienten Gruppierungsvariable auf latentes Konstrukt höher.  Trotzdem werden in einem MIMIC-Modell die Mittelwerte nicht frei geschätzt, sondern auf null fixiert. Es wird empfohlen, sich hier die einschlägige Fachliteratur für weitere Erklärungenanzuschauen.

 

b)     Measurement Noninvariance: Hier bedeutet ein signifikanter Effekt der Gruppierungsvariablen auf (ausgewählte) Indikatoren, dass bei Konstanthaltung des latenten Konstrukts die Mittelwert der Indikatoren des Messmodells über die Merkmalsausprägungen der Gruppierungsvariablen variieren.  Dies deutet auf DIF (DIF = Differential Item Functioning) hin. Dieser Test entspricht dem Test auf equal indicator intercepts in MGSEM.

 

Annahmen

Da MIMIC Modelle zum Test auf Gruppenunterschiede nur Invarianz der Intercepts der Indikatorvariablen des Messmodells und Mittelwerte des latenten Konstrukts erlauben, muss angenommen werden, dass alle anderen Parameter betreffend die Messmodell und Strukturmodellparameter (factor loadings, error variances/covariances, factor variances/covariances) gleich sind über die Merkmalsausprägungen der Gruppierungsvariablen.  Diese Annahme kann als problematisch angesehen werden, wenn nicht ausführlich getestet.

 

Vorteile

Die MIMIC-Modellierung hat einige Vorteile. Hier dominiert zunächst die Durchführung eines Gruppenvergleichs auch mit kleinen Stichprobengrößen, da die Gruppierungsvariable in das Modell einbezogen wird. Weiter kann mit einer Kovarianz-Varianz-Matrix gearbeitet werden, es muss nicht für jedes Modell eine eigene Kovarianz-Varianz-Matrix erzeugt werden. Bei mehr als zwei Gruppen ist die Nutzung eines MIMIC-Modells als weniger Komplex als im Falle einer MGSEM zu bezeichnen. Zudem kann die Umsetzung wesentlicher schneller durchgeführt werden als im Falle der aufwendigen Umsetzung einer MGSEM. Zuletzt muss noch der Vorteil des Einbezugs auch metrischer Variablen als Gruppenvariable zu nennen, hier kann z.B. das Alter genutzt werden. Im Falle der MGSEM müssten hier zuerst Altersgruppen gebildet werden, die aber den Verlust von Informationen bedeuten.

 

Vorgehensweise

Schritt 1: Erzeugung einer funktionieren konfirmatorischen Faktorenanalyse

Schritt 2: Einbezug der Gruppierungsvariable in das Modell

 

 

Beispiel

Im Beispiel wird das latente Konstrukt  Einstellung zum Handel mit Wertpapieren auf Invarianz hinsichtlich des Geschlechts der Befragten untersucht. Die Einstellung wird entlang von semantischen Differentialen abgefragt, einen Überblick zeigt die folgende Tabelle (Hinweis: dargestellt werden die Items nach Schätzung der fehlenden Werte).

 

Tabelle: Deskriptive Statistiken der acht Einstellungsmessungen


Hinweise: Darstellungen mit Hilfe von IBM SPSS erzeugt. Auf eine detaillierte Aufbereitung wird an dieser Stelle verzichtet. Alle fehlenden Werte wurden mittels ML-Verfahren geschätzt. Der Fragenstamm lautet immer: Das Handeln mit Wertpapieren in den nächsten 3 Monaten ist für mich … ATT1: schlecht/gut; ATT2 langweilig/aufregend; ATT3: unattraktiv/attraktiv; ATT4: falsch/richtig; ATT5: problematisch/unproblematisch; ATT6: zeitaufwändig/nicht zeitaufwändig; ATT7: fremdbestimmt/selbstbestimmt; ATT8: nicht lukrativ/lukrativ

 

Auf eine detaillierte Darstellung der notwendigen und empfohlenen Voranalysen wird hier verzichtet. Die Erhebung wurde online durchgeführt. Fehlende Werte wurden mittels ML-Verfahren geschätzt. Zuletzt wurde eine Varianz-Kovarianz-Matrix erzeugt, die in SPSS AMOS zur Umsetzung der Modelle genutzt wird, die in der nächsten Tabelle gezeigt wird.

 

Tabelle: Varianz-Kovarianz-Matrix

 

In Schritt 1 wird eine konfirmatorische Faktorenanalyse mit den Einstellungsindikatoren durchgeführt mit dem Ziel, ein gut fittendes Modell sicherzustellen. In diesem Schritt wird die Kovariate Geschlecht [sex] noch nicht in das Modell miteinbezogen. Die Varianz des latenten Konstrukts wird frei geschätzt. Das Modell zeigt einen akzeptablen Fit auf die Daten, χ2(8) = 4.60, p = .08, RMSEA = 0.05 (90% CI = 0.00 to 0.01), TLI = 0.991, CFI = 0.997. Es zeigen sich keine signifikanten Abweichungen zwischen der modellimplizierten und der empirischen Kovarianzmatrix. Alle Parameterschätzungen liegen im erwarteten Bereich und sind statistisch signifikant.

 

Abbildung: Konfirmatorische Faktorenanalyse – Schritt 1


Hinweis: Der Fragenstamm lautet immer: Das Handeln mit Wertpapieren in den nächsten 3 Monaten ist für mich … ATT1: schlecht/gut; ATT3: unattraktiv/attraktiv; ATT4: falsch/richtig; ATT8: nicht lukrativ/lukrativ

 

Schritt 2 besteht in der Erweiterung des Modells um die Gruppenvariable, hier Geschlecht. Einen Überblick über die Häufigkeitsverteilung der Variable Geschlecht der Befragten zeigt die folgende Tabelle:

 

Tabelle: Häufigkeitsverteilung des Geschlechts der Befragten

Hinweis: Darstellungen mit Hilfe von IBM SPSS erzeugt. Die Variable wurde als Dummy-Variable kodiert: 0 = weiblich; 1 = männlich.

 

 

Abbildung: MIMIC-Modell zur Untersuchung des latenten Konstrukts Einstellung zum Wertpapierhandel auf Invarianz hinsichtlich des Geschlechts der Befragten – standardisierte Lösung

Hinweis: Alle Effekte sind signifikant; Der Fragenstamm lautet immer: Das Handeln mit Wertpapieren in den nächsten 3 Monaten ist für mich … ATT1: schlecht/gut; ATT3: unattraktiv/attraktiv; ATT4: falsch/richtig; ATT8: nicht lukrativ/lukrativ; gender. Geschlecht der Befragten (als Dummy-Variable kodiert: 0 = weiblich; 1 = männlich).

 

Drei signifikante Effekt hat die Variable Geschlecht der Befragten (gender) auf das latente Konstrukt: einen signifikanten Effekte auf das latente Konstrukt Einstellung zum Wertpapierhandel direkt und zwei direkte Effekte auf die Variablen Das Handeln mit Wertpapieren in den nächsten drei Monaten ist für mich schlecht/gut [ATT1 ] und Das Handeln mit Wertpapieren in den nächsten drei Monaten ist für mich unattraktiv/attraktiv [ATT3] . Die folgende Abbildung zeigt die unstandardisierte Lösung:

 

Abbildung: MIMIC-Modell zur Untersuchung des latenten Konstrukts Einstellung zum Wertpapierhandel auf Invarianz hinsichtlich des Geschlechts der Befragten – unstandardisierte Lösung

Hinweis: Alle Effekte sind signifikant; Der Fragenstamm lautet immer: Das Handeln mit Wertpapieren in den nächsten 3 Monaten ist für mich … ATT1: schlecht/gut; ATT3: unattraktiv/attraktiv; ATT4: falsch/richtig; ATT8: nicht lukrativ/lukrativ; gender. Geschlecht der Befragten (als Dummy-Variable kodiert: 0 = weiblich; 1 = männlich).

 

Im zweiten Schritt wird die Kovariate Geschlecht [gender] in das Modell integriert. Eine Änderung im Modell ergibt sich dadurch,  dass Varianz des latenten Konstrukts durch die Kovariate Geschlecht erklärt wird. Deshalb wird das Residuum e10 in das Modell integriert,  dass die nicht durch die Kovariate erklärte Varianz (= Residuum) darstellt.

Das MIMIC Modell zeigt ebenfalls einen akzeptablen Fit auf die Daten, χ2 (3) = 5.06, p = .17, RMSEA = 0.04 (90% CI = 0.00 to 0.09, pclose = 0,574), TLI= 0.993, CFI = 0.998. Die Integration der Kovariate führt auch zu keiner Verschlechterung der Diskrepanz zwischen modellimplizierter und empirischer Kovarianzmatrix. Für die Interpretation zentral sind die Pfade von der Kovariate Geschlecht zum latenten Konstrukt und zu den Indikatoren ATT1 und ATT3. Der Pfad von Geschlecht auf das latente Konstrukt zeigt einen signifikanten Effekt (z = 4,34, p < 0.01).  Entsprechend der Dummy-Kodierung der Kovariate Geschlecht (0 = weiblich, 1 = männlich) und des positiven Vorzeichens der Parameterschätzung (unstandardisierter Effekt  = 0,60) kann geschlossen werden dass Männer eine signifikant höhere Einstellung zum Handel mit Wertpapieren haben als Frauen: der Mittelwert der Männer des latenten Konstrukts ist 0,60 Einheiten höher als der Mittelwert der Frauen.

Der standardisierte Parameterschätzer ist schwierig zu interpretieren (StdYX = 0,22), da es sich um eine binäre Prädiktorvariable handelt, kann aber wertvolle Informationen zur Stärke des Effekts liefern. Dieser Wert kann entsprechend Cohens d  (Cohen, 1988, 1992) interpretiert werden. Cohens Interpretation folgend (d = 0,20, 0,50, und 0,80 für kleine, mittlere und starke Effekte, respektive, vgl. Cohen, 1992), kann der Einfluss des Geschlecht auf das latente Konstrukt als klein eingeschätzt werden.

Die Interpretation des Einflusses der Kovariaten Geschlecht auf die Indikatoren erfolgt analog zur oben dargestellten Interpretation. Auch hier liegen kleine, aber signifikante Effekte vor.

Damit kann gezeigt werden, dass Invarianz hinsichtlich des Geschlechts des latenten Konstrukts und der beiden Indikatoren ATT1 und ATT3 besteht.

 

Einfluss der Kovariate auf die Indikatorvariablen

Eine weitere mögliche Vorgehensweise zur Untersuchung des Einflusses der Kovariate auf die Indikatorvariablen des latenten Konstrukt besteht in der Möglichkeit, die direkten Pfade der Kovariaten auf die Indikatorvariablen auf 0 zu setzen und die Modifikationsindizes zu inspizieren. Dazu später mehr.

 

Dr. Guido Möser, 24.10.2011

 

The General Linear Model – Part 2: Simple Linear Regression using R and WinBUGS

In the first part I showed how to run a simple linear regression in R using the lm() function. Now we will do that with R and WinBUGS (library R2WinBUGS). The procedure is a little more time consuming.

First, install latest version of WinBUGS – http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml – Don’t forget to install the license key for unrestricted use.
I would recommend to install in a directory like C:\Statistik\WinBUGS14 and to build a second directory like c:\WinBUGS to store all the datasets, code etc.

Second, install the library R2WinBUGS in R – either use the menu or the command install.packages(“R2WinBUGS”, dependencies = TRUE)
library(R2WinBUGS)

Now, we can start building the necessary syntax. A recommendation from Gelmann and Hill (Data Analysis Using Regression and Multilevel/Hierarchical Models) is to run a “normal” linear regression first (for example by using the lm() function as I did in the first part):

#Generate dataset:
x <- c(12, 12, 9, 10, 11, 8, 10, 10, 10, 25)
y <- c(60000, 73750, 48000, 55000, 53125, 78125, 46000, 45250, 56550, 82500)
n <- 10 #Number of cases

We will not perform the full amount of possible diagnostics prior to the following analyses here (I will show that later), but diagnostics are highly recommended before performing any analyses!

#Because the values of y are very high, we must reduce them before starting the calculations in WinBUGS:
y <- y/10000

#Always plot data first (scatterplot):
plot(x, y)

#Run simple linear regression in R:
m1 <- lm(y ~ x)
abline(m1)

#Show Results:
summary(m1)

Next, we can build the linear regression model in WinBUGS-language. To store the model in the right place, change the working directory:

#Load package R2WinBUGS
library(R2WinBUGS)

#Change working directory
setwd(“C:/WinBugs”)

Now we can define our model using the sink() function. The sink() function opens a new file called linreg1.txt. All following ouput will be written in this file until we close the connection with another sink() command.

## Write WinBUGS Model
sink(“linreg_blog.txt”)
cat(“
model {
# Prior
    alpha ~ dnorm(0,0.001)
    beta ~ dnorm(0,0.001)
    sigma ~ dunif(0,100)
# Likelihood
for (i in 1:n){
    y[i] ~ dnorm(mu[i],tau)
    mu[i] <- alpha + beta*x[i]
}    
# Derived quantities
    tau <- 1/(sigma*sigma)
}
“, fill=TRUE)
sink()

The code to generate the linear regression in WinBUGS could be divided in three parts:

1. Priors: For all parameters to estimate priors are necessary. In case of the simle linear
regression there are three parameters to estimate: the intercept (alpha), the slope (beta) and the variance of the residual (sigma).

2. Likelihood: In this part the function to estimate will be written. Every function, like linear regression, could be split in two parts: a deterministic part (y = a + b*X) and a stochastic part (residual).

3. Derived quantities: Here we will calculate the variance of the residual. This is a little bit “special” in WinBUGs.

Next step is to bundle the data. Our dataset consists of 10 cases and two variables, called x and y:

# Bundle data
win.data <- list(“x”,”y”,”n”)

Now we have to define some initial values for the sampler. There are different ways to do that. We will here generate some random values for the three parameters to estimate (the intercept (alpha), the slope (beta) and the variance of the residual (sigma)). Another option is to use the values resulting by running a model using the lm()-function.

# Inits function
# First possibility – use of random values
inits1 <- function(){list(alpha=rnorm(3),beta=rnorm(3),sigma=rlnorm(3))}
# Second possibility – use of values from lm function
intercept <- m1$coefficients[1]
slope <- m1$coefficients[2]
inits2 <- function(){list(alpha=rnorm(3, mean=intercept),beta=rnorm(3, mean=slope),sigma=rlnorm(1))}

The parameters to estimate are the parameters we want to get after running the WinBUGS model. We can define a lot more, but first we will start – again – with alpha, beta and sigma:

# Parameters to estimate
params <- c(“alpha”,”beta”,”sigma”)

Some MCMC settings have to be made. nc is the number of chains, ni is the number of iterations (you should run more, this is only for a first test, especially if you are running a complex model start with only 10 or so). nb are the number of burnin draws which should be deleted and t is the thining rate.

# MCMC settings
nc = 3
ni = 1200
nb = 200
nt = 1

Starting the Gibbs Sampler is very easy:

# Start Gibbs Sampler
out <- bugs(data=win.data, inits = inits1, parameters = params, model=”linreg_blog.txt”,
            n.thin=nt, n.chains = nc, n.burnin=nb, n.iter=ni, debug=TRUE,
            bugs.directory = “c:/Statistik/WinBUGS14/”,
            working.directory = “C:/WinBugs”)

Don’t forget to close the WinBUGS window manually, because we set debug=TRUE or change it to debug=FALSE!

If everything works fine, inspect the output and compare it to results from using lm()-function:

print(out, digit=3)

A graphical output could be generated by:

plot(out)

Of course, you can use JAGS (or the faster version JAGS2), but that requires maybe some minor changes in code shown above.

Next time we will do some diagnostics.

Modellierung von kovarianzbasierten Strukturgleichungsmodellen: geeignete Software

Bevor wir in den nächsten Ausgaben in einzelne Aspekte und Themen der Strukturgleichungsmodellierung einsteigen, möchten wir gleich zum wesentlichen kommen – der geeigneten Software. Unten finden Sie einen – natürlich nicht vollständigen – Überblick über verfügbare Software, deren Modellierungsmöglichkeiten und -grenzen sowie Hinweise zur deren Nutzung

IBM® SPSS® AMOS  

  • Web: http://www-142.ibm.com/software/products/de/de/spss-amos/
  • Aktuelle Version: 20
  • Demoversion: ja – http://www14.software.ibm.com/download/data/web/en_US/trialprograms/G556357A25118V85.html
  • Kostenpflichtig: ja

IBM SPSS AMOS (entwickelt von J. L. Arbuckle) verfügte bereits sehr früh über ein grafisches Interface, um Strukturgleichungsmodelle umsetzen zu können. Eine nicht grafische Modellerstellung ist aber auch möglich. Dies begünstigt insbesondere bei Anfängern Verstehens- und Lernprozesse. Das Softwarepaket ist mit allen notwendigen Verfahren ausgestattet (Bootstrapping, Bayes, Imputationsmodul etc.). Insbesondere können auch Gruppen- und Modellvergleiche einfach umgesetzt und evaluiert werden. Ein Nachteil sind jedoch fehlende Schätzer wie Santorra-Bentler etc. Zahlreiche Bücher beschäftigen sich mit der Umsetzung von Strukturgleichungsmodellen mit IBM SPSS AMOS, eine Vielzahl an Tutorials ist online frei verfügbar. Die Software ist gut geeignet für Anfänger, aber auch für Fortgeschrittene, die komplexere Modelle umsetzen wollen. Ein riesiger Vorteil von AMOs ist sicher die (fast nahtlose) Verzahnung mit IBM SPSS Statistics. Auch dies erleichtert Anfängern den Einstieg. Weiter sind AMOS und SPSS Statistics die an den deutschen Universitäten (noch) am weit verbreitesten Strukturgleichungsmodellierungs- und Statistikpakete.

LISREL®  

  • Web: http://www.ssicentral.com/
  • Aktuelle Version: 8.8
  • Demoversion: ja – http://www.ssicentral.com/lisrel/downloads.html
  • Kostenpflichtig: ja

LISREL ist die eigentlich älteste Strukturgleichungsmodellierungssoftware, entwickelt von Karl Jöreskog, der auch wesentliche Grundlagen für die Entwicklung der Strukturgleichungsmodellierung gelegt hat. Einige Forscher sprechen auch deshalb nicht von Strukturgleichungsmodellansatz, sondern vom LISREL-Ansatz. LISREL ist ein sehr umfangreiches Paket, das zahlreiche Module besitzt (PRELIS, MULTILEV, SURVEYGLIM, MAPGLIM, CATFIRM, CONFIRM etc.). Dadurch sind sehr viele unterschiedliche Methoden umsetzbar (Gruppen- und Modellvergleiche, Multilevelanalysen, latente Wachstumsmodelle etc.). Zahlreiche Bücher und Artikel beschäftigen sich mit der Umsetzung von Strukturgleichungsmodellen in LISREL. Eine Vielzahl an Tutorials ist online frei verfügbar.Die Software kann als anspruchsvoller bezeichnet werden und ist für Anfänger nicht direkt geeignet.

EQS®

  • Web: http://www.mvsoft.com/
  • Aktuelle Version: 6.1
  • Demoversion: ja – http://www.mvsoft.com/demos.htm
  • Kostenpflichtig: ja

EQS ist von Peter Bentler entwickelt worden. Bentler ist auch einer der aktivsten Forscher im Bereich der Strukturgleichungsmodelle und publiziert regelmäßig in den einschlägigen Fachjournalen. Die Software EQS enthält damit auch fast alle State-of-the-Art Verfahren der Strukturgleichungsmodellierung. Einige Bücher beschäftigen sich mit der Umsetzung von Strukturgleichungsmodellen mit EQS. Weit verbreiteter
ist aber Syntax zur Umsetzung von Modellen in wissenschaftlichen Artikeln. EQS besitzt kein grafisches Interface zur Umsetzung von Modellen. Die Software kann als Anspruchsvoller bezeichnet werden und ist für Anfänger nicht direkt geeignet.

MPlus®

  • Web: http://www.statmodel.com/
  • Aktuelle Version: 6.11
  • Demoversion: ja – http://www.statmodel.com/demo.shtml
  • Kostenpflichtig: ja

Mplus, entwickelt von von Muthén und Muthén, ist sicher aktuell die angesagteste Software zur Modellierung von Strukturgleichungsmodellen und verwandten Techniken. Mplus hat eine vitale Community, im Forum auf der Mplus-Webseite sind die Entwickler sehr aktiv und beantworten schnell alle Fragen. Auch B. Muthén publiziert in den einschlägigen Fachjournalen, die meisten Publikationen können zudem frei von der Mplus-Webseite heruntergeladen werden. Um die Software nutzen zu können, sollte ein sicheres Wissen über die Grundlagen der Strukturgleichungsmodellierung vorliegen und bereits Erfahrung in der Umsetzung bestehen. Die Software bietet die Möglichkeit, fast alle aktuellen Modelle umsetzen zu können und bietet auch neue Modelle, wie die explorative SEM (Exploratory Structural Equation Modeling, kurz ESE). Mplus wird als Basisversion ausgeliefert, sollen Multilevelanalysen oder Mixture Modelle umgesetzt werden, so müssen zwei Add-Ons zugekauft werden. Aktuell existieren nur wenige grundlegende Bücher zu Mplus, die Situation verbessert sich langsam aber koninuierlich. Zahlreiche Tutorials lassen sich auch frei im Netz finden.

Stata® 12

  • Web: http://www.stata.com/stata12/
  • Aktuelle Version: 12
  • Demoversion: ja
  • Kostenpflichtig: ja

Stata ist keine reine Software zur Modellierung von Strukturgleichungen und verwandten Techniken, wie die bisher aufgeführten Pakete. Vielmehr stellt Stata ein vollwertiges Statistikpaket dar, das sich in der Wissenschaft einer immer größer  werdenden Beliebtheit erfreut und eine wachsende und aktive Community besitzt. In der aktuell veröffentlichen Version 12 ist eine der großen Neuerungen die Integration von Strukturgleichungsmodelltechniken (siehe auch im Web: http://www.stata.com/stata12/structural-equation-modeling/). Es wurde sogar ein grafisches Interface zur Modellierung implementiert, dessen Fähigkeiten aber auch hinter denen von IBM SPSS AMOS zurückbleiben. Ansonsten werden die meisten üblichen Techniken der Strukturgleichungsmodellierung unterstützt. Da es sich um die erste Implementierung handelt, werden zukünftige Stata Versionen sicherlich einige interessante Neuerungen bieten. Auch für Anfänger geeignet, jedoch muss zuerst die Bedienung von Stata erlernt werden. Dazu steht aber Literatur bereit und es lassen sich auch zahlreiche Tutorials etc. frei im Netz finden.

Stata® mit GLLAMM

  • web: http://www.gllamm.org/ (bezieht sich auf GLLAMM)
  • Aktuelle Version: NA (bezieht sich auf GLLAMM)
  • Demoversion: nein (bezieht sich auf GLLAMM)
  • Kostenpflichtig: nein (bezieht sich auf GLLAMM)

Ein sehr mächtiges Paket stellt das von Rabe-Hesketh, Skrondal und Pickles entwickelte freie Modul für Stata mit dem Namen GLLAMM dar. GLAMM steht Generalized Linear Latent AND Mixed Models. Das Modul hat aber nichts mit dem ab Version 12 (siehe Beschreibung oben) in Stata direkt implementierten Strukturgleichungsmodellierungsfähigkeiten zu tun. GLLAMM ist so auch mit älteren Stata Versionen benutzbar (aktuell ab Version 7). Ein grafisches Interface existiert nicht, zudem erfordert die Umsetzung von Modellen in GLLAMM fundiertes Wissen über Strukturgleichungsmodellierung, die Nutzung kann also nur erfahrenen Anwendern empfohlen werden. Auf der Webseite findet sich eine ausführliche Dokumentation. Es existiert auch ein Buch zu GLLAMM von den Softwareentwicklern.

==
Hinweis: Einen Überblick über Möglichkeiten der Strukturgleichungsmodellierung in R bietet ein Task View: http://cran.r-project.org/web/views/Psychometrics.html
Hier gibt es den Eintrag Structural Equation Models, Factor Analysis, PCA. Der Task View stellt sicher eine Möglichkeit dar, sich einen Überblick zu verschaffen.

==

R mit OpenMx

  • Web: http://openmx.psyc.virginia.edu/ (bezieht sich auf OpenMx)
  • Aktuelle Version: 1.1 (bezieht sich auf OpenMx)
  • Demoversion: nein (bezieht sich auf OpenMx)
  • Kostenpflichtig: nein (bezieht sich auf OpenMx)

OpenMx stellt ein frei verfügbares Paket für die Statistiksoftware R dar. OpenMx ist eine Weiterentwicklung von Mx® (Web: http://www.vcu.edu/mx/). OpenMx stellt ein sehr mächtiges Modellierungstool dar, das sowohl eine Modellierung über Path Model Specification als auch durch eine Matrix Model Specification erlaubt. Ein grafisches Interface zur Umsetzung ist aktuell nicht implemtiert, soll aber noch entwickelt werden. OpenMx ist eine frei Software, so dass viele Forscher an der Software arbeiten, diese testen und fortentwickeln können. So hat OpenMx das Potential,  insbesondere in Verbindung mit den Mögklichkeiten der freien Software R, die mächtigste Software im Strukturgleichungsmodellierungsbereich zu werden. Aktuell ist die Software aber nur etwas für sehr fortgeschrittene Nutzer, die ein fundiertes Wissen über Strukturgleichungsmodellierung und die Bedienung von R besitzen. Es existiert eine Dokumentation auf der Webseite, im Netz ist noch relativ wenig an Tutorials etc. vorhanden.

R mit sem

  • Web: http://socserv.mcmaster.ca/jfox/Misc/sem/index.html (bezieht sich auf sem)
  • Aktuelle Version: NA (bezieht sich auf sem)
  • Demoversion: nein (bezieht sich auf sem)
  • Kostenpflichtig: nein (bezieht sich auf sem)

sem ist eine Entwicklung von J. Fox und stellt ebenefalls ein frei verfügbares Paket für die Statistiksopftware R dar. sem ist das dienstälteste Paket zur Umsetzung von Strukturgleichungsmodellen in R und eignet sich auch eher für didaktische Zwecke, obwohl das Paket auch grundlegende Techniken zur Umsetzung von Strukturgleichungsmodellen bietet. Ein großer Pluspunkt ist auch die Möglichkeit, die erstellten Modelle grafisch ausgeben zu lassen. Es existieren auch einige Erweiterungen für das Paket bzw. andere Pakete beziehen Möglichkeiten von sem ein. Eine einfachere Umsetzung bietet aber sich das im Folgenden beschriebene Paket lavaan.

R mit lavaan

  • Web: http://lavaan.ugent.be/
  • Aktuelle Version: 0.4-9 (bezieht sich lavaan)
  • Demoversion: nein (bezieht sich lavaan)
  • Kostenpflichtig: nein (bezieht sich lavaan)

lavaan (latent variable analysis) ist das dritte Paket zur Umsetzung von Strukturgleichungsmodellen in R. Die Entwicklung wird von Yves Rosseel und anderen vorangetrieben. lavaan lehnt sich in der Programmierung an die Syntax von Mplus an. Mplus Usern dürfte der Umstieg auf lavaan somit nicht schwer fallen. In R stellt lavaan auch das am einfachsten zu erlernende Strukturgleichungsmodellpaket dar. Aktuell sind bereits neben den üblichen grundlegenden Techniken Gruppen- und Modellvergleiche implementiert. Es stehen auch Santorra-Bentler (MLM) und ein robuster (MLR) Schätzer zur Verfügung. Für Einsteiger, die mit R arbeiten möchten, kann dies am optimalsten mit lavaan gelingen. Auf der Webseite steht eine Dokumentation zur Verfügung.

SAS mit Proc Calis
JMP

Weitere Strukturgleichungsmodellsoftwarepakete sind SAS mit Proc Calis und JMP. Beide Pakete konnte ich nicht testen und möchte diese deshalb hier nicht beschreiben. Nicht unerwähnt bleiben soll aber, dass JMP in der aktuellen Version 9 eine grafische Oberfläche zur Umsetzung von Strukturgleichungsmodellen zu bieten scheint.

Fazit

Anfängern ist zur Erlernung der theoretischen Grundlagen und deren Umsetzung angeraten, ein Tool mit grafischem Interface zu nutzen. Das aktuell beste grafische Interface weist weiterhin SPSS AMOS von IBM auf. Der Nachteil ist, dass AMOS nicht kostenfrei ist, jedoch sollten Universitätsangehörige (Studenten, Dozenten etc.) prüfen, ob es eine Campus-Version gibt.

Soll R genutzt werden, bietet sich insbesondere das Paket lavaan für einen schnellen Einstieg an. Es sollte aber auch OpenMx im Auge behalten werden, die Verheißungen der Entwickler deuten daraufhin, dass es das nächste SEM-Tool werden kann.

Wird ein Tool genutzt, dass möglichst viel an Analysemöglichkeiten anbietet und auch eine lebendige Community hat, dann ist Mplus ins Auge zu fassen. Hier sind die Möglichkeiten zum Umgang mit nicht-metrischen und/oder nicht-normalverteilten Daten ein großer Pluspunkt, ebenso wie die Unterstützung multipler Imputationsverfahren, Bootstrapping und Bayesianische Verfahren.

Auch die anderen Pakete weisen ihre Vorteile auf und sollten vor einer möglichen Anschaffung geprüft werden.

Ausblick Oktober 2011

Einfluss von Moderatoren in MIMIC-Modellen

The General Linear Model – Part 1: Simple Linear Regression

The simple linear regression, t-Test, analysis of variance etc. are all cases of the general linear model (be aware that this is not the same as the generalized linear model – we will discuss this later). “General linear model relatives” are helpful if one wants to investigate the possible relationship between two variables. One variable is the independent, the other the dependent.

Formula for simple linear regression: y = ax + b + error
x is the independent variable and y is the dependent variable, a and b are the constant (or intercept) and the slope.

x is a variable that can take any possible value. The geometric representation of this model is a straight line, described by a and b.

Now lets conduct a simple linear regression in R using the lm()-function.

Simple linear regression in R:

Generate dataset:
x <- c(12, 12, 9, 10, 11, 8, 10, 10, 10, 25)
y <- c(60000, 73750, 48000, 55000, 53125, 78125, 46000, 45250, 56550, 82500)

Always plot data first (scatterplot):
plot(x, y)

Run simple linear regression in R:
m1 <- lm(y ~ x)

Results:
summary(m1)

The constant is 41,076.3 and the slope is 1,602.9. If x increases 1 unit, y increases 1,602.9 units.

One can draw easily the regression line in R:
abline(m1)

Next, we should check for outliers, do some diagnostics etc. etc.