Modelarea ecuațiilor structurale sau modelarea prin ecuații structurale sau modelarea prin ecuații structurale (în engleză structural equation modeling sau SEM) desemnează un set divers de modele matematice, algoritmi computerizați și metode statistice care fac ca o rețea de concepte să corespundă datelor. Vorbim apoi de modele care folosesc ecuații structurale, sau de modele care utilizează ecuații structurale sau chiar modele de ecuații structurale.
SEM este adesea util în științele sociale, deoarece permite analiza relațiilor dintre variabilele observate și variabilele neobservate ( variabile latente ). Diferite metode de modelare a ecuațiilor structurale au fost utilizate în știință, afaceri, educație și alte domenii.
Modelarea prin ecuații structurale sau modelarea prin ecuații structurale sau modele de ecuații structurale sau modele prin ecuații structurale, termenii folosiți în prezent în sociologie, psihologie și alte științe sociale au evoluat din metodele de cale genetică . Modelare de Sewall Wright . Formele moderne au fost posibile prin implementările semnificative ale computerelor implementate în anii 1960 și 1970. SEM a evoluat pe trei căi diferite:
O mare parte din această evoluție a avut loc într - un moment în care calculele au fost automatizate, înlocuind utilizarea calculatorului și a metodelor de calcul analogice, ele insele produse din inovațiile la sfârșitul XIX - lea secol.
Cele două programe LISREL și PLS-PA au fost concepute ca algoritmi iterativi de computer, cu crearea lor, dorința de a oferi o interfață de introducere a datelor, grafică și o extensie a metodei Wrigth (1921). La începuturile sale, Comisia Cowles a lucrat, de asemenea, la ecuații bazate pe algoritmii lui Koopman și Hood (1953) care se ocupă de economia transportului și de problemele de rutare optime, precum și estimarea probabilității maxime și a calculelor algebrice. Închis deoarece cercetările pentru soluții iterative au fost limitate înainte de calculatoare.
Anderson și Rubin (1949, 1950) au dezvoltat un estimator de maximă probabilitate pentru informații limitate, care a inclus indirect două faze ale metodei celor mai mici pătrate (Anderson, 2005; Farebrother, 1999). Metoda celor mai mici pătrate în doi pași, propusă inițial ca metodă de estimare a parametrilor unei ecuații structurale într-un sistem liniar de ecuații simultane, este introdusă de Theil (1953a, 1953b, 1961) și mai sus sau mai puțin independent de Basmann (1957 ) și Sargan (1958). Dintre aceste metode, metoda celor mai mici pătrate în doi pași a fost de departe cea mai utilizată metodă în anii 1960 și începutul anilor 1970.
Sistemele de ecuații de regresie au fost dezvoltate la Comisia Cowles în anii 1950, folosind modelele de transport ale lui Tjalling Koopmans pentru a le îmbunătăți . Sewall Wright și alți statistici au încercat să promoveze așa-numita metodă de „ analiză a căilor ” la Cowles (pe atunci la Universitatea din Chicago ). La Universitatea din Chicago, statisticienii au identificat multe defecte în metodele de aplicare a acestor analize. Aceste defecte nu au pus probleme majore pentru identificarea genelor de transmisie în contextul lui Wright, dar au făcut problematica metodelor PLS-PA și LISREL în domeniul științelor sociale . Freedman (1987) a rezumat aceste obiecții: „Incapacitatea de a distinge între ipoteze cauzale, implicații statistice și afirmații politice, a fost unul dintre principalele motive pentru suspiciunea și confuzia în jurul metodelor cantitative în știință. Socială” (vezi și răspunsul lui Wold în 1987). Analiza lui Wright nu a fost niciodată urmată pe scară largă de econometristii americani, dar a avut succes în influențarea lui Hermann Wold și a elevului său Karl Jöreskög. Elevul lui Jöreskög, Claes Fornell, a introdus LISREL în Statele Unite.
Progresele în calculatoare au extins aplicarea metodelor de ecuație structurală la seturi de date mari, complexe și nestructurate. Cele mai populare soluții tehnice se încadrează în trei clase de algoritmi:
Pearl îmbogățește SEM-urile aplicându-le modele non-parametrice și propunând interpretări cauzale și contrafactual ale ecuațiilor. De exemplu, excluderea unei variabile din argumentele ecuației înseamnă a spune că variabila dependentă este independentă de modificările variabilei excluse, celelalte argumente fiind menținute constante. SEM-urile neparametrice permit estimarea efectelor totale, directe și indirecte, fără a face vreun angajament față de forma ecuațiilor sau distribuirea termenilor de eroare. Acest lucru îmbogățește analiza medierii către sisteme care au variabile categorice în prezența interacțiunilor neliniare. Bollen și Pearl revizuiesc istoria interpretării cauzale a SEM și de ce a devenit o sursă de confuzie și controversă.
Deși fiecare tehnică SEM este diferită, aspecte comune diferitelor metode SEM sunt prezentate aici.
Două componente principale se disting în SEM: modelul structural vizează evidențierea posibilelor dependențe cauzale între variabilele endogene și exogene; și modelul de măsurare care arată relațiile dintre variabilele latente și indicatorii acestora. Modelele de analiză factorială (fie că sunt exploratorii sau de confirmare) conțin doar partea de măsurare, în timp ce diagramele de trasee structurale conțin doar partea structurală.
Când se specifică modelul rutelor ( căilor ), modelatorul poate provoca două tipuri de relații:
Un modelator specifică adesea un set de modele teoretic plauzibile pentru a evalua dacă modelul propus este cel mai bun dintre seria de modele posibile. Nu trebuie doar să ia în considerare motivele teoretice din spatele construcției modelului, ci trebuie să ia în considerare și numărul de puncte de date și numărul de parametri pe care modelul trebuie să îi estimeze pentru a identifica modelul. Un model identificat este unul în care o anumită valoare a parametrului este suficientă pentru a identifica modelul și nici o altă formulare echivalentă nu poate fi dată de nicio altă valoare de parametru. Un punct de date este o variabilă în care sunt observate scoruri, cum ar fi o variabilă care conține scoruri la o întrebare. Parametrul este valoarea interesului pentru modelator. Poate fi un coeficient de regresie între o variabilă exogenă și una endogenă; poate fi greutatea factorului (coeficient de regresie între un indicator și factorul acestuia). Dacă există mai puține puncte de date decât numărul de parametri estimați, modelul rezultat este „neidentificat”, deoarece există prea puține etaloane pentru a ține cont de toate varianțele modelului. Soluția este de a constrânge una dintre căi la zero, ceea ce înseamnă că nu mai face parte din model.
Estimarea parametrilor se face prin compararea matricelor reale de covarianță care arată relațiile dintre variabile și matricile de covarianță estimate de cel mai bun model. Această comparație este obținută printr-un criteriu de ajustare, calculat pe baza mai multor estimări: estimarea probabilității maxime , estimarea probabilității cvasimaxime, estimarea celor mai mici pătrate ponderate sau a metodelor pentru distribuții asimptotice și distribuții libere. Calculul este realizat de programe SEM specializate.
După ce au estimat un model, analiștii vor să interpreteze modelul. Structurile (sau căile) estimate pot fi tabelate și / sau prezentate grafic sub forma unui model structural iterativ ( model de cale ). Impactul variabilelor este evaluat folosind reguli de urmărire a căilor .
Este important să se examineze potrivirea unui model estimat pentru a determina dacă modelează bine datele. Aceasta este o sarcină de bază în modelarea SEM: stabilirea bazei pentru acceptarea sau respingerea modelelor și, mai general, acceptarea unui model concurent în raport cu altul. Rezultatul programelor SEM include matrici de estimare a relațiilor dintre variabilele din model. Evaluarea bunătății este calcularea cât de asemănătoare sunt datele prezise cu matricile care conțin relațiile dintre datele reale.
În acest scop au fost elaborate teste statistice și indicii de potrivire. Parametrii individuali ai modelului pot fi examinați și în modelul estimat pentru a vedea modul în care modelul propus se potrivește teoriei care guvernează modelul. Majoritatea metodelor de estimare permit efectuarea unei astfel de estimări.
La fel ca în toate statisticile bazate pe testarea ipotezelor , testarea modelului model SEM se bazează pe presupunerea că sunt utilizate datele relevante, corecte și complete. În literatura SEM, discuțiile de potrivire au condus la o varietate de recomandări cu privire la aplicarea precisă a diferitelor potriviri de indici și teste de ipoteză.
Există diferite abordări pentru a evalua potrivirea. Abordările tradiționale pleacă de la ipoteza nulă , favorizând modele parsoniale (cele cu mai puțini parametri liberi). Deoarece diferite măsuri de potrivire captează diferite elemente ale potrivirii modelului, o selecție de diferite măsuri de potrivire ar trebui raportată în rezultate. Bunele practici (aplicarea unui scor de decizie, scoruri limită ) pentru interpretarea măsurilor de potrivire, inclusiv cele enumerate mai jos, fac obiectul multor dezbateri în rândul cercetătorilor SEM.
Unele dintre cele mai utilizate măsuri de ajustare includ:
Pentru fiecare măsură de potrivire, luarea unei decizii cu privire la ceea ce este o potrivire suficient de bună între model și date trebuie să ia în considerare alți factori contextuali: dimensiunea eșantionului, raportul dintre indicatori și factori și complexitatea generală a modelului. De exemplu, eșantioanele foarte mari fac Chi-pătratul prea sensibil și este mai probabil să indice o lipsă de potrivire între model și date.
Este posibil ca modelul să fie necesar să fie modificat pentru a îmbunătăți potrivirea și, astfel, estimarea cea mai probabilă a relațiilor dintre variabile. Multe programe oferă sugestii de schimbare care pot ghida modificările minore. Indicii de modificare indică modificarea lui χ 2 care eliberează parametrii fixați. De obicei, acest lucru are ca rezultat deschiderea unei iterații ( cale ) într-un model care o setează la zero. Modificările care îmbunătățesc potrivirea modelului pot fi raportate ca potențiale modificări care ar putea fi aduse modelului. Modificările aduse unui model sunt schimbări în teorie. Prin urmare, ele trebuie interpretate în raport cu teoria testată sau trebuie recunoscute ca limite ale teoriei. Modificările modelului de măsurare (analiza factorială) reprezintă o indicație că articolele / datele sunt indicatori impuri ai variabilelor latente specificate de teorie.
Modelele nu ar trebui să fie conduse de MI, așa cum a demonstrat Maccallum (1986): „Chiar dacă condițiile sunt favorabile, modelele care rezultă din specificațiile cercetării ar trebui privite cu prudență. "
În timp ce cercetătorii sunt de acord că sunt necesare dimensiuni mari ale eșantionului pentru a furniza suficientă putere statistică și precizie în modelele SEM, nu există un consens general cu privire la metoda adecvată pentru determinarea dimensiunii corecte a eșantionului. În general, factorii care trebuie luați în considerare la determinarea mărimii eșantionului includ numărul de observații pe parametru, numărul de observații necesare pentru efectuarea adecvată a ajustării indicelui și numărul de observații pentru fiecare grad de libertate.
Cercetătorii au propus linii directoare bazate pe studii de simulare a experienței de muncă și formule matematice. Cerințele privind dimensiunea eșantionului pentru a obține un grad specific de semnificație și putere în testarea ipotezelor în SEM sunt similare pentru același model, indiferent de algoritmul (PLS-PA, LISREL sau sisteme de regresie a ecuațiilor) utilizat.
Setul de modele este apoi interpretat astfel încât concluziile să poată fi extrase pe baza celui mai potrivit model.
Trebuie avut întotdeauna grijă când vine vorba de găsirea cauzalității. Termenul de model cauzal ar trebui înțeles ca „un model de presupuneri cauzale” și nu un model care produce concluzii definitive. Colectarea datelor în mai multe momente în timp și configurarea experimentală sau cvasi-experimentală pot ajuta la eliminarea ipotezelor concurente, dar nu este suficientă pentru a elimina pericolele inferenței cauzale. O potrivire bună a unui model compatibil cu o ipoteză cauzală implică invariabil o potrivire la fel de bună pe un model compatibil cu o ipoteză cauzală opusă. Nici un proiect experimental, chiar și cel mai inteligent, nu poate ajuta la distingerea unor astfel de ipoteze rivale, cu excepția experimentelor de intervenție.
Ca în orice știință, replicarea ulterioară și probabil modificarea modelului vor urma descoperirii inițiale.
Mai multe programe software sunt utilizate pentru a procesa datele pentru a estima potrivirea modelelor de ecuații structurale. LISREL, publicat în anii 1970, a fost primul software de acest tip. Alte programe independente includ: Mplus, Mx, EQS, Stata și Onyx open source. De asemenea, extensia Amos a SPSS este dedicată modelării structurale.
Există, de asemenea, mai multe biblioteci pentru mediul statistic R open source . Bibliotecile sem, lava și lavaan pot fi utilizate pentru modele de ecuații structurale. Bibliotecile sparseSEM și regsem oferă proceduri de estimare regularizate (cum ar fi Lasso și Ridge). RAMpath oferă alte specificații ale modelului de rutină și alte caracteristici, dar estimarea parametrilor este furnizată de alte pachete .
Biblioteca OpenMx oferă o versiune open source și îmbunătățită a software-ului Mx.
Cercetătorii consideră că este o bună practică științifică să menționeze întotdeauna software-ul folosit pentru efectuarea analizei SEM, deoarece pot folosi metode ușor diferite.
Conceptul de inteligență umană nu poate fi măsurat direct, deoarece se poate măsura înălțimea sau greutatea unei persoane. Psihologii dezvoltă ipoteza instrumentelor de măsurare a proiectării inteligenței cu elemente (întrebări) concepute pentru a măsura inteligența în conformitate cu ipotezele lor. Apoi folosesc SEM pentru a-și testa ipotezele: într-o analiză SEM, inteligența este o variabilă latentă, iar scorurile testelor sunt variabilele observate.
Figura opusă oferă un model simplificat în care inteligența (măsurată prin patru întrebări) poate prezice performanța academică (măsurată prin testele SAT, ACT și GPA). În diagramele unui SEM, variabilele latente sunt, prin convenție, reprezentate ca ovale și valorile măsurate sau manifestate drept dreptunghiuri. Diagrama arată modul în care eroarea ( e ) influențează fiecare scor, dar nu are nicio influență asupra variabilelor latente. Analiza SEM oferă estimări numerice ale puterii relației dintre fiecare parametru (săgeți). Astfel, analiza SEM nu numai că permite testarea teoriei generale, dar permite și cercetătorului să diagnosticheze dacă variabilele observate sunt indicatori buni ai variabilelor latente.
Criticii metodelor SEM se concentrează cel mai adesea pe formularea matematică, slăbiciunea validității externe a anumitor modele acceptate și prejudecata filozofică inerentă procedurilor standard.
Confuzia terminologică a fost folosită pentru a ascunde punctele slabe ale unor metode. În special, PLS-PA (algoritmul Lohmoller) a fost confundat cu o regresie parțială a celor mai mici pătrate PLSR, care este un substitut pentru regresia celor mai mici pătrate și nu are nimic de-a face cu analiza structurală ( analiza căii ). PLS-PA a fost promovat în mod fals ca o metodă care funcționează cu seturi de date mici. Westland (2010) a invalidat această abordare și a dezvoltat un algoritm pentru a determina dimensiunile eșantionului necesare în SEM. Din anii 1970, afirmațiile privind o posibilă utilizare a probelor mici au fost recunoscute ca eronate (a se vedea, de exemplu, Dhrymes, 1972, 1974; Dhrymes și Erlat, 1972; Dhrymes și colab., 1972; Gupta, 1969; Sobel, 1982) .
Manual de gestionare a scalei, o colecție de scale multipunct utilizate anterior pentru a măsura constructele unui SEM