Thursday, 5 January 2017

Handling Fehlende Daten In Stata Forex

16.1.2 160Allgemeine Grundsätze für den Umgang mit fehlenden Daten Es gibt eine große Literatur über statistische Methoden für den Umgang mit fehlenden Daten. Hier werden kurz einige grundlegende Konzepte und einige allgemeine Empfehlungen für Cochrane Review Autoren. Es ist wichtig zu denken, warum Daten fehlen könnten. Statistiker verwenden oft die Begriffe, die zufällig fehlen und nicht zufällig fehlen, um verschiedene Szenarien darzustellen. Daten werden zufällig fehlen, wenn die Tatsache, dass sie fehlen, nicht mit tatsächlichen Werten der fehlenden Daten in Zusammenhang steht. Zum Beispiel, wenn einige Fragebögen im Lebenszyklus des Postsystems verloren gingen, wäre dies wahrscheinlich nicht mit der Lebensqualität der Versuchspersonen zu tun, die die Formulare vervollständigten. In manchen Fällen unterscheiden die Statistiker zwischen fehlenden Daten zufällig und Daten fehlen vollständig zufällig, obwohl im Rahmen einer systematischen Überprüfung die Unterscheidung unwahrscheinlich ist, wichtig zu sein. Daten, die zufällig fehlen, sind möglicherweise nicht wichtig. Analysen auf der Grundlage der verfügbaren Daten sind tendenziell unvoreingenommen, obwohl sie auf einer kleineren Stichprobengröße basieren als der ursprüngliche Datensatz. Die Daten sollen nicht zufällig fehlen, wenn die Tatsache, dass sie fehlen, mit den tatsächlichen fehlenden Daten zusammenhängt. Zum Beispiel in einem Depressionsprozess, Teilnehmer, die einen Rückfall der Depression hatten, könnten weniger wahrscheinlich, um die endgültige Follow-up-Interview zu sein, und eher zu fehlenden Ergebnisse Daten. Solche Daten sind in dem Sinne nicht ignorierbar, dass eine Analyse der verfügbaren Daten alleine typischerweise voreingenommen ist. Veröffentlichung Bias und selektive Berichterstattung Bias führen per Definition auf Daten, die nicht zufällig fehlen, und Abnahme und Ausgrenzung von Individuen in Studien oft auch. Die wichtigsten Optionen für den Umgang mit fehlenden Daten sind. 1.160160160160160160160Analyse der verfügbaren Daten (dh Ignorieren der fehlenden Daten) 2.160160160160160160160imputieren die fehlenden Daten mit Ersatzwerten und Behandlung dieser, als ob sie beobachtet wurden (z. B. letzte Beobachtung vortragen, unterstellen ein angenommenes Ergebnis wie Annahme, alle waren schlechte Ergebnisse, imputing Der Mittelwert, die Berechnung auf der Grundlage der vorhergesagten Werte aus einer Regressionsanalyse) 3.160160160160160160160Eingabe der fehlenden Daten und Berücksichtigung der Tatsache, dass diese mit Unsicherheit (z. B. Mehrfachimputation, einfache Imputationsmethoden (als Punkt 2) mit Anpassung an den Standardfehler) berechnet wurden 4.160160160160160160160 Wobei statistische Modelle verwendet werden, um fehlende Daten zuzulassen und Annahmen über ihre Beziehungen zu den verfügbaren Daten zu machen. Option 1 kann geeignet sein, wenn Daten zufällig angenommen werden können. Die Optionen 2 bis 4 sind Versuche, Daten, die nicht zufällig fehlen, zu adressieren. Option 2 ist praktisch in den meisten Fällen und sehr häufig in systematischen Überprüfungen verwendet. Es scheitert jedoch an Unsicherheit in den unterstellten Werten und Ergebnissen, typischerweise in zu engen Konfidenzintervallen. Die Optionen 3 und 4 erfordern die Beteiligung eines sachkundigen Statistikers. Vier allgemeine Empfehlungen für den Umgang mit fehlenden Daten in Cochrane Bewertungen sind wie folgt. Wenden Sie sich nach Möglichkeit an die ursprünglichen Ermittler, um fehlende Daten anzufordern. Machen Sie explizit die Annahmen der Methoden, die verwendet werden, um mit fehlenden Daten zu bewältigen: zB, dass die Daten vermutlich zufällig fehlen oder dass fehlende Werte mit einem bestimmten Wert wie einem schlechten Ergebnis angenommen wurden. Führen Sie Sensitivitätsanalysen durch, um zu ermitteln, wie empfindliche Ergebnisse zu vernünftigen Änderungen der getroffenen Annahmen führen (siehe Kapitel 9, Abschnitt 9.7). Adressieren Sie die potenziellen Auswirkungen der fehlenden Daten auf die Ergebnisse der Überprüfung in der Diskussion Abschnitt. Willkommen für das Institut für digitale Forschung und Bildung STATA Learning-Modul Fehlende Daten 1. Einleitung Dieses Modul untersucht fehlende Daten in STATA, die sich auf numerische fehlende Daten. Es wird beschrieben, wie fehlende Daten in Ihren Rohdaten-Dateien angezeigt werden, sowie wie fehlende Daten in STATA logischen Befehlen und Zuweisungsanweisungen behandelt werden. Wir veranschaulichen einige der fehlenden Dateneigenschaften in STATA anhand von Daten aus einer Reaktionszeitstudie mit acht Probanden, die durch die Variable id angegeben sind. Und die Reaktionszeit der Versuchspersonen wurde zu drei Zeitpunkten gemessen (Versuch1 Versuch2 Versuch3). Die Eingabedatei wird unten angezeigt. Sie können feststellen, dass einige der Reaktionszeiten mit einem einzigen codiert sind. Wie dies bei dem Thema 2 der Fall ist. Die Person, die die Zeit für diesen Versuch mißt, mißt die Antwortzeit nicht richtig, daher fehlen die Daten für den zweiten Versuch. 2. Wie STATA fehlende Daten in STATA-Prozeduren verarbeitet STATA-Befehle, die Berechnungen jeglicher Art durchführen, fehlen fehlende Daten, indem sie die fehlenden Werte auslassen. Allerdings ist die Art und Weise, dass fehlende Werte ausgelassen werden, nicht immer konsistent über Befehle, so let39s einen Blick auf einige Beispiele. Erste, let39s fassen unsere Reaktionszeitvariablen zusammen und sehen, wie STATA die fehlenden Werte behandelt. Wie Sie in der folgenden Ausgabe sehen, fassen Sie die Berechnungsmethode mit 4 Beobachtungen für Trial1 und Trial2 und 6 Beobachtungen für Trial3 zusammen. Kurz gesagt, führte der Befehl summarise die Berechnungen auf allen verfügbaren Daten durch. Ein zweites Beispiel zeigt, wie der Befehl tabulation oder tab1 fehlende Daten verarbeitet. Wie zusammengefasst, verwendet tab1 nur verfügbare Daten. Beachten Sie, dass die Prozentangaben auf der Grundlage der Gesamtzahl der nicht fehlenden Fälle berechnet werden. Es ist möglich, dass die Prozentwerte aus der Gesamtzahl der Beobachtungen berechnet werden sollen und der Prozentsatz für jede in der Tabelle angezeigte Variable fehlt. Dies kann durch die fehlende Option nach der Tabellierung erreicht werden. Befehlen Let39s, wie der korrelierte Befehl fehlende Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf der Grundlage der verfügbaren Daten durchführen würde, und lassen Sie die fehlenden Werte. Hier ist ein Beispiel-Befehl. Die Ausgabe ist unten. Beachten Sie, wie die fehlenden Werte ausgeschlossen wurden. Stata führt Listenlöschung und nur Anzeige Korrelation für Beobachtungen, die nicht fehlende Werte auf alle Variablen aufgeführt. Stata ermöglicht auch paarweises Löschen. Korrelationen werden für die Beobachtungen mit nicht fehlenden Werten für jedes Paar von Variablen angezeigt. Dies kann mit dem Befehl pwcorr geschehen. Wir verwenden die obs-Option, um die Anzahl der Beobachtungen, die für jedes Paar verwendet werden, anzuzeigen, wie Sie sehen können, unterscheiden sie sich je nach Menge an fehlenden. 3. Zusammenfassung der fehlenden Werte in STATA-Prozeduren zusammengefasst Für jede Variable wird die Anzahl der nicht fehlenden Werte verwendet. Tabelle Standardmäßig werden fehlende Werte ausgeschlossen und Prozentsätze auf der Anzahl der nicht fehlenden Werte basieren. Wenn Sie die fehlende Option auf dem Tab-Befehl verwenden, basieren die Prozentsätze auf der Gesamtzahl der Beobachtungen (nicht fehlende und fehlende) und der Prozentwert fehlender Werte in der Tabelle. Corr Standardmäßig werden Korrelationen basierend auf der Anzahl der Paare mit nicht fehlenden Daten (paarweises Löschen von fehlenden Daten) berechnet. Mit dem Befehl pwcorr kann angefordert werden, dass Korrelationen nur für Beobachtungen berechnet werden, für die nach dem Befehl pwcorr nicht alle fehlenden Daten vorhanden sind (löschbare Löschung fehlender Daten). Reg Wenn irgendeine der nach dem Befehl reg aufgeführten Variablen fehlt, werden die Beobachtungen, die diesen Wert (e) fehlen, von der Analyse ausgeschlossen (d. h. listwise Löschen von fehlenden Daten). Weitere Informationen finden Sie im STATA-Handbuch, um zu erfahren, wie fehlende Daten behandelt werden. 4. Fehlende Werte in Zuweisungsanweisungen Es ist wichtig zu verstehen, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Betrachten Sie das unten gezeigte Beispiel. Der folgende Befehl zeigt, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable sum1 basiert auf den Variablen trial1 trial2 und trial3. Wenn eine dieser Variablen fehlte, wurde der Wert für sum1 auf fehl gesetzt. Daher fehlt sum1 für die Beobachtungen 2, 3 und 4, wie dies bei Beobachtung 7 der Fall ist. In der Regel ergeben Berechnungen mit fehlenden Werten fehlende Werte. Beispielsweise ergibt 2 2 4 2. Ausbeuten. 2 2 ergibt 1. 2 ergibt. 2 3 ergibt 6 2. Ausbeuten. Wenn Sie addieren, subtrahieren, multiplizieren, dividieren usw. Werte, die fehlende Daten beinhalten, fehlt das Ergebnis. In unserem Reaktionszeitversuch fehlt die Gesamtreaktionszeit sum1 für vier von sieben Fällen. Wir könnten versuchen, die Daten für die nicht fehlenden Versuche zu summieren, indem wir die rowtotal-Funktion verwenden, wie im folgenden Beispiel gezeigt. Die Ergebnisse zeigen, dass sum2 nun die Summe der nicht fehlenden Studien enthält. Beachten Sie, dass die rowtotal-Funktion fehlt als Nullwert behandelt. Beim Summieren mehrerer Variablen ist es möglicherweise nicht sinnvoll, fehlende Werte als Null zu behandeln, wenn keine Beobachtungen für alle zu summierenden Variablen vorliegen. Die rowtotal-Funktion mit der fehlenden Option gibt einen fehlenden Wert zurück, wenn eine Beobachtung für alle Variablen fehlt. Andere Aussagen funktionieren ähnlich. Zum Beispiel beobachtet, was passiert, wenn wir versuchen, eine durchschnittliche Variable ohne Verwendung einer Funktion zu erstellen (wie im Beispiel unten). Wenn keine der Variablen trial1, trial2 oder trial3 fehlen, wird der Wert für avg1 auf fehlen gesetzt. Alternativ berechnet die rowmean-Funktion die Daten für die nicht fehlenden Tests auf dieselbe Weise wie die rowtotale Funktion. Anmerkung: Gab es eine große Anzahl von Versuchen, sagen 50 Versuche, dann wäre es lästig zu haben, um avgrowmean (trial1 trial2 trial3 trial4.). Hier ist eine Verknüpfung, die Sie in dieser Situation verwenden können: Schließlich können Sie die Funktionen rowmiss und rownomiss verwenden, um die Anzahl der fehlenden und die Anzahl der nicht fehlenden Werte in einer Liste von Variablen zu bestimmen. Dies ist unten dargestellt. Für variable nomiss. Die Beobachtungen 1, 5 und 6 hatten drei gültige Werte, die Beobachtungen 2 und 3 hatten zwei gültige Werte, die Beobachtung 4 hatte nur einen gültigen Wert und die Beobachtung 7 keine gültigen Werte. Die Variable Miss zeigt das Gegenteil, es bietet eine Zählung der Anzahl der fehlenden Werte. 5. Fehlende Werte in logischen Anweisungen Es ist wichtig zu verstehen, wie fehlende Werte in logischen Anweisungen behandelt werden. Sagen Sie beispielsweise, dass Sie eine 01-Variable für trial1 erstellen möchten, die 1 ist, wenn sie 1,5 oder weniger ist, und 0, wenn sie über 1,5 liegt. Wir zeigen diese unten (falsch, wie Sie sehen werden). Es scheint, dass etwas schief ging mit unserer neu erstellten Variablen newvar1. Den Beobachtungen mit fehlenden Werten für trial2 wurde für newvar1 eine Nullstelle zugewiesen. Let39s erforschen, warum dieses geschah, indem man die Frequenztabelle von Versuch2 betrachtete. Wie Sie in der Ausgabe sehen können, werden fehlende Werte nach dem höchsten Wert 2.1 aufgelistet. Dies liegt daran, dass STATA einen fehlenden Wert als größtmöglichen Wert (zB positive Unendlichkeit) behandelt und dieser Wert größer als 2.1 ist, also die Werte für Newvar1 zu 0. Nun, da wir verstehen, wie STATA fehlende Werte behandelt, werden wir fehlende Werte explizit ausschließen, um sicherzustellen, dass sie korrekt behandelt werden, wie unten gezeigt. Wie Sie im nachfolgenden STATA-Ausgang sehen können, hat die neue Variable newvar2 fehlende Werte für Beobachtungen, die auch für trial2 fehlen. 6. Fehlende Werte in logischen Anweisungen Beim Erstellen oder Umkodieren von Variablen, die fehlende Werte beinhalten, achten Sie stets darauf, ob die Variable fehlende Werte enthält. 7. Für weitere Informationen Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden.


No comments:

Post a Comment