16 1 2 Allmänna principer för hantering av saknade data. Det finns en stor litteratur om statistiska metoder för att hantera saknade data. Här granskar vi kortfattat några nyckelkoncept och gör några allmänna rekommendationer för Cochrane review authors. Det är viktigt att tänka varför data kan saknas Statistiker brukar använda villkoren slumpmässigt och missa inte slumpmässigt för att representera olika scenarier. Data saknas slumpmässigt om det faktum att de saknas är inte relaterat till de faktiska värdena för den saknade data. Till exempel om någon kvalitet Livslängdes frågeformulär förlorades i postsystemet, skulle det här troligen inte vara relaterat till livskvaliteten hos de försöksdeltagare som fyllde formulärerna. Under vissa omständigheter skiljer statistikerna mellan data som saknas slumpmässigt och data saknas helt slumpmässigt, även om Sammanhanget med en systematisk granskning är skillnaden osannolikt att vara viktig. Data som saknas slumpmässigt kan inte vara viktiga. Analyser baserade på På tillgängliga data tenderar det att vara opartiskt, även om det baseras på en mindre samplingsstorlek än den ursprungliga datamängden. Data sägs inte missa slumpmässigt om det faktum att de saknas är relaterat till den faktiska saknade data En försöksförsök kunde deltagare som hade ett återfall av depression vara mindre benägna att delta i den slutgiltiga uppföljningsintervjuen och mer sannolikt att de saknade resultatdata. Sådana uppgifter är otänkbara i den meningen att en analys av tillgängliga data ensam kommer att Typiskt fördjupad Publiceringsbias och selektiv rapporteringsbias leder per definition till data som inte saknas slumpmässigt och slitning och uteslutningar av individer inom studier gör ofta också. De viktigaste alternativen för att hantera saknade data är.1 analyserar endast tillgängliga data Dvs ignorerar de data som saknas.2 som anger de saknade uppgifterna med ersättningsvärden och behandlar dessa som om de observerades, t. ex. senast iakttagits, vilket medför ett antaget resultat Som antagit alla var dåliga resultat, vilket medförde medelvärdet, imputing baserat på förutspådda värden från en regressionsanalys.3 tillskrivande de saknade data och redovisning för det faktum att dessa infördes med osäkerhet, t. ex. multipel imputation, enkla imputationeringsmetoder som punkt 2 med anpassning till Standardfelet.4 använder statistiska modeller för att tillåta saknade data och antaganden om deras relationer med tillgängliga data. Antag 1 kan vara lämpligt när data kan antas missa slumpmässigt Alternativ 2 till 4 försök att adressera data saknas Slumpmässigt Alternativ 2 är praktisk under de flesta omständigheter och används vanligtvis i systematiska recensioner. Det misslyckas med att erkänna osäkerhet i de påförda värdena och resultaten, vanligtvis i förtroendeintervall som är för smala. Alternativ 3 och 4 skulle kräva att en kunnig statistiker involveras. För allmänna rekommendationer för att hantera saknade data i Cochrane recensioner är följande: När det är möjligt, kontakta De ursprungliga undersökarna begär att de saknar data. Ta uttryckligen antagandena om metoder som används för att hantera saknade data, till exempel att uppgifterna antas missa slumpmässigt, eller att saknade värden antas ha ett särskilt värde, såsom ett dåligt resultat. Utför känslighetsanalyser för att bedöma hur känsliga resultat är för rimliga förändringar i antagandena som görs, se Kapitel 9, avsnitt 9 7.Address den potentiella effekten av saknade data på resultaten av översynen i diskussionsavsnittet. Multiplikation i Stata Imputing. Detta är del fyra av Multiple Imputation i Stata-serien För en lista över ämnen som omfattas av denna serie, se Introduktionen. Det här avsnittet talar om dig genom detaljerna i imputationsprocessen. Se till att du har läst åtminstone föregående avsnitt, Skapa imputation Modeller så att du har en känsla av vilka problem som kan påverka giltigheten av dina resultat. Exempel på data. För att illustrera processen använder vi en tillverkad dataset till skillnad från de i E exemplar sektionen är denna datasats utformad för att ha viss likhet med den verkliga världen data. female binär. race kategorisk, tre värden. urban binary. edu beställde kategorisk, fyra värden. exp continuous. wage kontinuerlig. Missning Varje värde av alla variabler Förutom att kvinnan har 10 chans att missa helt slumpmässigt men naturligtvis i den verkliga världen vann vi inte vet att det är MCAR i förväg Således kommer vi att kontrollera om det är MCAR eller MAR MNAR inte kan kontrolleras genom att titta på det observerade Data med hjälp av proceduren som beskrivs i Besluta att Impute. unab numvars unab missvars urban-loon misstable sum, gen miss. foreach var lokal missvars lokala covars lista numvars - var display newline 3 logit misslyckande var på covars logit miss var covars foreach nvar av Lokala covars visar newline 3 ttest av nvar genom misslyckande av var ttest nvar, av miss var. See loggfilen för results. Our mål är att regressa löner på sex, ras, utbildningsnivå och erfarenhet. För att se rätt svar, öppna th E gör fil som skapar dataset och undersöker genkommandot som definierar wageplete-kod för imputationsprocessen kan hittas i följande fil. Imputationsprocessen skapar mycket resultat Vi lägger höjdpunkter på den här sidan, men en komplett Loggfilen inklusive de associerade graferna finns här. Varje del av denna artikel kommer att ha länkar till den relevanta delen av loggen. Klicka tillbaka i webbläsaren för att återvända till den här sidan. Det första steget i att använda mi-kommandon är att du anger dina data Det här liknar något svyset tsset eller xtset Kommandot mi set anger Stata hur det ska lagra de extra imputationerna du skapar. Vi föreslår att du använder det breda formatet, eftersom det är lite snabbare. Å andra sidan använder mlong lite mindre minne. För att ha Stata använder den breda datastrukturen, typ. Till att Stata använder den marginal långa långa datastrukturen, typ. Den breda vs lång terminologi lånas från omformning och strukturerna är likartade. De är emellertid inte ekvivalenta och du vill D använd aldrig omforma för att ändra datastrukturen som används av mi I stället skriver du mi konvertera bred eller mi konvertera mlong lägg till, ta bort om data inte har sparats sedan senaste ändringen. Mest av tiden behöver du inte oroa dig för hur Imputationer lagras mi kommandon räkna ut automatiskt hur man applicerar vad du än gör för varje imputation Men om du behöver manipulera uppgifterna på ett sätt som jag inte kan göra för dig så behöver du lära dig mer om detaljerna i strukturen du är Användning Du måste också vara mycket, mycket försiktig Om du är intresserad av sådana saker, inklusive de sällan använda flong - och flongsepformaten, kör den här filen och läs de kommentarer som den innehåller när du granskar datasläsaren för att se hur uppgifterna ser ut i varje Form. Registering Variables. The mi-kommandon identifierar tre typer av variabler. Imputerade variabler är variabler som mi är att ålägga eller har imputed. Regular variabler är variabler som mi inte ska åläggas, antingen genom val eller eftersom de saknar någon värdering Es. Passiva variabler är variabler som helt bestäms av andra variabler. Till exempel bestäms löneavlönen av lönen, eller en indikator för fetma kan bestämmas av en funktion av vikt och höjd. Interaktionsvillkor är också passiva variabler, men om du använder Stata S interaktionssyntax du vann t måste förklara dem som sådan Passiva variabler är ofta problematiska. Exemplen på transformationer är icke-linjäritet och interaktioner visar hur man använder dem olämpligt kan leda till förutspatta estimat. Om en passiv variabel bestäms av vanliga variabler, då kan det Behandlas som en vanlig variabel eftersom ingen imputering behövs Passiva variabler behöver bara behandlas som sådana om de beror på tillförda variabler. Registrering av en variabel berättar Stata vilken typ av variabel det är. Importerade variabler måste alltid registreras. mi registrera imputed varlist. Var varlist bör ersättas med den faktiska listan över variabler som ska tillskrivas. Regelvariabler behöver ofta inte registreras, men Det är en bra idé. mi registrera regelbundna varlist. Passive variabler måste registreras. mi registrera passiv varlist. Men passivvariabler skapas oftare efter imputing Gör så med mi passiv och de ska bli registrerade som passiva automatiskt. I vårt exempel data, Alla variabler utom kvinnlig måste tillskrivas Det lämpliga mi-registerkommandot är. mi registrera imputed race-lön. Observera att du inte kan använda som varlist, även om du måste ålägga alla dina variabler, eftersom det skulle inkludera de systemvariabler som läggs till av mi för att hålla reda på imputationsstrukturen. Registrering av kvinnlig som vanlig är valfri, men en bra idé. Registrera vanliga kvinnliga. Kontrollera imputationsmodellen. Baserad på typerna av variablerna är de uppenbara imputationsmetoderna. race kategoriska, tre värden mlogit. urban binära logit. edu beställde kategoriska, fyra värden ologit. exp kontinuerlig regress. wage kontinuerlig regress. Kvinnan behöver inte tillskrivas men bör ingå i imputationsmodellerna, både för att den ligger i analysmodellen och för att den är sannolikt relevant. Innan vi fortsätter att imputera, kommer vi att kontrollera varje imputationmodell. Kör alltid var och en av dina Imputationsmodellerna individuellt, utanför det mi-kedjiga sammanhanget, för att se om de konvergerar och så långt det är möjligt verifiera att de anges korrekt. Kod att köra var och en av dessa modeller is. mlogit r Ace exp lage logit urban exp lage ologit edu exp lön regress exp lage regress löne exp. Note att när kategoriska variabler beställas eller inte visas som covariates jag expanderar dem i uppsättningar av indikatorvariabler. Som vi ses senare, Kedjat kommandot inkluderar kommandon för de enskilda modellerna som körs Således är en användbar genväg, speciellt om du har många variabler att ålägga, att ställa in ditt mi imput chained kommando med dryrun alternativet för att förhindra att det gör någon faktisk imputing, springa Det och sedan kopiera kommandona från utgången till din fil för testning. Konvergensproblem. Det första att notera är att alla dessa modeller kör framgångsrikt. Komplexa modeller som mlogit kan misslyckas att konvergera om du har ett stort antal kategoriska variabler, Eftersom det ofta leder till småcellstorlekar. Ta bort orsaken till problemet genom att ta bort de flesta variablerna, se till att modellen fungerar med vad som finns kvar, och lägg sedan till variabler tillbaka en i taget eller i små Grupper tills det slutar fungera Med vissa experiment bör du kunna identifiera problemvariabeln eller kombinationen av variabler. Då måste du bestämma om du kan kombinera kategorier eller släppa variabler eller göra andra ändringar för att skapa en fungerande modell. Perfekt Prediction. Perfect prediction är ett annat problem att notera. Imputationsprocessen kan inte helt enkelt släppa de perfekt förutspådda observationerna som logit kan Du kan släppa dem innan imputing, men det verkar besegra syftet med multipla imputation Alternativet är att lägga till augment eller bara aug Alternativ till de påverkade metoderna Det här berättar att mäta kedjat för att använda den utvidgade regressionsmetoden, som lägger till falska observationer med mycket låga vikter på ett sådant sätt att de har en försumbar effekt på resultaten men förhindrar perfekt förutsägelse. För detaljer se avsnittet Frågan om Perfekt förutsägelse under imputering av kategoriska data i Stata MI-dokumentationen. Kontrollera för misspecifikation. Du sh Ould försöker också att utvärdera om modellerna är korrekt angivna. En fullständig diskussion om hur man bestämmer om en regressionsmodell är korrekt eller ej ligger långt bortom omfattningen av denna artikel, men använd vad som helst som du tycker är lämplig. Här är några exempel. Residual vs Tillförda värden Plots. For kontinuerliga variabler kan restvärden mot monterade värdesplottor som enkelt gjorts med rvfplot vara användbara flera av exemplen använder dem för att upptäcka problem. Överväg plottet för experience. regress exp lage rvfplot. Notera hur ett antal punkter är grupperade längs en Linjen längst ner till vänster och inga punkter ligger under den. Detta återspeglar begränsningen att erfarenheten inte får vara mindre än noll, vilket innebär att de monterade värdena alltid måste vara större än eller lika med resterna eller alternativt att resterna måste vara större Än eller lika med det negativa av de monterade värdena Om grafen hade samma skala på båda axlarna, skulle begränsningslinjen vara en 45 graders linje om alla punkter var under en si Milarlinjen i stället för ovanför det skulle det säga att det fanns en övre gräns för variabeln i stället för en nedre gräns. Y-avsnitten i begränsningsraden berättar gränsen i båda fallen. Du kan också ha både en nedre gräns och en Övre gränsen, sätter alla punkter i ett band mellan dem. Den uppenbara modellen är att det är olämpligt för erfarenhet eftersom det vann inte tillämpa denna begränsning. Det är också olämpligt för löner av samma anledning Alternativ inkluderar truncreg, ll 0 och pmm vi ska använda Pmm. Adding Interactions. In det här exemplet förefaller det troligt att förhållandet mellan variabler kan variera mellan race, kön och urbana landsbygdsgrupper. Således är det möjligt att lägga till interaktionsvillkor för modellerna och se om de visar sig Vara viktig Exempelvis kommer vi att jämföra den uppenbara modellen. regress exp wage. with en som innehåller interactions. regress exp. We ll köra liknande jämförelser för modellerna för de andra variablerna Detta skapar en hel del Output, så se loggfilen för resultat. Interaktioner mellan kvinnliga och andra variabler är signifikanta i modellerna för expay edu och urban. Det finns några signifikanta växelverkningar mellan race eller urban och andra variabler, men inte så många som möjligt och ihåg att Med dessa många koefficienter vi förväntar oss några falska positiva medel med en signifikansnivå på 05 Vi ska därigenom ålägga män och kvinnor separat Detta är ett särskilt bra alternativ för denna dataset eftersom kvinnan aldrig saknas Om det skulle vi måste släppa dem Observationer som saknas kvinnliga eftersom de inte kunde placeras i en grupp eller den andra. I imputeringskommandot innebär detta att man lägger till det kvinnliga alternativet När man testar modeller betyder det att man startar kommandon med det kvinnliga prefixet och tar bort kvinnan från listorna över Covariater De förbättrade imputationsmodellerna är thus. bysort kvinnlig reg exp lage av kvinnlig logit urban exp lage av kvinnlig mlogit race exp lön av kvinnlig reg lön exp av kvinnliga ologit edu ex P wage. pmm själv kan inte köras utanför imputeringskontexten, men eftersom det är baserat på regression kan du använda regelbunden regression för att testa den. Dessa modeller ska testas igen, men vi kommer att släppa den processen. Den grundläggande syntaksen för mi imput chained Is. mi imput chained method1 varlist1 method2 varlist2 regvars. Each method specificerar metoden som ska användas för att imputera följande varlist Möjligheterna för metod är regress pmm truncreg intreg logit ologit mlogit poisson och nbreg regvars är en lista över vanliga variabler som ska användas som Covariater i imputationsmodellerna men inte beräknade det får inte finnas någon. De grundläggande alternativen är. add N rseed R Savetrace-tracefile ersätt. N är antalet imputeringar som ska läggas till datamängden R är fröet som ska användas för slumpmässigt Talgenerator om du inte anger detta får du lite annorlunda imputationer varje gång kommandot körs. Spårfilen är en dataset där mi imput chained kommer att lagra information om imputationprocessen Vi ll oss E denna dataset för att kontrollera konvergens. Villkor som är relevanta för en viss metod går med metoden, inom parentesen men följer ett kommatex t. ex. mlogit, aug Alternativ som är relevanta för imputationsprocessen som helhet som kvinnlig går i slutet , Efter kommate. Vi vårt exempel skulle kommandot vara. milja med kedjad logit urban mlogit race ologit edu pmm exp loon, lägg till 5 rseed 4409 av kvinnlig. Not att detta inte innehåller en savetrace-möjlighet. Med detta skrivande, av och Savetrace kan inte användas samtidigt, förmodligen eftersom det skulle kräva en spårfil för var och en av grupperna. Stata är medveten om detta problem och vi hoppas att detta kommer att ändras snart. I denna artikel tar vi bort alternativet när det kommer Tid för att illustrera användningen av spårfilen Om det här problemet uppstår i din forskning, prata med oss om arbetslivet. Val av antalet påverkningar. Det finns vissa meningsskiljaktigheter mellan myndigheterna om hur många påståenden som är tillräckliga. Några säger 3-10 i nästan Stata dokumentationen tyder på minst 20, medan White, Royston och Wood hävdar att antalet imputationer borde vara ungefär lika med procentsatsen av fall med saknade värden. Vi är emellertid inte medvetna om något argument att öka antalet Imputations orsakar någonsin problem bara att marginalfördelarna med en annan imputation närmar sig nollvärdet. Att öka antalet imputationer i din analys tar i huvudsak inget arbete från din sida Ändra bara antalet i tilläggsalternativet till något större Å andra sidan kan det vara Mycket arbete för datorn flera imputation har infört många forskare i världen av jobb som tar timmar eller dagar att springa Du kan vanligtvis anta att den tid som krävs kommer att vara proportionell mot antalet imputationer som används t. ex. om en fil gör Två timmar att springa med fem imputationer, kommer det förmodligen att ta ungefär fyra timmar att springa med tio imputationer Så här är vårt förslag. Börja med fem im Putations den låga delen av vad som i stort sett anses vara legitimt. Arbeta på ditt forskningsprojekt tills du är rimligt säker på att du har analysen i sin slutliga form. Var noga med att göra allt med gör filer så att du kan springa igen på viljan. Notera hur länge Processen tar från imputation till slutlig analys. Tänk på hur mycket tid du har tillgång till och bestäm hur många påskott du har råd att köra, med hjälp av tumregeln är den tid som krävs proportionellt mot antalet imputationer. Om möjligt, gör antal imputationer Ungefär lika med procentsatsen av fall med saknade data. En hög slutlig uppskattning av vad som krävs. Tillåt tid att återställa om sakerna ska gå fel, som de vanligtvis gör. Öka antalet påskott i din fil och starta det. Gör något annat medan Filen körs, som att skriva ditt papper. Lägga till imputations shouldn t ändra dina resultat väsentligt och om det osannolika händelsen att de gör, anser dig själv lycklig att ha funnit det innan publicering. Speeding G upp Imputation Process. Multiple imputation har infört många forskare i världen av jobb som tar timmar, dagar eller till och med veckor att springa Vanligtvis är det inte värt att spendera din tid för att göra Stata-koden köra snabbare, men flera imputation kan vara ett undantag. Använd den snabbaste datorn som är tillgänglig för dig För SSCC-medlemmar som innebär att lära sig att köra jobb på Linstat är SSCC: s Linux-databaser Linux inte så svårt som du kanske tror. Använda Linstat har instruktioner. Multiple imputation innebär mer läsning och skrivning till disk än De flesta Stata-kommandon Ibland inkluderar det här tillfället att skriva tillfälliga filer i den aktuella arbetsmappen. Använd det snabbaste diskutrymmet som är tillgängligt för dig både för din dataset och för arbetsmappen. Vanligtvis kommer det lokala diskutrymmet att bli snabbare än nätverksdiskutrymme och på Linstat ramdisk En katalog som faktiskt lagras i RAM kommer att bli snabbare än det lokala diskutrymmet Å andra sidan vill du inte permanent lagra datasatser någonstans men netwo Rk diskutrymme Så överväga att ha din fil gör något som följande. Windows Winstat eller din egen PC. Detta gäller när du använder omräknade data också Om din dataset är tillräckligt stor för att arbeta med det efter imputation är långsam, ovanstående Proceduren kan hjälpa. Kontrollera för konvergens. MICE är en iterativ process I varje iteration uppskattar mi imput chained först imputationsmodellen, med användning av både observerade data och de imputerade data från den tidigare iterationen. Det drar sedan nya imputerade värden från de resulterande fördelningarna Obs Som en följd av detta har varje iteration en viss autokorrelation med föregående imputation. Den första iterationen måste vara ett speciellt fall i det. Mata på kedjad först uppskattar imputationsmodellen för variabeln med de minsta saknade värdena baserade endast på observerade data och drar Imputerade värden för den variabeln Det beräknar då modellen för variabeln med de nästkommande få saknade värdena, med användning av både de observerade värdena och de tillförda värdena o F den första variabeln och fortsätter på samma sätt för resten av variablerna. Således är den första iterationen ofta atypisk, och eftersom iterationer är korrelerade kan den också göra efterföljande iterationer atypiska. För att undvika detta går mi imput chained som standard igenom tio iterationer för Varje beräknad data som du begär, spara endast resultaten av den tionde iterationen De första nio iterationerna kallas förbränningsperioden Normalt är det här mycket tid för effekterna av den första iterationen att bli obetydliga och för processen att konvergera till en Stationärt tillstånd Du bör dock kontrollera konvergens och öka antalet iterationer om det behövs för att säkerställa att det använder burnin-alternativet. För att göra det, undersök spårfilen som sparas genom att mata in kedjad. Den innehåller medelvärdet och standardavvikelsen för varje beräknad variabel i Varje iteration Dessa kommer att variera slumpmässigt, men de borde inte visa någon trend. Ett enkelt sätt att kontrollera är med tsline men det kräver omformning av data först. Vi föredrar Imputationmodellen använder sig av så det kan inte spara en spårfil Således kommer vi att ta bort för tillfället Vi ska också öka burnin-alternativet till 100 så det är lättare att se vad ett stabilt spår ser ut som vi ska sedan använda omforma och tsline för att kontrollera Konvergens. preserve mi imput chained logit urban mlogit race ologit edu pmm exp lage female, lägg till 5 rseed 88 savetrace extrace, ersätt burnin 100 använd extrace, ersätt reshape wide mean sd, jag heter jm tsset iter tsline expmean, titel Medelvärdet av påförda värden av Upplevelsemärk Varje rad är för en imputation legend från graf export ersätter tsline expsd, titel Standardavvikelse för impreterade värden av erfarenhetsnotat Varje rad är för en imputation legend från graf export ersättningsåterställning. De resulterande graferna visar inga uppenbara problem. Om du Ser tecken på att processen kanske inte har konvergerat efter de vanliga tio iterationerna, öka antalet iterationer som utförts innan du sparar imputerade värden med burnin-alternativet Om konvergens aldrig är achi Eved detta indikerar ett problem med imputationsmodellen. Kontrollera de beräknade värdena. Efter imputering bör du kontrollera om de imputerade data liknar de observerade data Tyvärr finns det inget formellt test för att bestämma vad som är tillräckligt nära Naturligtvis om data är MAR Men inte MCAR, bör de imputerade dataen vara systematiskt annorlunda än de observerade data. Ironiskt nog, de färre saknade värdena som du måste införa, desto mer variation kommer du att se mellan de imputerade data och observerade data och mellan imputationer. För binära och kategoriska variabler, Jämföra frekvens tabeller För kontinuerliga variabler är jämförande medel och standardavvikelser en bra utgångspunkt, men du bör också titta på fördelningens övergripande form För att vi föreslår kärntäthetsgrafer eller kanske histogram ser du på varje imputation separat istället för att samla alla De tillförda värdena så att du kan se om någon av dem gick fel. Mi xeq prefix berätta Stata att tillämpa det efterföljande kommandot till varje im Putering individuellt Det gäller också för de ursprungliga uppgifterna, den zeroth imputationen Thus. mi xeq fliken race. will ge dig sex frekvens tabeller en för de ursprungliga uppgifterna och en för varje fem imputations. Vi vill dock jämföra de observerade data Till bara den imputerade dataen, inte hela datasatsen Detta kräver att man lägger till ett if-villkor till flikkommandon för imputationerna, men inte de observerade dataa Lägg till ett nummer eller numlist för att ha mi xeq agera på speciella imputations. mi xeq 0 tabell race mi Xeq 1 5 tabellen ras om missrace. This skapar frekvens tabeller för de observerade värdena av race och sedan de imputerade värdena i alla fem imputations. If du har ett betydande antal variabler att undersöka kan du enkelt slingra över dem. För var och en av varlist urban Race edu mi xeq 0 flik var mi xeq 1 5 flik var om miss var. För resultat se loggfilen. Sammanfattningsstatistiken över kontinuerliga variabler följer samma process, men skapa kärntäthetsgrafer lägger till en komplikation du behöver antingen spara Grafer eller ge dig själv en chans att titta på dem mi xeq kan utföra flera kommandon för varje imputation bara placera dem alla i en rad med en semikolon i slutet av varje Detta kommer inte fungera om du har ändrat den allmänna kommandot Avgränsare till en semikolon Sovkommandot berättar Stata att pausa under en viss period, uppmätt i millisekunder. Mi xeq 0 kdensity lönsova 1000 mi xeq 1 5 kdensitets lön om fröken var sova 1000.Genom kan allt detta automatiseras. Varlista lönexpo xeq 0 summa var mi xeq 1 5 summa var om miss var mi xeq 0 kdensity var sova 1000 mi xeq 1 5 kdensity var om miss var sova 1000. Spara diagrammen visar sig vara lite svårare eftersom du behöver För att ge grafen från varje imputering ett annat filnamn Tyvärr kan du inte komma åt imputationsnumret inom mi xeq Du kan dock göra en förvärdesslinga över imputationsnumren, sedan har mi xeq agera på var och en av dem. Förval i 1 5 mi xeq i Kdensity exp om missexp graph export replace. Integ Betygsätt detta med tidigare version ger. foreach var av varlist lön exp mi xeq 0 sum var mi xeq 1 5 sum var om miss var mi xeq 0 kdensity var graf export ersätta förval i 1 5 mi xeq jag kdensity var om miss var graf export Ersätt. För resultat, se loggfilen. Det är oroväckande att i alla implikationer är medelvärdet av de tillförda värdena av lönen högre än medelvärdet av de observerade värdena av löne och medelvärdet av de tillförda värdena för exp är lägre än medelvärdet Av de observerade värdena på exp Vi hittade inte bevis för att data är MAR men inte MCAR, så vi förväntar oss att medel för de imputerade dataen ska kluster kring de observerade dataens sätt. Det finns inget formellt test för att definitivt berätta om Det här är ett problem eller inte. Det borde dock väcka misstankar, och om de slutliga resultaten med dessa påförda data skiljer sig från resultaten av fullständiga fallanalyser, är det fråga om skillnaden beror på problem med imputationsmodellen. Reviderad 8 23 2012.A Ny imputation metod för ofullständig binär data. Munevver Mine Subasi a. Ersoy Subasi b. Martin Anthony c. Peter L Hammer 1.a Institutionen för matematiska vetenskaper, Florida Institute of Technology, 150 W University Blvd Melbourne, FL 32901, USA. b RUTCOR , Rutgers Center for Operations Research, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c Institutionen för matematik, London School of Economics and Political Sciences, Houghton Street, London WC2A 2AE, UK. Received 17 October 2009, Reviderad 28 augusti 2010, Accepterad 31 januari 2011 Tillgänglig online 21 mars 2011. I dataanalysproblem där data representeras av vektorer med reella tal är det ofta fallet att vissa datapunkter kommer att ha saknade värden, vilket innebär att en eller flera av de Poster av vektorn som beskriver datapunkten observeras inte I det här dokumentet föreslår vi ett nytt tillvägagångssätt för imputering av saknade binära värden. Tekniken vi introducerar använder en likhetsåtgärd introducerad av Anthony och Hammer 20 06 1 Vi jämför experimenterat prestanda för vår teknik med de som baseras på den vanliga Hamming distansmåttet och multipla imputation. Boolean likhetsåtgärd.1 Inledning. I praktiska maskininlärning eller data analysproblem där data som ska analyseras består av vektorer av verkliga Siffror är det ofta så att några av datapunkterna kommer att ha saknade värden, vilket innebär att en eller flera av posterna i vektorn som beskriver datapunkten inte är kända. Det är naturligt att försöka fylla i eller ålägga dessa saknade Värden så att man än har fullständiga data att fungera från. Det kan vara nödvändigt, till exempel, så att data kan användas för att lära sig av att använda statistisk eller maskininlärningsteknik. Detta är ett klassiskt statistiskt problem och maskininlärningsproblem och många tekniker har använts . Eftersom i verkliga applikationer saknas data är en olägenhet snarare än det primära fokuset, kan en imputationsmetod med bra egenskaper vara att föredra för en som är komplicerad Att implementera och effektivare, men problemspecifika. Några tillvägagångssätt för att hantera saknade data ignorerar eller raderar helt enkelt punkter som är ofullständiga. Klassiska tillvägagångssätt av denna typ är listvis borttagning LD och parvis delning PD På grund av deras enkelhet används de allmänt se T. ex. 15 och tenderar att vara standard för de flesta statistiska paket. Användningen av dessa tekniker kan emellertid leda till stor observationer, vilket kan resultera i dataset som är för små om fraktionen av saknade värden är hög och Särskilt om den ursprungliga datamängden är liten. En av de mest utmanande besluten som konfronterar forskare väljer den mest lämpliga metoden att hantera saknade data under analysen. Lite och Rubin 13 föreslår att naiva eller obestämda imputationsmetoder kan skapa fler problem än de löser The Mest vanliga dataimuleringstekniker är medelåkning, även kallad ovillkorlig medelåkning, regressionstimulering RI refererade också till Som villkorlig medelpåskrivning, hot-deck imputation HDI och multipel imputation MI Vi noterar att medel imputering och liknande metoder inte är korrekta i betydelsen Rubin 16 och därför inte rekommenderas I de flesta situationer är enkla tekniker för hantering av saknade data, såsom Fullständiga fallanalysmetoder LD och PD, totalt MI och den saknade indikatormetoden producerar förspända resultat som dokumenterat i 5 12 16 18 och 21 En mer sofistikerad teknik MI ger mycket bättre resultat 5 12 16 18 och 21.MI 16 är en statistisk Teknik där varje saknas värde ersätts av flera kk-värden, vilket producerar kk färdiga dataset för analys. Skillnaderna mellan dessa dataset speglar osäkerheten för de saknade värdena. Varje imputerad dataset analyseras med standarda kompletta data-förfaranden, vilket Ignorera skillnaden mellan reala och imputerade värden Kk-resultaten kombineras sedan på ett sådant sätt att variationen på grund av imputering kan införlivas. Resultaten av dessa kombinerade analyser ger inte bara obestämda estimatorer för parametrar, men innehåller tillfredsställande osäkerheten som är inblandad på grund av de saknade data, dvs. producerar giltiga uppskattningar av avvikelserna av dessa parametervurderinger. Rubin 16 gav en omfattande behandling av MI och behandlade potentiella användningar av technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.
No comments:
Post a Comment