söndag, januari 08, 2012

China Study II: Sädesslag vs animalier

När man kompenserar för andra faktorer i China Study så börjar det likna det T Colin Campbell pratar om (gissa vad). Hittills tittar jag enbart på ischemisk hjärtsjukdom (IHDc), dess korrelation med vetekonsumtion och den negativa korrelation med vissa animalier. Dvs, om man tittar på enstaka variabler och enkel korrelationsanalys (dvs ingen-analys) så säger China Study II att ju mer animalier du äter och ju mindre vete du äter ju mindre hjärt-/kärlsjukdom får du. Det är precis raka motsatsen mot vad Campbell, Esselstyn, Ornish, m.fl säger. Om man tittar på detta så verkar det ju som att Campbell ljuger oss rätt upp i ansiktet och hoppas innerligt på att ingen tittar på datan...
Växtprotein och hjärtsjukdom...


I min (och Campbell's) analys av China Study II träder en annan bild fram.

Lekskoleanalys

Denise Minger har misslyckats kapitalt med att kompensera för andra faktorer (så kallade "confounding factors") för att förklara varför vete korrelerar med hjärtsjukdom. I förra inlägget så visade jag att det faktiskt inte är så svårt [ref].

Men, jag var helt fel ute. Jag fattade inte riktigt att flera variabler i datan är sammanslagningar av andra variabler. T.ex får du inte köra en multipel regressionsanalys med både MEAT, REDMEAT och POULTRY. MEAT är både rött kött och kyckling. Kör du både MEAT och REDMEAT introducerar du alltså falsk data i beräkningen i och med att det är sammanslagningar (tar du med MEAT och REDMEAT blir det som POULTRY + REDMEAT*2). Statistiskt får man helt fel resultat. Samma sak gäller om du kör ANIMFOOD och ANIMPROT ihop. I flera av mina analyser blir det till animaliernas nackdel, men i vissa till animaliernas fördel.

Det är svårt att analysera China Study I/II. Datan innehåller 69 totalobservationer och runt 640 mätvärden. Många korrelerar med varandra och förändrar resultatet av en multipel regressionsanalys ordentligt. Flera av dem är ockå sammanslagningar för att förenkla multivariatanalys. Vet man inte vilka man plockar med i sin statistiska modell så riskerar man att introducera dubletter vilket kan påverka resultatet ordentligt (förutom att man jobbar med felaktig data).

Min nya modell går ut på att kompensera bort andra dödsorsaker än IHD. Det finns bara ett mätvärde för IHD och det är för folk mellan 35-69 års ålder och därför måste man kompensera bort alla andra dödsorsaker i alla andra åldrar. Man måste samtidigt kompensera bort andra dödsorsaker i åldersgruppen 35-69 år (som t.ex olyckor, andra kärlsjukdomar, cancer, infektions- och parasitsjukdomar, m.fl). Du måste dö i något om du dör och eftersom vi just tittar på död i en specifik sjukdom måste man kompensera för andra dödsorsaker när variabeln finns där - annars gör man det för lätt för sig och ägnar sig åt lekskoleanalys.

Äter man vete i China Study II dör man inte av:
  • Drunkning (alla åldrar)
  • Tuberkulos - lungsot (ej andra former)
  • Infektionssjukdomar
  • Snäckfeber och andra parasiter
  • Undernäring
  • Stelkramp
  • Låg födelsevikt
  • Självmord
  • Blodsjukdomar
  • Skelettsjukdomar
  • Olyckor som ung
Om du äter vete dör du av:
  • Hjärt-/kärlsjukdom
  • Stroke
  • Tuberkulos som inte drabbar lungorna
  • Ryggmärgsbråck (dvs nyfödda, ryggmärgsförändringar, neural tube defects)
  • Trafikolyckor
  • Nervsjukdomar (t.ex ALS)
  • Tarmvred eller liknande
  • Reumatisk feber (bakterie)
  • Diabetes
Som synes verkar det här vara helt olika människor. Veteätarna dör av västerländska sjukdomar medan de som inte äter vete dör av sådant västerlänningar vaccinerar bort.

För att få reda på om IHD verkligen korrelerar med vetekonsumtion måste vi kompensera bort dessa skillnader - och andra faktorer som rör "västernisering" och industrialism - annars blir det Minger SCAM INC av alltihop. Nu vet jag givetvis att Minger inte försöker lura oss utan att hon helt enkelt inte kan tillräckligt om statistisk analys. I uppföljningen till hennes första veteinlägg så tar Denise Minger och väljer ut 5 hög-vete-ätare och jämför med 5 låg-vete-ätare. Hon väljer ut 10 observationer ur 69 som stöd för hennes hypotes; att det hon inte tål att äta (vete) är dåligt för hjärtsjukdom samt att hon mådde dåligt som sojaätande vegan. Campbell må lida av konfirmeringsbias eftersom han är vegan, men är Denise Minger mycket bättre själv?

Om "correlation ain't causation" så är Denise's "cherrypicking" betydligt mycket värre. Väljer man ut några få observationer som passar ens hypotes och slänger bort huvuddelen så är det konfirmeringsbias på hög nivå.

Nog om det och till saken. Jag försökte köra mina analyser på Minger's utvalda regioner, men det går inte (inte tillräckligt många observationer) mycket pga att just de veteätande regionerna hon har valt saknar statistik för olyckor, mm - något som gör att det inte går att kompensera för andra dödsorsaker.

Jag håller mig till hela datan istället för att välja ut de regioner som passar min hypotes.

Död åt sädesslagen

Eftersom lågkolhydratare är så enormt emot sädesslag och älskar animalier så ville jag bevisa att sädesslag visst kan vara hälsosamt. Huruvida det visar sig att animalier är det eller ej i samma modell bryr jag mig egentligen inte om - jag är inte på ett vegankorståg. Jag nöjer mig med att visa att sädesslag är signifikant nyttigt för hjärtat och om animalier också är det så är vi ju alla nöjda och kan sluta snacka skit om varandra, eller hur?

Jag skrev några rader kod som letade fram vilka variabler som passade min hypotes. Jepp, jag körde ett "konfirmeringsbiasscript". Bilden som växte fram kunde jag dock inte styra över. Jag hittade ganska fort variablerna som styrde huruvida vete är dåligt eller ej och alla har med västernisering att göra - precis det Campbell själv har sagt för övrigt. Tänk, Campbell's forskarteam kanske kan göra statistisk analys trots allt?

Den modell som gjorde att både vete och ris är statistiskt signifikant nyttigt för hjärtat gav ett oväntat resultat...



Skyll inte på mig. Det är inte jag som sagt att animalier är dåligt för hjärtat, det är ju T Colin Campbell själv.

Mission completed: Vete och ris är statistiskt signifikant nyttigt för hjärtat. Majs, durra och hirs är icke-signifikant nyttigt för hjärtat.


Koden som gör skillnaden

Så här ser modellen ut i programmet R...

Call:
lm(formula = mIHDc ~ mALL0.34 + mALL70.79 + mINFECTc + mALLCAc + 
    mENDOCRINc + mBLOODc + mMENTALc + mNERVOUSc + mMENINGITc + 
    mEPILEPSYc + mHYPTENSc + mRHEUMHDc + mSTROKEc + mCOPDc + 
    mDIGESTIVc + mGENITURc + mALLSKINc + mILL.DEFc + mACCIDENTc + 
    mSUICIDEc + mHOMICIDEc + gARIDITY + gLATITUDE + gLONGITUDE + 
    qdBORNOUT + qbpWORKOUT + qcpNOSCHL + qdEDUCATED + qcpHSCMBR + 
    qcpFLCMBR + qcpH2OPIPE + qdOTHFNOW + qcNONAG89 + qaAGRICUL + 
    qaCANREADm + qaHOUSHLD + qaVILLPOP + qdBMI + qdBUDDHIST + 
    qdCHRIST + qdMUSLIM + qdWHEAT + qdRICE + qdMAIZE + qdSORGHUM + 
    qdMILLET + dTOTNDF + qdVEGFAT + dANIMFOOD)

Residuals:
     Min       1Q   Median       3Q      Max 
-13.3026  -2.8958   0.1279   3.6889  13.0629 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
[alla andra variabler bortplockade för lättare läsning]
qdWHEAT      -0.257731   0.106793  -2.413  0.04229 * 
qdRICE       -0.252746   0.102504  -2.466  0.03897 * 
qdMAIZE      -0.026398   0.108659  -0.243  0.81416   
qdSORGHUM    -3.338263   1.664738  -2.005  0.07986 . 
qdMILLET     -0.246009   0.128347  -1.917  0.09157 . 
dTOTNDF      -3.712161   1.119028  -3.317  0.01058 * 
qdVEGFAT      1.882779   1.027423   1.833  0.10423   
dANIMFOOD     0.660009   0.236443   2.791  0.02351 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 14.72 on 8 degrees of freedom
  (11 observations deleted due to missingness)
Multiple R-squared: 0.9776,     Adjusted R-squared: 0.8401 
F-statistic: 7.112 on 49 and 8 DF,  p-value: 0.003156 

Det gröna - dTOTNDF - är kostfiber.

De två sista kolumnerna är de intressanta. T-värdet avgör var åt det lutar. Negativt är bra och positivt värde är dåligt (positivt = det korrelerar med responsvärdet, dvs IHDc - hjärtsjukdom mellan 35-69 år). P-värdet (sista kolumnen) talar om huruvida korrelationen är signifikant eller ej. Är den inte signifikant (över 0.05, dvs över 5%) så kan man inte hävda att det har någon betydelse (även om t-värdet kan ge en indikation, men man ska definitivt inte säga att det bevisar ens hypotes). Stjärnor efter sista kolumnen talar om hur starkt signifikant resultatet är, ju fler desto bättre. Punkterna antyder att resultatet börjar närma sig signifikans, men är inte där än (dvs fortfarande över 5%).

Kör vi en stegvis AIC (Akaike Information Criterion) som poängsätter olika försök genom att ta bort beskrivande variabler för att behålla den modell med lägst AIC-nummer får vi följande...
> step <- stepAIC(fit, direction="both")
[ här händer en massa saker... ]
> summary(lm(step$terms))

Call:
lm(formula = step$terms)

Residuals:
     Min       1Q   Median       3Q      Max 
-12.9545  -3.3270  -0.1004   4.2475  13.6612 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
[alla andra variabler bortplockade för lättare läsning]
qdWHEAT      -0.214656   0.042233  -5.083 0.000111 ***
qdRICE       -0.220448   0.035581  -6.196 1.28e-05 ***
qdSORGHUM    -3.218267   0.910397  -3.535 0.002752 ** 
qdMILLET     -0.195797   0.066864  -2.928 0.009845 ** 
dTOTNDF      -3.532046   0.623268  -5.667 3.50e-05 ***
qdVEGFAT      1.920787   0.511946   3.752 0.001741 ** 
dANIMFOOD     0.651327   0.114526   5.687 3.37e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 10.81 on 16 degrees of freedom
  (11 observations deleted due to missingness)
Multiple R-squared: 0.9758,     Adjusted R-squared: 0.9137 
F-statistic: 15.72 on 41 and 16 DF,  p-value: 2.039e-07

WOW! I denna modell är vete, ris, durra och hirs statistiskt signifikant hälsosamt för hjärtat och vegetabiliskt fett samt animalier är signifikant dåligt för hjärtat (stepAIC har plockat bort majs). Campbell kanske inte är full av skit ändå?



Ingen kommentar, bilden talar för sig själv va?

1 kommentarer:

Richard sa...

Beautiful. Är det möjligt att vi får den här informationen på engelska? Det skulle vara schysst. Du skulle kunna översätta texten och posta den till t.ex. Durianriders forum.

Hälsningar från Helsingfors.