tisdag 8 november 2011

Bayes teorem i praktiken

Peter Santesson har tidigare applicerat Bayes teorem i sina inlägg om Mehdi Ghezali och Michael Jackson, och båda inläggen är läsvärda. Bayes teorem hör till de teorier som i grunden är förbluffande enkla, men som sedan ofta ger kontraintuitiva resultat.

Teoremet har även hög popfaktor efter bland annat Alan Turings knäckande av den tyska Enigma-koden - det har även använts i idrottssammanhang, och det har till och med skrivits en 'statistical thriller' på temat: The Theory That Would Not Die.

Precis som precis varje övrig modell i historien så returnerar den dock självfallet skräp ifall den matas med skräp, vilket Santesson för övrigt är föredömligt tydlig med - från Guardian:

At its heart, this is a story about chance. And it begins with a convicted killer, "T", who took his case to the court of appeal in 2010. Among the evidence against him was a shoeprint from a pair of Nike trainers, which seemed to match a pair found at his home. While appeals often unmask shaky evidence, this was different. This time, a mathematical formula was thrown out of court. The footwear expert made what the judge believed were poor calculations about the likelihood of the match, compounded by a bad explanation of how he reached his opinion. The conviction was quashed.

But more importantly, as far as mathematicians are concerned, the judge also ruled against using similar statistical analysis in the courts in future.

Artikelförfattaren försöker sedan konkretisera hur Bayes teorem använts:

In the shoeprint murder case, for example, it meant figuring out the chance that the print at the crime scene came from the same pair of Nike trainers as those found at the suspect's house, given how common those kinds of shoes are, the size of the shoe, how the sole had been worn down and any damage to it. Between 1996 and 2006, for example, Nike distributed 786,000 pairs of trainers. This might suggest a match doesn't mean very much. But if you take into account that there are 1,200 different sole patterns of Nike trainers and around 42 million pairs of sports shoes sold every year, a matching pair becomes more significant.

Och det blir omgående uppenbart hur trubbigt och godtyckligt resonemanget blir - några frågor i mängden: Finns det andra skor med tillräckligt liknande sulor för att förvirra? Ifall försäljningssiffran finns nedbruten på olika lokala nivåer (exempelvis land, delstat, stad, närmaste köpcenter), vilken ska användas? Varför ska just 1996-2006 användas som intervall? Vilket konfidensintervall ska anses tillräckligt?

Matematikprofessorn Norman Fenton, som jobbar med just sådana analyser, är enligt artikeln föga förvånande missnöjd med utslaget, men sådant får nog anses tillhöra smällar man får ta i sammanhanget, och utslaget gäller inte specifikt Bayes teorem utan snarare svajig och skenexakt statistik i gemen - luddiga tankegångar blir inte tydligare av att beskrivas med tre decimaler.

Artikeln nämner dessutom ett annat fall, där någon dömts för mord på grund av att det ansågs vara alltför osannolikt att två av två barn skulle ha drabbats av plötslig spädbarnsdöd - och det är då bara att hålla med Christer Pettersson då han sade något i stil med att rättssäkerhet inte handlar om sannolikheter när Robert Aschberg frågade honom om vad sannolikheten var att han skulle frias igen - hur osannolik Harrisburgolyckan än var på förhand så inträffade den helt enkelt med exakt etthundra procent sannolikhet, oavsett vad Roland Poirier Martinsson anser.

På temat förtjänar också David Nessles inlägg Kapten Haddocks oväntade möte eller Födelsedagsproblemet en länk

Inga kommentarer: