zaterdag 28 juli 2018

Werken met Gedmatch Admixture

Na het ontvangen van je DNA-resultaten van een bedrijf kun je ervoor kiezen om deze up te loaden naar Gedmatch (of voor sommige bedrijven zoals LivingDNA naar Gedmatch Genesis). Op Gedmatch zijn verscheidene tools om zelf je DNA te analyseren.

Een belangrijke tool is de Admixture (heritage). Hier kunnen verschillende zogenaamde calculatoren gevonden worden die je DNA in verschillende etnische componenten opdelen. Dit kan op verschillende manieren worden weergegeven: als totaalbeeld of per chromosoom.

Laten we mijn DNA eens bekijken met deze tool. Ik kies hier voor Admixture proportions (With link to Oracle), met het project Eurogenes. Vervolgens kies ik voor de Eurogenes K13 calculator. Het resultaat zien we hieronder:

Mijn Eurogenes K13 resultaten

Mijn DNA is opgedeeld in 13 mogelijke componenten waar deze test gebruik van maakt. Het is belangrijk om je te realiseren dat componenten niet hetzelfde zijn als bevolkingsgroepen. Deze test geeft mij bijvoorbeeld 23,21% van de Baltische component, maar dit betekent niet dat ik zoveel met de Baltische bevolkingsgroepen te maken heb. Linksonder kan de spreadsheet bekeken worden, waar de gemiddelde uitslagen van deze test voor verscheidene bevolkingsgroepen staan. Hier valt te zien dat bijv. de Zuid-Nederlander gemiddeld 22% van de Baltische component heeft.

Dit brengt me tot de volgende stap: deze uitslag is géén einduitslag. De volgende stap is dat dit mengsel van componenten uitgedrukt wordt in daadwerkelijke bevolkingsgroepen. Een mogelijkheid binnen deze tool is de functie Oracle: deze schat mij op ca. 96% West-Duits of Zuid-Nederlands en ca. 4% Zuidoost-Aziatisch.

Het is ook mogelijk om zelf aan de slag te gaan met deze data. Hiervoor gebruik ik het programma nMonte3 dat op het statistiekprogramma R runt. Het voert hier te ver om de precieze werking van het programma uit te leggen, maar wat ik in feite doe is een document met mijn uitslagen laten vergelijken met het document waarin de gemiddelde uitslagen van de bevolkingsgroepen staan (zie ook hier). Omdat ik een gemengde achtergrond heb, gebruik ik in het programma een extra command pen=0.

Het programma geeft de volgende resultaten met alle bevolkingsgroepen:

VvdH
Southeast_English,35.8
Danish,26.4
South_Polish,9
French_Basque,4.8
Abhkasian,4.4
Spanish_Cataluna,4.4
La_Brana-1,4
Spanish_Valencia,2.8
West_German,1.8
Bulgarian,1.6
Vietnamese,1.4
Malay,1.2
Spanish_Andalucia,1
Dai,0.4
Papuan,0.4
Austroasiatic_Ho,0.2
Sardinian,0.2
Tujia,0.2
[1] "distance%=0.6427"


De distance is zeer laag. Dit betekent dat er waarschijnlijk sprake is van overfitting: allerlei bevolkingsgroepen zijn (lukraak) toegevoegd zo dicht mogelijk bij mijn resultaten te komen. Omdat dit niet veel zin heeft, is het beter om een gerichte test te doen. Hierbij kies ik voor een simpele test met drie populaties die mijn voorgeslacht aardig weergeven. Ik heb hier wat gesmokkeld door een categorie Average_Dutch toe te voegen als het gemiddelde van Noord- en Zuid-Nederlanders. Het resultaat geeft:

VvdH
Average_Dutch,89.6
Ashkenazi,5.8
Malay,4.6
[1] "distance%=2.2384"


Percentueel gezien komt dit aardig in de buurt van wat ik verwacht. Het toevoegen van een Zuid-Aziatische groep verkleint de distance iets:

VvdH
Average_Dutch,89.4
Ashkenazi,5.6
Malay,4.4
Kurumba,0.6
[1] "distance%=2.2096"


De K13-calculator geeft dus vrij goede resultaten. Een tweede, meer uitgebreide calculator, is de K36, ook van Eurogenes. Deze geeft het volgende resultaat:

Mijn Eurogenes K36 resultaten

Net als bij K13 is het belangrijk om te beseffen dat de componenten niet hetzelfde zijn als specifieke bevolkingsgroepen. Ik ben dus niet 7% Fins of 12% Italiaans. De namen van deze componenten zijn er pas later bij bedacht. “Fennoscandic” zou beter kunnen worden opgevat als “Noord-Europese jager-verzamelaars”, en op dezelfde manier vertegenwoordigen “Iberian” en “Italian” verschillende varianten van Europese neolithische boerenbevolking.

Van deze componenten zijn kaarten gemaakt door de heer L. Macuga, een voorbeeld:

De verspreiding van de K36 "Fennoscandian" component,
door L. Macuga.

Hierop is duidelijk te zien dat deze component niet specifiek Fins is, maar over geheel Noord-Europa verspreid is, vermoedelijk reeds sinds de prehistorie. Meer componentkaarten zijn hier te zien

Net als bij K13, kan ik nMonte3 gebruiken om een schatting van mijn voorgeslacht te geven. Hierbij gebruik ik de (oude) spreadsheet van K36. Een veel uitgebreidere versie kan tegen betaling worden geraadpleegd bij de heer L. Macuga. Een eerste uitslag met alle bevolkingsgroepen in de K36-spreadsheet geeft mij:

VvdH
Central_Dutch,57.2
Swiss_Italian,14.2
England_Cumberland,9.4
Chechen,7.8
Mari,4.6
Moksha,3.4
Indonesian,2
IT_Sardinia,1
Melanesian,0.4
[1] "distance%=5.3917"


Een meer gerichte test geeft:

VvdH
South_Dutch,46
Central_Dutch,40.8
Askhenazi,7
Indonesian,3
German_North,2.6
Telugu_IND,0.6
[1] "distance%=8.1994"


De afstanden hier zijn hoger dan bij K13, hetgeen verwacht mag worden, want bij zoveel meer componenten is het lastiger om een zo precies mogelijke benadering te geven.

Hoewel K36 vrij gedetailleerd is, ben ikzelf nog niet tevreden. Wanneer we bij Admixture niet kiezen voor Admixture Proportions (with link to Oracle), maar voor Admixture Proportions by Chromosome, dan zie ik dat er chromosomen zijn waarop bijvoorbeeld de componenten Arabic, Armenian en South Asian voorkomen, terwijl die niet op mijn totaalresultaat vermeld staan. Ik vermoed dat dit op een of andere manier te maken heeft met het afronden van getallen. Om deze componenten toch vermeld te krijgen in mijn eindresultaat, heb ik een berekening van mijn componenten gemaakt op basis van het resultaat van deze individuele chromosoomparen, als volgt:

1) vermenigvuldig per chromosoom het percentage van een component met het aantal SNPs dat op dat chromosoom gevonden wordt. (Bijvoorbeeld: op chromosoom 1 vind ik 0,8% Arabisch en zijn 13169 SNPs gebruikt: dit geeft mij 105,352 Arabische SNPs op chromosoom 1).
2) tel alle SNPs per component bij elkaar op, deel dit door het totaal aantal SNPs dat de test gebruikt en maak er een percentage van. (Dit geeft mij bijvoorbeeld in totaal ca. 0,98% Arabisch).
3) verwijder percentages onder 0,2% om ruis te voorkomen, en zorg dat de rest op 100% uitkomt. Afronden is hier onvermijdelijk.

Dit geeft mij het volgende resultaat, dat vergeleken kan worden met de oorspronkelijke uitslag:

Vergelijking van oorspronkelijke K36 resultaten
met die berekend per chromosoom.


Opvallend is nu de aanwezigheid van Arabisch, Armeens, Oost-Meditteraans, Indo-Chinees, Midden-Oosters, Noord-Afrikaans en Zuid-Aziatisch, en tevens verschuivingen in de percentages van de reeds aanwezige componenten. Het Aziatische aandeel is ook groter dan eerst. Naar mijn mening geeft dit beter weer dat ik naast West-Europees en Zuid-Oost-Aziatisch bloed ook Joods en Zuid-Aziatisch bloed heb. De resultaten lijken dus met name af te hangen van de manier waarop wordt afgerond.

Wanneer ik de per chromosoom berekende resultaten analyseer, krijg ik het volgende resultaat met alle bevolkingsgroepen:

VvdH_chrom
Central_Dutch,61
Pl_north,9.8
IT_Sardinia,7.2
Chechen,4.2
Mari,4
Georgian_Svan,3.4
Indonesian,2.6
Welsh,2.4
Cambodia,1.6
FR_Bretagne,1.2
Saudi,1.2
Tamil_Ceylon,1
Australia_Abo,0.2
Melanesian,0.2
[1] "distance%=3.7588"


En met een meer gerichte test:

VvdH_chrom
Central_Dutch,46.8
German_North,33.8
Askhenazi,12.4
Indonesian,4.6
Tamil_Ceylon,2.4
[1] "distance%=7.2141"


Zoals te zien valt, lijken de resultaten minder nauwkeurig dan bij K13. Dit is omdat er zoveel meer mogelijkheden ter interpretatie zijn. Het voordeel is wel dat K36 een goede aanwijzing geeft in welke richting gezocht moet worden, mocht ik niet weten waar ik vandaan zou komen.
De heer L. Macuga heeft de volgende kaart gemaakt met mijn oorspronkelijke K36-resultaten, waarop te zien valt bij welke bevolkingsgroepen ik het dichtstbij sta:

De bevolkingsgroepen waar ik genetisch het dichtsbij sta, gebaseerd op K36.

De K36 calculator kan dus zeggen waar iemand ongeveer vandaan komt (mits niet teveel gemengd), maar de K13 calculator is beter te interpreteren, omdat hier minder kans is op overinterpretatie. Met de huidige mogelijkheden blijft het uiteraard een benadering van de werkelijkheid.

Ik hoop dat ik zo heb kunnen laten zien hoe component-tests geïnterpreteerd kunnen worden, dat componenten niet hetzelfde zijn als bevolkingsgroepen en dat de uitslag van een componenten-test géén einduitslag is.