vrijdag 21 februari 2020

Analyse van een chromosoom

Welke DNA-segmenten komen van welke voorouder? Dit vind ik een boeiende vraag en een interessante puzzel om mee bezig te zijn. Het is prachtig om te zien dat ons voorgeslacht vaak terug te vinden is in onze eigen genen. Met behulp van de DNA-matches in de databases van de genetische bedrijven (voor Europa met name MyHeritage, hiernaast bijvoorbeeld FamilyTreeDNA en 23andMe) en het uitzoeken van hun stamboom kan er regelmatig een gemeenschappelijke voorouder met de DNA-match gevonden worden. Voor mensen met een gemengde achtergrond kan het hiernaast lonen om ook te kijken naar de etnische compositie van hun DNA. Hiervoor kan bijvoorbeeld gebruik gemaakt worden van de chromosome painter in GedMatch of dezelfde tool bij 23andMe. Overigens maak ik tegenwoordig geen gebruik meer van GedMatch, omdat hun databasestructuur op mij te openbaar overkomt.

In deze post richt ik mij op de opmaak van chromosoom 11 in mijn grootmoeder en in mijzelf, waarbij ik gebruik maak van zowel etnische analyse als DNA-matches. Waarom chromosoom 11? Omdat dit toevallig een goed voorbeeld is, zowel op het gebied van matches en etniciteit.

Ik maak gebruik van DNA Painter om de chromosomen in kaart te brengen. Mijn grootmoeders chromosoom 11 ziet er als volgt uit:

Afbeelding 1: chromosoom 11 zoals het er op DNA Painter uitziet.
Het chromosoom bestaat uit twee strengen: één van vaderskant en één van moederskant. Voor elke grootouder gebruik ik één kleurpalet: aan vaderskant zijn dit blauw (grootvader) en oker (grootmoeder), aan moederskant zijn dit groen (grootvader) en roze (grootmoeder). Hoewel de grootouders van mijn grootmoeder allang niet meer leven, is het toch mogelijk om een goede inschatting te maken van het DNA dat zij hebben bijgedragen. In dit geval hebben we het geluk dat mijn grootmoeder vier grootouders had met een redelijk verschillende achtergrond (Europees, Joods, grotendeels Indisch, en wederom Europees met wat Indiaas). Had zij bijvoorbeeld aan zowel vaders- als moederskant een Joodse of Aziatische grootouder, dan was het een heel stuk moeilijker geweest om haar genoom in kaart te brengen. De verdeling in vijf stukken wordt beneden duidelijk.

DNA-matches

Voor het DNA aan vaderskant kan ik het volgende zeggen: al het "oker" DNA is afkomstig van haar Joodse grootmoeder: vanwege het endogame karakter van de Joodse bevolkingsgroep zijn er veel DNA-matches, waardoor deze component, in het bijzonder het Asjkenazische gedeelte, vrij eenvoudig is in te kleuren. Het bruine segment heeft mijn grootmoeder geërfd van haar betovergrootmoeder Judith Spijer; de DNA-match met wie zij het segment deelt stamt af van Judiths zuster. Het is nog niet bekend of het van haar vader Zacharias of van haar moeder Betje van der Bijl afkomstig is. Het "blauwe" DNA heeft mijn grootmoeder van haar grootvader geërfd, in het bijzonder van diens Haagse moeder: opvallend is dat hier meerdere DNA-matches te vinden zijn met een Scheveningse achtergrond. Mijn grootmoeder heeft wel enkele Scheveningse voorouders, maar hiervoor moeten we wel terug tot vóór 1700. Als dit stuk afkomstig is van een 17e-eeuwse Scheveninger, wordt het nog een hele opgave om uit te vinden van wie het afkomstig is.

Het DNA aan moederskant heb ik in vijf stukken verdeeld, op basis van de etniciteit zoals ik die in de chromosome painter heb kunnen ontwaren: stuk (1) heeft een met name Zuid-Aziatische herkomst. Het is mijn vermoeden dat het afkomstig is van onze Hindoese voormoeder Sophia. stuk (2) is volledig Zuidoost-Aziatisch. Aan het begin van het stuk is een DNA-match met een nakomeling van voorvader Johannes Pieter Wolff en zijn Javaanse vrouw Saima (of Tariah). Aan het eind van het stuk is een DNA-match met een Indonesische vrouw. Het is nog niet zeker of het gehele stuk van mijn grootmoeders overgrootmoeder Dumas afkomstig is, of dat er ook nog een stuk van haar overgrootvader Mallien tussen zit. Stukken (3) en (4) heeft mijn grootmoeder geërfd van haar overgrootmoeder Leontine W.E. Slaterus: zij deelt hier een segment met een nakomeling uit Leontines tweede huwelijk. Omdat het hier gaat om één segment, is het zeer waarschijnlijk afkomstig van één van Leontines ouders: wanneer het van haar beide ouders afkomstig was, dan zou het wel heel toevallig zijn dat het DNA op precies dezelfde wijze en zonder waarneembare cross-overs gerecombineerd was bij twee van haar kinderen. Aangezien stuk (3) er wel heel Zuid-Aziatisch uitziet, valt de keuze hier op haar moeder Mary Anne Pike. Stuk (3) komt evenals stuk (1) waarschijnlijk van haar moeder Sophia. Op stuk (4) zijn vrijwel géén Aziatische sporen te vinden: het moet van Mary Anne's vader Michael Lawrence Pike komen. Het Zuidoost-Aziatische stuk (5) heeft mijn grootmoeder geërfd van haar overgrootmoeder Caroline Dumas; zij deelt het stuk met een nazaat van Carolines zuster.

Een etnische analyse

Een DNA-test bestaat uit twee belangrijke componenten: ten eerste uit de DNA-matches, waardoor men in staat is familie te vinden en voorouders te "consolideren", ten tweede uit een etniciteitsschatting, uitgedrukt in procenten. Het kan niet vaak genoeg gezegd worden: etniciteit moet hier niet letterlijk genomen worden, maar als een globale schatting gezien worden: zo zijn alle bevolkingsgroepen rondom de Noordzee nauw aan elkaar verwant en overlappen zij met elkaar. Bovendien is deze schatting sterk afhankelijk van de referentiegroepen die de bedrijven gebruiken. De kans is groot dat een volbloed Hollander hoge percentages Brits of Scandinavisch meekrijgt zonder dat er daadwerkelijk sprake is van Britse of Scandinavische voorouders. Toch neemt de nauwkeurigheid wel toe: 23andMe wist mij te vertellen dat ik een grote affiniteit met Nederland had. Voordat men nauwkeurig kan zijn op provincieniveau moet nog heel wat data verzameld worden.

De etniciteitsschatting zegt niets over de verdeling van etniciteit over de verschillende chromosomen. Alleen 23andMe geeft een dergelijk overzicht evenals de chromosome painter tool op GedMatch. Wanneer ik echter specifieke stukken chromosoom wil onderzoeken, zal ik dit toch zelf moeten doen. In het geval van chromosoom 11 wil ik de stukken (1) t/m (5) op etniciteit onderzoeken. Hiervoor gebruik ik de volgende methode:

1) Ik gebruik de - inmiddels wat verouderde, maar nog goed bruikbare - K36-test van Eurogenes. Deze draai ik nu niet op GedMatch, maar m.b.v. het programma DIYDodecad, dat op R draait. Hier kan ik zelf chromosomen en segmenten uitkiezen waarop ik de test uitvoer. Dit doe ik door het file admix.par te bewerken - details over hoe dit werkt zijn te vinden in de readme van DIYDodecad.

2) De K36-resultaten bestaan uit een overzicht van aan verschillende etnische componenten toegewezen percentages. Deze zeggen op zichzelf niet bijzonder veel omdat de meeste bevolkingsgroepen uit een amalgaam van deze componenten bestaan. Daarom vergelijk ik de resultaten met een spreadsheet met K36-resultaten van verscheidene populaties. Hiervoor gebruik ik het statistische programma nMonte3 van de heer Huijbregts, dat ook op R draait. Dit programma heb ik eerder gebruikt voor autosomaal onderzoek. De resultaten die hieruit vloeien bestaan eveneens uit een lijst met percentages, maar dan nu voor specifieke populaties i.p.v. etnische componenten.

De K36-test levert ons de volgende uitslag op voor stuk (1) (componenten met 0% heb ik weggelaten):

 10.43%  Armenian            
  4.91%  East_Central_Asian  
  0.03%  East_Central_Euro             
 11.96%  Near_Eastern           
 10.46%  North_Caucasian          
  0.17%  Pygmy               
 28.98%  South_Asian         
 16.93%  South_Central_Asian 
 16.14%  West_Caucasian  

De percentages laten wel een tendens zien, maar zijn nog heel abstract. Hierom is het van belang om de test te vergelijken met verscheidene populaties. Uit stap 2 met nMonte3 volgt het volgende resultaat:

Stuk 1
Georgian_Imereti,23.4
Georgian_West,10.6
Azeri_Igdir,9.4
Hadramut_Yemen,1.6
Tamil_Ceylon,33.4
Makrani_PAK,13
Bengali_BNG,4.6
Daur_NE-China,4

Hierbij heb ik de penalty, een statistisch element binnen nMonte3 op 0 gezet, omdat dit beter lijkt te zijn voor mensen met een gemengde achtergrond en het een wat compactere lijst met resultaten geeft. De precieze werking hierachter is mij onbekend. De distance vermeld ik hier niet; deze is hoe dan ook groot, omdat we met een kleinere hoeveelheid data te maken hebben dan bij een volledig genoom. Daarnaast heb ik de populaties ingedeeld per groep. We zien dat wanneer de K36-resultaten worden omgezet van componenten in populaties, deze veel minder abstract worden. Ik zal hier maar opnieuw zeggen dat de populaties niet letterlijk genomen moeten worden maar meer moeten worden gezien als een schatting of statistische benadering. Aan vaderskant zien we enkele Kaukasische bevolkingsgroepen alsmede een stukje Jemen: samen representeren zij het Joodse DNA, dat op een plot vaak ergens tussen Griekenland en de Kaukasus ligt. Aan moederskant zien we onder meer Ceylon, Pakistan en Bangladesh: dat ziet er behoorlijk Zuid-Aziatisch uit.

Voor de overige stukken laat ik de "abstractere" K36-resultaten achterwege. Uit nMonte3 volgt voor stuk (2) het volgende resultaat:

Stuk2
IT_Tuscany,49.2
Indonesian,40.8
Daur_NE-China,8.2
Melanesian,1
Australia_Abo,0.4
Moluccan,0.4

We zien een duidelijk verschil ten opzichte van stuk (1): aan vaderskant is het resultaat iets "Europeser" omdat stuk (2) niet alleen Joods DNA bevat, maar ook het "Scheveningse" segment. Aan moederskant zijn de banden met Nederlands-Indië overduidelijk.

Stuk3
Druze,34.2
Russian_Vyatka,9.6
Spain_La-Rioja,7.4
French_Basque,2.6
Tamil_Ceylon,41.2
Mandenka_West_Africa,4.4
Yoruba_Nigeria,0.6

Op stuk (3) zien we evenals op stuk (1) aan moederskant een sterke band met Zuid-Azië, in dit geval is Ceylon wederom sterk vertegenwoordigd. Dit wil niet zeggen dat Sophia uit Ceylon kwam: we weten dat zij uit Andhra Pradesh afkomstig was. In die omgeving is met name Telugu - een aan Tamil verwante Dravidische taal - dominant. Het is dan ook niet verbazingwekkend dat Tamil hier komt bovendrijven in de test. Aan vaderskant zien we een merkwaardige combinatie van Druzen, Spanjaarden en Russen dat het Joodse deel zou kunnen vertegenwoordigen, hoewel het signaal niet heel sterk is. De aanwezigheid van een klein stukje West-Afrikaans is interessant. Om de herkomst te achterhalen, geef ik hier mijn resultaten van hetzelfde stuk:

Stuk3
Tamil_Ceylon,65.4
Russian_Tver,25
GR_Thrace,6.4
Druze,3.2

Ik heb het Zuid-Aziatische deel geërfd, en niet het joodse gedeelte. Bij mij ontbreekt het West-Afrikaanse stukje. Indien het segment echt is en géén ruis (het is tenslotte een klein segment), dan is het van de joodse kant afkomstig. Het zou kunnen dat het stukje in de Portugees-Joodse gemeenschap terecht is gekomen tijdens de slavernij-periode rond de 16e eeuw.

Stuk4

GR_Central,16
Spanish_Basque,14.4
Chechen,13.6
Saudi,8.6
Finnish_SW,25
North_Dutch,20.2
Tabassaran,1.2
North_Amerind,0.8
Samoa,0.2

Op stuk (4) zien we aan vaderskant wederom een mix van Mediterraans, Kaukasisch en Arabisch, dat de Joodse component representeert. Aan moederskant is het overgrote deel Noord-Europees. Het valt nog niet te zeggen of dit stuk van Michael Lawrence Pike's Engelse vader komt of van zijn gemengde moeder Dirksz, die vermoedelijk een grootvader uit Sleeswijk-Holstein had. De aanwezigheid van Scandinavisch zou weleens voor de tweede mogelijkheid kunnen pleiten. Het is wachten op meer DNA-matches.

Stuk5
Morocco,23.8
Georgian_Svan,10.8
Chuvash,8
North_Dagestan,0.6
Indonesian,45.8
Melanesian,10.8
South_Amerind,0.2

Bij stuk (5) wordt het Joodse stuk aan vaderskant opnieuw gerepresenteerd door een mix van Mediterraans en Kaukasisch; in dit geval vraag ik mij af of we soms te maken hebben met een specifiek Sefardisch stuk. Het aantal DNA-matches is i.i.g. vrij laag ten opzichte van veel andere Joodse stukken. Het stuk aan moederskant, afkomstig uit de familie Dumas of Wolff is duidelijk afkomstig uit Nederlands-Indië.

De bevindingen over mijn grootmoeders chromosoom 11 kunnen voorlopig als volgt worden samengevat:

Afbeelding 2: oma's chromosoom 11.

Hoe zit het dan bij mijzelf? Mijn 23andMe resultaat, waar ik later over zal schrijven, geeft mij voor chromosoom 11 de volgende etnische opmaak:

Afbeelding 3: mijn chromosoom 11 volgens 23andMe.

Blauw is hier Europees, geel en oranje Zuidoost-Aziatisch, en groen Zuid-Aziatisch. Aan mijn vaderskant heb ik het grootste stuk van het chromosoom van mijn grootmoeder geërfd, in het bijzonder van haar moeder. Ik heb op chromosoom 11 géén Joods DNA. De rechterpunt van het chromosoom heb ik van mijn grootvader geërfd. Aan moederskant is mijn chromosoom zoals verwacht geheel Europees. Op basis van DNA-matches en vergelijking met nabije familie lijkt het middenstuk afkomstig van mijn grootmoeder, en beide uiteinden van mijn grootvader.

Het stuk dat ik van mijn grootvader aan vaderskant heb geërfd bevat een cluster van enkele matches uit de omgeving van Den Bosch. Uit de stamboom van twee van hen moet ik concluderen dat het gehele stuk afkomstig is van de 18e eeuwse Roeland Smits uit Den Bosch. Aan mijn moederskant vind ik een stuk DNA afkomstig van het echtpaar Weeda-Herkenraad. Opvallend is de overlap van dit stuk met o.a. enkele mensen uit Nordrhein-Westfalen. Hierom vermoed ik dat het stuk afkomstig is van de uit Meurs afkomstige Peter Herckenrath, die aan het einde van de 18e eeuw naar de Hoeksche Waard was vertrokken. Het gehele stuk dat ik van mijn grootmoeder heb geërfd laat een raadselachtig cluster zien van mensen met vaak Gelderse, Veluwse of Overijsselse achtergrond. Hoewel dit afkomstig zou kunnen zijn van voormoeder Van Gumster uit Arnhem of voormoeder Lammerse uit Zutphen bestaat ook de mogelijkheid dat het afkomstig is van de onbekende vader van Wilhelmina Berger, die in Amersfoort verwekt was. De toekomst zal het uitwijzen.

Mijn chromosoom 11 ziet er als volgt uit:

Afbeelding 4: overzicht van mijn chromosoom 11.
Het valt op dat het chromosoom, ondanks de diversiteit die het bevat, niet eens van heel veel voorouders afkomstig is; aan vaderskant heeft minder dan de helft van de betovergrootouders bijgedragen aan dit chromosoom. Opvallend is tevens de grootte van de stukken: het stuk afkomstig uit de familie Smits gaat zeker terug tot het begin van de achttiende eeuw en heeft zich dus negen generaties lang staande weten te houden. Veel voorouders zullen te vinden zijn op één van de andere chromosomen, sommigen zullen vrij grote stukken hebben bijgedragen, ondanks dat zij veel generaties terug leefden. Anderen zullen maar een klein stukje hebben geleverd, ondanks dat zij misschien veel dichterbij stonden.

Ik concludeer dat DIYDodecad in combinatie met nMonte3 een aanvulling biedt op de chromosome painter in GedMatch of 23andMe voor mensen met een gemengde achtergrond om op die manier specifieke DNA-segmenten nader te onderzoeken.