woensdag 13 januari 2021

Synthetische schimmen

In mijn vorige bericht concludeerde ik dat oracle-based methodes niet geschikt zijn om dicht aan elkaar verwante etnische groepen, zoals Nederlanders, Duitsers en Engelsen van elkaar te onderscheiden. Ook zijn deze testen niet zo geschikt voor mensen met een gemengde achtergrond, wanneer van tevoren niet duidelijk is waar de mix uit bestaat. De kans is namelijk aanwezig dat de test bevolkingsgroepen aanwijst die tussen de werkelijke mix in liggen; iemand met een Russische vader en Chinese moeder zou bijvoorbeeld als een Kazach uit de test tevoorschijn kunnen komen. Een gerichte test zou dit wel kunnen aanwijzen, maar de bedrijven hebben natuurlijk niet de capaciteit om dit voor al hun honderdduizenden testers te doen - als de testers al weten in welke hoek ze het moeten zoeken.

Een gerichte test m.b.v. Global 25 coördinaten kan interessant zijn om meer te weten te komen over een gemengde achtergrond, zoals ik ook eerder heb uitgezocht. Hoewel ook Global 25 oracle-based is, kent het een grote database, zodat het - zeker bij een gerichte test - vrij goed mogelijk is om een gedetailleerd onderzoek te doen. Deze keer bekijk ik de afkomst van mijn grootmoeder, waarbij ik gebruik maak van de visualisatiemogelijkheden van Vahaduo.

Door middel van de "afpelmethode" kom ik m.b.v. de dataset van Global 25 (populatiegemiddelden) tot de volgende redelijke schatting voor mijn grootmoeders afkomst:

distance: 1.5196%
38.0 Dutch
26.0 Sicilian_East
16.0 Indonesian_Java
15.0 German_East
5.0 Uttar_Pradesh

Dit komt aardig overeen met mijn schatting van ~53% West-Europees, ~25% Joods, ~17% Indonesisch en ~5% Indiaas, waarmee ik verder zal rekenen.

Ik zal nu deze vier componenten op zichzelf bekijken door ze uit het geheel te "destilleren". Dit doe ik door de coördinaten van de overige componenten - in het gewenste percentage - van het totaal af te trekken en het restant te delen door het percentage dat overblijft. Op deze manier ontstaat er een synthetische voorouder, een genetische "schim" uit het verleden die de te onderzoeken component vertegenwoordigt. Hoe kleiner de component, hoe groter de foutmarge.

Laat ik beginnen met de West-Europese component. Kijk ik puur naar de papieren stamboom, dan zou deze ongeveer voor 2/3 Nederlands moeten zijn, voor 1/4 Duits en voor de rest met name Belgisch, Frans en Engels. De synthetische West-Europese voorouder, die ik X1 noem, lijkt op een mengsel van Brits en Duits wanneer ik populatiegemiddelden gebruik. De individuen van de bevolkingsgroepen rondom de Noordzee overlappen echter nogal met elkaar. In figuur 1, de Noordwest-Europese grafiek, die ik in mijn vorige bericht liet zien, is X1 in het midden van de Nederlandse groep te vinden:

Figuur 1: Synthetische voorouder X1 
in de Noordwest-Europese genetische ruimte.

Dat X1 in het midden van het Nederlandse gebied terecht komt is niet zo vreemd, want een groot deel van zijn achtergrond is Nederlands. Het Duitse deel zal hem iets naar het noorden en oosten getrokken hebben, het Franse en het Engelse deel naar het zuiden en westen, en als gevolg hiervan lijkt hij weer in het midden terechtgekomen te zijn. Om de andere componenten te destilleren, zie ik geen noodzaak om naast Nederlands ook Oost-Duits - zoals in de eerste schatting - mee te nemen bij de berekening.

Figuur 2: Synthetische voorouder X2
in de Mediterraanse genetische ruimte.

De tweede component die ik wil visualiseren is de Joodse component, die door de synthetische voorouder X2 vertegenwoordigd wordt. Op papier is deze een mix van 3/4 Asjkenazisch en 1/4 Sefardisch (waaronder vermoedelijk wat Italiaans-Joods). In figuur 2 zien we de genetische ruimte van het (oostelijke) Middellandse Zeegebied, dat van Midden-Italië (links) via Zuid-Italië en de Griekse eilanden naar Cyprus en de Levant (rechts) loopt. Dat Zuid-Italië zo op de Griekse eilanden lijkt, komt voor een groot deel door de Griekse kolonisatie van het gebied in de oudheid. De Europese Joodse bevolkingsgroepen lijken voor het grootste deel te bestaan uit een mix van Levantse, Griekse en Romeinse invloeden en liggen hierom ook in dezelfde genetische ruimte. We zien X2 net onder de Asjkenazische en Kretenzische clusters, ergens halverwege Campanië (de streek rondom Napels). Ik vind dat de positionering van X2 in deze grafiek vrij goed overeenkomt met wat we van de papieren stamboom mogen verwachten, zeker wanneer we rekening houden met enige foutmarges. De precieze plek in de grafiek is niet zozeer belangrijk; ook hier overlappen individuen van verschillende bevolkingsgroepen met elkaar. Het gaat er mij om dat de context duidelijk wordt waarin gezocht moet worden.

Figuur 3: Synthetische voorouders X3 en X4
in de Zuidoost-Aziatische genetische ruimte.


In figuur 3 zien we de Zuidoost-Aziatische genetische ruimte. Rechtsboven zien we de Mlabri en Htin Mal, twee kleine bevolkingsgroepen in Laos (en Thailand), die beide een Austro-Aziatische taal spreken. Het wordt aangenomen dat de Austro-Aziatische bevolkingsgroepen zich verspreid hebben d.m.v. de landbouw over een groot deel van Zuidoost-Azië, waaronder Indonesië. Rechtsonder in de grafiek vinden we de Dusun en Murut, bevolkingsgroepen uit het noorden van Borneo, die een grotendeels Austronesische afkomst hebben. Ook de Austronesiërs verspreidden zich vanuit het noorden over Indonesië. De Javanen liggen genetisch halverwege de Austro-Aziatische en Austronesische groepen. Linksboven zien we de Thaise en Vietnamese individuen, die zich van de rest onderscheiden door een extra Chinese component. Synthetische voorouder X3 bestaat uit de som van de Aziatische componenten, en is rechtsboven te vinden in het Austro-Aziatische cluster. Het is niet vreemd dat meerdere bedrijven die een oracle-based test gebruiken hier tot de conclusie komen dat er sprake kan zijn van voorouders uit Laos of Cambodja (iets dat ik vaker bij Indo's heb gezien; bij een mengsel van Indonesisch en Chinees wordt soms aan Thailand gedacht), want hoe moet zo'n model - zonder afzonderlijke segmenten te bekijken - nu weten dat deze Aziatische component óók een mengsel is? 

In dezelfde grafiek zien we synthetische voorouder X4, die de Zuidoost-Aziatische component vertegenwoordigt, aan de rand van het Javaanse cluster. Er lijkt, rekening houdend met enige foutmarges, niet veel sprake van enig Chinees bloed. Ook ontbreekt een extra Austronesische tendens, zoals deze in het binnenland van Borneo te vinden is. Een etniciteitsschatting van X4 geeft dan ook voor het grootste deel Javaans aan, eventueel met enkele procenten Lebbo (een bevolkingsgroep op Borneo). Dit suggereert voor mij, voor zover het mogelijk is om dat te beweren, dat onze Borneo'se voormoeders met name uit het zuidelijk kustgebied kwamen en niet uit het binnenland.

Figuur 4: Synthetische voorouder X5
in de Zuid-Aziatische genetische ruimte.

In figuur 4 wordt de Zuid-Aziatische genetische ruimte weergegeven. Links staan de meest Dravidische bevolkingsgroepen (grotendeels uit het zuiden en midden van India), rechts zien we de meer Indo-Arische groepen. De genetische diversiteit in India wordt niet alleen door geografische patronen, maar ook door het casten-stelsel vormgegeven en is hierdoor voor de buitenstaander nogal ingewikkeld. Synthetische voorouder X5, die de Zuid-Aziatische component moet vertegenwoordigen, staat het dichtst bij Brahmins uit Noord- en Oost-India, maar staat ook enigszins buiten de rest. Bij een etniciteitsschatting van X5 vormen verscheidene Noord- én Zuid-Indiase groepen het hoofdbestanddeel, maar zou ook een flink deel bestaan uit West-Aziatische of Oost-Afrikaanse bevolkingsgroepen. Ik vermoed dat het niet goed mogelijk is om deze component goed te destilleren omdat het een klein percentage van het geheel vertegenwoordigt; het kan zijn dat er nog een halve procent van een andere component tussen zit; in ieder geval groeien zowel de foutmarge als de genetische ruis in de modellen. Precieze details over de Zuid-Aziatische component lijken lastig te achterhalen d.m.v. deze methode.

Ik concludeer dat het mogelijk is om m.b.v. Global 25 (G25) coördinaten de genetische componenten bij mensen met een gemengde achtergrond in een genetische context te plaatsen en te visualiseren, mits deze componenten genoeg van elkaar verschillen, maar dat deze methode niet geschikt is voor gedetailleerd onderzoek naar componenten die een klein percentage (ca. 5%) van het geheel uitmaken omdat dan de invloed van ruis in de modellen te groot wordt.

Geen opmerkingen:

Een reactie posten