Van DNA tot evolutionaire boom - Department of Biology

advertisement
Van DNA tot evolutionaire boom
Inleiding
De aarde herbergt een enorme diversiteit aan levensvormen. We kennen naar
schatting twee miljoen levende soorten, maar dit is slechts een fractie van alle soorten
die ooit hebben geleefd. Evolutionaire biologen gaan er vanuit dat al die soorten op de
een of andere manier met elkaar verwant zijn. Hoe kunnen we echter weten welke
organismen het meest verwant zijn of met andere woorden welke organismen recent
een gemeenschappelijke voorouder hebben gedeeld? Tot voor enkele decennia
maakte men vooral gebruik van morfologische kenmerken om verwantschappen te
postuleren. Het is niet moeilijk om vast te stellen dat de vos en de wolf nauwer met
elkaar verwant zijn dan met het roodborstje. Er zijn immers vele kenmerken die de
wolf en de vos met elkaar delen, die we niet terugvinden bij het roodborstje. Soms is
het plaatje echter minder duidelijk. Cactussen en sommige Euphorbia soorten
bijvoorbeeld lijken heel sterk op elkaar, maar zijn geen nauwe verwanten van elkaar.
Ze hebben gelijkaardige kenmerken ontwikkeld omdat ze overleven in gelijkaardige
omgevingen. We spreken in dit geval van convergente evolutie en de structuren die
zich zo hebben gevormd zijn analoge structuren. Hieruit blijkt dus dat lang niet alle
kenmerken goed bruikbaar zijn voor het opsporen van de verwantschappen tussen
soorten. Enkel de homologe kenmerken komen hiervoor in aanmerking. Dit wil
zeggen kenmerken met een gemeenschappelijke oorsprong in de evolutie en dus
aanwezig in de gemeenschappelijke voorouder. Uit vergelijkend anatomisch
onderzoek weten we bijvoorbeeld dat vleugels van vogels homoloog zijn met de
voorpoten van zoogdieren, het zijn dus homologe organen. Het is echter vaak erg
moeilijk om homologie vast te stellen, vooral bij lagere diersoorten, maar ook bij
planten. Veel voorgestelde verwantschapsrelaties waren dan ook onderwerp van vaak
heftige discussies.
De laatste decennia is er een revolutie geweest in de methodologie om
verwantschappen te reconstrueren. Twee technologische innovaties liggen hiervoor
aan de basis. In de eerste plaats heeft het sequeneren van DNA een rijke bron van
nieuwe data gegenereerd die gebruikt kunnen worden om verwantschappen op te
sporen. Hierbij wordt op basis van DNA overeenkomsten de verwantschap bepaald.
Het grote voordeel van DNA is dat het direct overgeërfd wordt van de ouders op hun
kinderen. Het is daarom bij uitstek geschikt voor verwantschapsbepaling. In de
tweede plaats heeft de computerrevolutie het gebruik van formele methoden voor het
analyseren van data versneld.
Het ligt buiten de doelstelling van deze workshop om alle methoden die momenteel
gebruikt worden in evolutiereconstructies uit de doeken te doen, want dat zou al vlug
enkele dagen in beslag nemen. De workshop wil jullie vooral inzicht geven in hoe
DNA gegevens gebruikt worden om verwantschappen te postuleren aan de hand van
één enkele reconstructiemethode, namelijk de cladistiek.
1
Evolutiereconstructies
De evolutionaire verwantschappen (fylogenie) van een groep taxa kan weergegeven
worden in een driedimensionaal diagram zoals weergegeven in figuur 1.
Figuur 1. Fylogenetische reconstructie van een groep met 7 taxa.
Vier verschillende aspecten worden erop weergegeven: 1) het vertakkingpatroon van
de evolutionaire lijnen: dit toont hoe de verschillende soorten met elkaar verbonden
zijn, dit wordt ook wel het cladistisch aspect van de evolutie genoemd; vb. B en C zijn
van elkaar gescheiden door slechts één vertakkingpunt, A en C daarentegen door
twee; C is dus cladistisch nauwer verwant met B dan met A; 2) het patristisch aspect:
dit toont de divergentie van kenmerken binnen evolutionaire lijnen; vb. F en G zijn
ontstaan uit eenzelfde meest recente gemeenschappelijke voorouder, G wijkt echter
veel meer af van deze voorouder dan F, dit betekent dat de divergentie in de lijn naar
G veel groter is dan in de lijn naar F; 3) het tijdsaspect: dit heeft betrekking op de
datering van evolutionaire gebeurtenissen, de meest recente gemeenschappelijke
voorouder van A, B, C en D leefde bijvoorbeeld in het plioceen; 4) het fenetische
aspect: heeft betrekking op het globale verschil in kenmerken tussen taxa in een
bepaalde tijdsdoorsnede; vb. in de huidige tijdsdoorsnede vertonen B, C en D een
grote gelijkenis, terwijl A er sterk van afwijkt.
Het cladistisch aspect van de evolutie kan weergegeven worden als een cladogram.
Figuur 2 geeft het cladogram voor de evolutionaire boom van figuur 1. Uit het
cladogram kan vastgesteld worden dat taxon B en Taxon C een gemeenschappelijke
voorouder delen (knooppunt 3) die ze niet delen met de andere taxa. A, B en C delen
op hun beurt een gemeenschappelijke voorouder (knooppunt 2) die ze niet delen met
de andere taxa in de analyse. Elk intern knooppunt in een cladogram stelt dus een
voorouder voor die aanleiding heeft gegeven aan twee zustertaxa. In het cladogram
van figuur 2 zijn B en C zustergroepen en is A de zustergroep van de groep B+C. D is
dan weer de zustergroep van de groep E+F+G. Knooppunten worden van elkaar
gescheiden door takken. De wortel (root) van het cladogram stelt de voorouder voor
2
van de bestudeerde taxa. De wortel geeft de richting aan waarin de vertakkingen zijn
gebeurd. Om een niet gewortelde boom te wortelen, maakt men vaak gebruik van een
buitengroep. Daarbij gaat men ervan uit dat men weet dat taxa die men zal bestuderen
(= de binnengroep) monofyletisch zijn. De buitengroep is dan de zustergroep van de
binnengroep. De kenmerktoestanden die men aantreft in de buitengroep zijn dan ook
primitief ten opzichte van de kenmerktoestanden die men aantreft in de binnengroep.
Figuur 2. Cladogram voor de fylogenetische boom van figuur 1.
Een groep die de voorouder en al zijn nakomelingen omvat noemt men een
monofyletische groep. Een parafyletische groep daarentegen is een onvolledige
monofyletische groep. De groep D+E+F+G is een voorbeeld van een monofyletische
groep, terwijl de groep D+E+F een parafyletische groep is, aangezien niet alle
nakomelingen van de voorouder in knooppunt 4 er in voorkomen (taxon G ontbreekt).
In wat volgt zullen we aantonen dat de aanwezigheid of afwezigheid van
eigenschappen in taxa gebruikt kan worden om het vertakkingpatroon (= cladistische
relaties) tussen die taxa te achterhalen.
Enkele belangrijke begrippen
Vooraleer verder te gaan is het noodzakelijk om enkele begrippen duidelijk te
definiëren.
Kenmerken en kenmerktoestanden: Het is belangrijk een onderscheid te maken
tussen kenmerken en kenmerktoestanden. 'Bloemkleur' is een voorbeeld van een
morfologisch kenmerk, terwijl bijvoorbeeld 'blauw, 'rood' en 'groen'
kenmerktoestanden van dit kenmerk zijn. Voor DNA sequentiegegevens is een
bepaalde nucleotideplaats binnen het DNA een kenmerk en de kenmerktoestanden
zijn de verschillende toestanden die deze nucleotideplaats kan aannemen, namelijk A,
C, G, T.
3
Afgeleide versus primitieve kenmerktoestanden: In de loop van de evolutie kan
een bepaalde evolutionaire lijn eigenschappen ontwikkelen die haar van alle andere
lijnen onderscheiden. Deze waarneembare en overerfbare eigenschappen worden
afgeleide kenmerktoestanden of apomorfieën genoemd. Wanneer een lijn gekenmerkt
wordt door een apomorfie zich later zal splitsen, dan zullen de dochterlijnen deze
apomorfie overerven. Apomorfieën vormen dus de sleutel om cladistische
verwantschappen tussen lijnen op te sporen: een apomorfie die voorkomt in twee of
meer groepen, is met grote waarschijnlijkheid ontstaan in de meeste recente
gemeenschappelijke voorouder van deze groepen. Tegenover de afgeleide toestand
staat de primitieve toestand, ook wel plesiomorfie genoemd. Plesiomorfe toestanden
zijn niet bruikbaar om cladistische verwantschappen op te sporen. De buitengroep in
een analyse wordt gebruikt om te bepalen welke kenmerktoestanden primitief en
welke afgeleid zijn binnen de binnengroep (zie boven).
Zustergroep: twee groepen die rechtstreeks uit eenzelfde voorouder zijn ontstaan
noemt men zustergroepen.
Monofyletische groep: de voorouder en al zijn nakomelingen vormen een
monofyletische groep.
Parafyletische groep: een onvolledige monofyletische groep.
Binnen- en buitengroep: De groep van al de taxa waartussen men de cladistische
verwantschappen wil ophelderen wordt de binnengroep genoemd. De zustergroep van
de binnengroep is de buitengroep.
Lengte van een kenmerk: De lengte van een kenmerk op een bepaald cladogram is
het minimaal aantal overgangen tussen kenmerktoestanden dat volgens het cladogram
vereist is om de verspreiding van de kenmerktoestanden over de taxa te verklaren. De
lengte van een cladogram behorende bij een bepaalde gegevensmatrix is de som van
de lengte van alle kenmerken uit die matrix op dat cladogram. Om deze begrippen
duidelijk te maken, beschouwen we een eenvoudige matrix (Tabel 1) met vier taxa en
vier DNA kenmerken, waarbij het eerste taxon de buitengroep vormt.
1
2
3
4
1
A
G
G
G
2
G
G
G
G
3
A
A
C
C
4
T
G
C
A
Tabel 1. Matrix met 4 soorten en 4 kenmerken.
Er zijn drie mogelijke manieren waarop de taxa van de binnengroep met elkaar
verwant kunnen zijn, zoals weergegeven in figuur 3.
Voor kenmerk 1 zien we dat gelijk welke boom we verkiezen de lengte van het
kenmerk steeds 1 is. Inderdaad, er is slechts één overgang vereist van een A naar een
G, namelijk in de voorouder van taxon 2, 3 en 4, om de verspreiding van de
kenmerktoestanden te verklaren. Voor kenmerk 2 zien we dat geen enkele overgang is
vereist, de lengte van het kenmerk op de cladogrammen is dus nul. Voor kenmerk drie
zien we dat de lengte van het kenmerk verschillend is naargelang de gekozen boom.
4
Zetten we kenmerk 3 uit op boom 2 en 3, dan zien we dat er twee overgangen nodig
zijn om de verspreiding van de kenmerktoestanden over het cladogram te verklaren.
Op die bomen is de lengte van het kenmerk dus 2. Op boom 1 hebben we echter
slechts één stap nodig. Op die boom is de lengte van het kenmerk dus 1. Voor
kenmerk 4 hebben we drie stappen nodig om de verspreiding van de
kenmerktoestanden over de boom te verklaren nodig ongeacht van de gekozen boom.
De lengte van dit kenmerk is dus 3.
De lengte van cladogram 1 is dus 1+1+3=5, voor cladogram 2 en 3: 1+2+3=6.
Figuur 3. Weergave van de drie mogelijke cladogrammen voor de gegeven matrix met
optimalisatie op elk cladogram voor kenmerk 1, 3 en 4.
Parsimonie: Voor een gegeven aantal taxa bestaan steeds meerdere cladogrammen.
Het parsimonie of spaarzaamheidscriterium stelt dat het meest spaarzame cladogram
voor een gegeven matrix (cladogram met minimale lengte) de meest waarschijnlijke
evolutionaire hypothese biedt. In bovenstaand voorbeeld zou cladogram 1 dus
verkozen worden boven cladogram 2 en 3.
Van DNA tot evolutionaire boom
Om aan te duiden hoe men vanaf DNA sequentiegegevens tot een evolutionair boom
komt, nemen we een eenvoudig voorbeeld in beschouwing. Stel dat we zeven taxa
hebben, A tot G, en dat ze cladistisch verwant zijn zoals weergegeven in figuur 4.
Indien we terug zouden gaan en de evolutie van een gemeenschappelijke voorouder
van de zeven taxa zouden volgen, dan zouden we bemerken dat het DNA in de loop
van zijn evolutie verandert door o.a. mutaties. In ons voorbeeld kijken we naar de
veranderingen in een sequentie van 20 nucelotiden. Elke nucleotideplaats is een
kenmerk die elk vier kenmerktoestanden kunnen aannemen, namelijk A, C, G, T.
5
Figuur 4. Cladistische relaties voor taxa A tot G.
In de loop van de evolutie (Fig. 5) zien we dat nucleotide 2 verandert van een T naar
een C. Wanneer later deze oudersoort aanleiding geeft tot twee zustersoorten, zien we
dat elk van de twee zustersoorten deze apomorfie overerven. De twee zustersoorten
bouwen echter ook verschillen op doordat ze onafhankelijk van elkaar mutaties
ondergaan. Zo zien we dat in soort 1 nucleotideplaats 8 verandert van een A naar een
G. In de voorouder van soort 2 en 3 daarentegen verandert nucleotideplaats 5 van een
C naar een A. Deze verandering wordt opnieuw overgeërfd door de zustersoorten 2 en
3. Tegen T1 zien we dat we drie soorten hebben die reeds genetisch van elkaar
verschillen (Fig. 5).
Figuur 5. Evolutie van het DNA van de voorouder van de taxa A tot G tot van T0 tot T 1. Op
tijdstip T 1 zijn drie soorten ontstaan die elk gekenmerkt worden door een eigen DNA sequentie.
Indien we de evolutie verder volgen, dan zien we dat er verder veranderingen
optreden en dat bepaalde voorouders verder aanleiding geven aan zustersoorten tot we
uiteindelijk de taxa A tot G bekomen. Elk van deze taxa wordt gekenmerkt door een
specifieke gensequentie (Fig. 6). Deze gensequentie weerspiegelt echter ook de
evolutie die deze taxa hebben ondergaan, en kan gebruikt worden om hun
verwantschappen te reconstrueren.
6
Figuur 6. Evolutie van het DNA van de voorouder van de taxa A tot G van T0 tot T2. Op tijdstip
T2 zijn zeven soorten ontstaan die elk gekenmerkt worden door een eigen DNA sequentie.
Om dit duidelijk te maken kijken we naar de taxa D tot G waarbij we D als
buitengroep beschouwen. We willen dus de relaties ophelderen tussen de taxa E, F en
G. In principe zijn er drie mogelijk oplossingen, zoals weergegeven op figuur 7.
Figuur 7. Drie cladogrammen die de mogelijke relaties tussen de taxa F, E en G weergeven.
Kenmerk 1 is geoptimaliseerd op elk van de drie mogelijke cladogrammen.
De vraag stelt nu welk cladogram het best de geobserveerde gensequenties kan
verklaren. Indien we de gensequenties van die drie taxa bekijken, dan zien we dat ze
identiek zijn op drie nucleotiden na. Nucleotideposities 10 en 20 vertellen ons echter
niets over de verwantschappen tussen E, F en G. Deze twee kenmerken zeggen enkel
dat E, F en G verschillend zijn van D. Er is dus slechts 1 kenmerk dat ons iets zegt
over de verwantschappen tussen E, F en G, namelijk nucleotideplaats 1. Indien we dit
kenmerk uitzetten op de drie mogelijk bomen, dan zien we dat we in boom 1 en 2
telkens twee stappen nodig hebben om de verspreiding van de kenmerktoestanden op
7
de boom te verklaren. In boom 3 hebben we slechts 1 stap nodig. Deze boom is dan
ook de meest spaarzame of meest parsimone en wordt dan ook beschouwd als de
meest waarschijnlijke evolutionaire hypothese. Met andere woorden F en G zijn
sterker met elkaar verwant dan met E. Indien er meerdere taxa en meerdere
kenmerken zijn, wordt het verhaal natuurlijk iets moeilijker. Hoe men op een
systematische manier een boom kan opstellen vertrekkende vanaf een kleine matrix
wordt in de volgende paragraaf uitgelegd.
Manueel opstellen van een cladistische boom
Zie werkbladen
Een exponentieel probleem
Bovenstaande voorbeelden hebben hopelijk duidelijk gemaakt hoe men met behulp
van cladistiek de verwantschappen tussen taxa kan achterhalen. De voorbeelden
waren echter misleidend in het feit dat ze heel weinig taxa en kenmerken omvatten. In
de praktijk willen we vaak de evolutie van enkele 10-tallen of zelfs honderden soorten
ophelderen en maken we gebruik van enkele honderden tot duizenden kenmerken. Het
manueel bepalen van de meest parsimone boom is dan uitgesloten. Maar ook
computers hebben er het moeilijk mee. We hebben hier immers te maken met een
exponentieel probleem, waarbij het aantal mogelijke bomen exponentieel toeneemt
met het aantal taxa die onderzocht worden (zie Tabel 2). Er zijn echter specifieke
computeralgoritmes uitgewerkt om ook in die gevallen nog steeds een goede kans te
bekomen de meest spaarzame boom te vinden.
n
1
2
3
4
5
6
7
8
9
10
20
# opgeloste, niet gewortelde bomen
1
1
3
15
105
945
10395
135135
2027025
221643095476699771875
Tabel 2. Het aantal mogelijke volledig opgeloste, niet gewortelde bomen voor n taxa.
Het programma PHYLIP
Een van de programma's die gebruikt wordt om verwantschappen op te sporen is
PHYLIP.
Het
is
een
freeware
programma
dat
op
http://evolution.genetics.washington.edu/phylip.html afgehaald kan worden (drie
programma's zijn ook op de bijgevoegde CD terug te vinden). Een uitgebreide
Engelstalige handleiding is op het web beschikbaar. Ik beperk me hier tot de
basisbeginselen van het programma.
8
Om het programma DNAPENNY uit te testen en onze eigen resultaten te controleren,
gebruiken we de matrix met taxa A tot G en 20 DNA kenmerken die we eerder in
deze workshop hebben gebruikt. Om door het programma gelezen te kunnen worden
moet de file er als volgt uitzien:
8 20
Out
Taxon_A
Taxon_B
Taxon_C
Taxon_D
Taxon_E
Taxon_F
Taxon_G
ATTACTTAGTAAACCATAGT
ACTCCTTGGTAAACCATAGT
ACTCCTCGGTAAACCATAGT
ACTCCTCGGTAAACCATAGT
ACTAATTAGTAAACCATAGC
ACTAATTAGCAAACCATAGT
TCTAATTAGCAAACCATAGT
TCTAATTAGCAAACCATAGT
De eerste regel vermeldt het aantal taxa en het aantal kenmerken. Vervolgens volgt de
matrix met de taxonnaam die 10 tekens moet omvatten (kortere namen kunnen
eventueel met spaties worden aangevuld zoals in bovenstaand voorbeeld het geval is)
gevolgd door de kenmerktoestanden voor elk kenmerk. Ontbrekende gegevens
worden aangeduid met een streepje (-), onzekere waarden met een vraagteken (?). De
file moet als een txt file bewaard worden en in dezelfde folder geplaatst worden als de
programma's waarmee gewerkt zal worden.
Toepassing van de programma’s: zie workshop
Extra informatie
- http://evolution.genetics.washington.edu/phylip.html : homepage van PHYLIP met
volledige documentatie van alle programma's en links naar vele andere programma's
voor fylogenetische analyse
- http://biology.fullerton.edu/biol404/phylolab.html : geeft interessante informatie
over de basisbeginselen van de cladistiek (interactief met educatieve vragen)
- http://www.cladistics.org : website van de Willy Hennig Society met interessante
informatie over cladistiek.
Meer informatie of oefeningen
steven.dessein@bio.kuleuven.be
nodig?
Stuur
mij
gerust
een
e-mail:
9
Download