Bioinformatica: Hoe algoritmen tot leven brengen

advertisement
Bioinformatica: Hoe algoritmen tot leven brengen ?
Prof. dr. ir. Bart De Moor
ESAT-SCD K.U.Leuven Kasteelpark Arenberg 10 B-3001 Leuven
T: 016321709 F: 016321970 M: 0475287052 E: bart.demoor@esat.kuleuven.ac.be
W: http://www.kuleuven.ac.be/cv/u0008904.htm http://www.esat.kuleuven.ac.be/~demoor
Doorbraken in de bio(techno)logie
De dubbele helix
Eén van de grootste doorbraken in de biologie staat beschreven in een artikel van slechts één pagina,
van de hand van Watson en Crick (Nature 1953). Daarin beschreven de auteurs de geometrischchemische structuur van het DNA (Deoxyribo-Nucleic Acid) als een soort wenteltrap, waarvan de
treden bestaan uit complementaire paren van moleculen, nucleotides genaamd. Van deze nucleotides
– ook soms aangeduid met ‘bases’ - zijn er vier, namelijk A (Adenine), C (Cytosine), T (Thymine)
en G (Guanine). De treden van de wenteltrap bestaan telkens uit complementaire baseparen A-T en
G-C. De dubbele spiraal – vandaar de omschrijving van de structuur van het DNA als een ‘dubbele
helix’ - bestaat uit twee ketens van fosfaat-deoxyribose suikerpolymeren, waartussen zich de treden
van basenparen bevinden. De complementariteit in het DNA – het feit dat A altijd met T, en G altijd
met C voorkomt – is één van de fundamentele principes in de overerving van genetisch materiaal (in
de les wordt uitgelegd hoe dit precies gebeurt). De complementariteit in het DNA laat toe om
genetische informatie als het ware te ‘ontdubbelen’.
De genetische code (sterk vereenvoudigd dan toch)
In het DNA van organismen vinden we meestal ‘coderende’ regio’s en niet-coderende regio’s.
Coderende regio’s zijn stukken DNA die de code bevatten voor de aanmaak van een bepaald eiwit
(proteïne). Eiwitten zijn de ‘werkpaarden’ van de cel: Zowat alle processen in een cel worden
geregeld en uitgevoerd door middel van eiwitten. De manier waarop eiwitten worden aangemaakt,
gaat ongeveer als volgt: Via bepaalde afleesmechanismen worden coderende stukken DNA (genen)
per drie nucleotiden afgelezen. Dergelijk triplet van drie bases noemt men een codon. Elk codon
‘codeert’ voor een bepaald aminozuur (in de natuur zijn er 20 verschillende aminozuren) en elk eiwit
bestaat uit een aaneenrijging van aminozuren. Samengevat kan je dus stellen dat elk gen in het DNA
de code bevat voor de aanmaak van een bepaald proteïne.
Maar naast de genen zijn er nog andere ‘functionele’ stukken in het DNA die heel belangrijk zijn. Je
kan ze vergelijken met ‘schakelaars’ of ‘dimmers’. Men noemt dit regulatorische elementen. Zij
bepalen wanneer en hoeveel van een bepaalde proteïne wordt aangemaakt en het vinden van deze
regulatorische elementen is een belangrijke uitdaging (waarover meer in de les).
Het menselijk genoom
In 2001 werd de volledige volgorde van alle letters van het menselijk DNA (zo’n 3 miljard in totaal)
bekendgemaakt. Dit was het resultaat van het zogenaamde ‘Human Genome Project’, een megaproject waar verschillende honderden wetenschappers aan hebben meegewerkt. Deze menselijke
DNA sekwentie kan men nu raadplegen op het Web. De afgelopen jaren zijn trouwens ook de DNA
sekwenties van verschillende andere organismen volledig ontrafeld (virussen, bacteriën, planten en
dieren). Men kan deze ook integraal vinden op het Web.
Microroosters
Merkwaardig genoeg ligt de complementariteit van het DNA ook aan de basis van een nieuw soort
technologie, deze van de ‘microroosters’. Een microrooster – ook wel DNA chip genoemd – is een
plaatje van glas of silicium, waarop genetisch materiaal is aangebracht (bvb. 4000 stukjes van
verschillende genen) en waarmee men de activiteitsgraad (expressieniveau) van 4000 genen in een
biologische staal kan meten (gaande van ‘geen’ tot ‘hoge’ activiteit, een beetje te vergelijken met
een allergietest op je arm). Op deze manier kan men aan de hand van genexpressies zien welke
1
genen in welke mate actief zijn in een bepaald weefsel op een bepaald ogenblik (bvb. in een tumor).
Deze technologie van microroosters kan op korte tijd zeer veel meetgegevens genereren (bvb. de
expressieniveaus van 4000 genen gemeten bij 1000 patiënten op 20 verschillende tijdstippen).
Doorbraken in de informatietechnologie
Ook de informatietechnologie heeft de laatste vijftig jaar grote doorbraken gekend: de ontdekking
van de transistor, de uitvinding van de computer (met de ‘Wet van Moore’ die stelt dat de
rekenkracht van onze computers elke 18 maand verdubbelt), de verschillende doorbraken op het
gebied van numerieke algoritmes (software) en databanken, en natuurlijk ook het World Wide Web,
die nu een zeer gebruikersvriendelijke raadpleging toelaat van bvb. biologische-genetische
databanken en databanken van medische literatuur. Dit laatste gebeurt trouwens ‘volautomatisch’
d.m.v. ‘text-mining’.
Wat is bioinformatica ?
Bioinformatica is de ‘nieuwe’ discipline die ontstaat op de doorsnede tussen de moderne moleculaire
biologie, de biotechnologie (bvb. microroosters) en de informatietechnologie (computers, numerieke
wiskunde en statistiek, databanken en het WWW, text-mining). Het is een multidisciplinaire
wetenschap bij uitstek, bedreven door teams bestaande uit biologen, geneeskundigen, bio- en
burgerlijk ingenieurs en wiskundigen en statistici. In deze les zullen we deze nieuwe discipline
beschrijven aan de hand van drie gevallenstudies.
Voorbeeld 1: Klinische toepassingen in de oncologie – diagnose van kanker
Voorbeeld 2: Ontrafelen van DNA functies – nieuwe biologische inzichten
Voorbeeld 3: Systeembiologie: Geïntegreerd en multidisciplinair onderzoek
Wat brengt de toekomst ?
In een laatste deel van de les zullen we uitleggen waarom de bioinformatica nog maar in haar
kinderschoenen staat. Immers, de nauwkeurigheid en schaal waarmee men biologische processen
kan opmeten, zal snel (exponentieel?) toenemen in de nabije toekomst (bvb. proteomics,
metabolomics). Dit alles zal een massale toevloed aan biologische en klinische gegevens met zich
meebrengen. Bovendien neemt ook de op het Web beschikbare wetenschappelijke en medische
informatie exponentieel toe. We geven dan ook een voorafspiegeling van wat ons in de nabije
toekomst te wachten staat, en tot welk soort juridische, etische en democratische uitdagingen één en
ander zal leiden.
Examenvragen
1. Beschrijf in woorden en eventueel aan de hand van enkele verduidelijkende schetsen hoe de
genetische code in principe werkt (o.a. wat is DNA, wat is de dubbele helix, wat is een
aminozuur, wat is een eiwit, wat is de hiërarchie en interactie tussen deze componenten, enz...)
Zoek één en ander ook even verder uit door te ‘surfen’ op het Web en enkele verhelderende
websites te localizeren en te bestuderen.
2. Wat is bioinformatica ? Geef enkele voorbeelden en/of bespreek enkele gevallenstudies.
3. Bespreek juridische, etische en democratische deficits die bestaan of in de nabije toekomst
kunnen ontstaan vanuit de biotechnologie en bioinformatica.
Enkele referenties
Een recent overzichtsartikel is: De Moor B., Marchal K., Mathys J., Moreau Y., ``Bioinformatics : Organisms from
Venus, Technology from Jupiter, Algorithms from Mars'', European Journal of Control, vol. 9, no. 2-3, 2003, pp. 237278; Te downloaden van http://www.esat.kuleuven.ac.be/~sistawww/cgi-bin/pub.pl (rapport nr.03-113)
Enkele websites: www.vib.be, http://www.esat.kuleuven.ac.be/~dna/BioI/
2
Download