Nukleotidsequenz
aus Wikipedia, der freien Enzyklopädie
Die Nukleotidsequenz oder Basensequenz ist in der Genetik die Abfolge der Nukleotide einer Nukleinsäure. Bei DNA-Sequenzen werden für die vier Basen Adenin, Guanin, Thymin und Cytosin die Symbole A, G, T und C verwendet. RNA-Sequenzen werden auf die gleiche Weise dargestellt, die Nukleinbase Thymin ist hier allerdings durch Uracil ersetzt. Daher setzen sich RNA-Sequenzen aus den Symbolen A, C, G und U zusammen.
Übereinkunftsgemäß wird die Nukleotidsequenz vom 5'-Ende zum 3'-Ende des Stranges gelesen, in der gleichen Richtung, in der die Polymerase die Nukleinsäure synthetisiert.
[Bearbeiten] Bestimmung
Eine DNA-Sequenz wird durch DNA-Sequenzierung ermittelt. DNA-Sequenzen werden unter anderem in großen öffentlichen Sequenzdatenbanken wie z. B. GenBank gespeichert.
[Bearbeiten] Statistische Analyse
Aufgrund der Darstellung als Symbolfolge lässt sich die DNA statistisch gut untersuchen. Es kann beispielsweise die Häufigkeit so genannter n-Tupel, d. h. das Vorkommen von Teilwörtern der Länge n untersucht werden. So taucht im menschlichen Genom im Mittel die Folge "CG" deutlich seltener auf als alle anderen 2er-Wörter. Die lokalen Häufigkeitsverteilungen verschiedener Nukleotidwörter können erste Hinweise auf die Funktionen bestimmter DNA-Abschnitte geben (CpG-Inseln, Stoppcodons, Sequenzenden von Introns).


