gene prediction. gene prediction: computational challenge...

Download Gene prediction. Gene Prediction: Computational Challenge aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatg ctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgc

Post on 12-Jan-2016

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Gene prediction

  • Gene Prediction: Computational Challenge aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

  • Gene Prediction: Computational Challenge aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

  • Gene Prediction: Computational Challenge aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

    Gene!

  • Gene Prediction AnalogyNewspaper written in unknown languageCertain pages contain encoded message, say 99 letters on page 7, 30 on page 12 and 63 on page 15.

    How do you recognize the message? You could probably distinguish between the ads and the story (ads contain the $ sign often)

    Statistics-based approach to Gene Prediction tries to make similar distinctions between exons and introns.

  • Noting the differing frequencies of symbols (e.g. %, ., -) and numerical symbols could you distinguish between a story and the stock report in a foreign newspaper? Statistical Approach: Metaphor in Unknown Language

  • Two Approaches to Gene Prediction Statistical: coding segments (exons) have typical sequences on either end and use different subwords than non-coding segments (introns). Similarity-based: many human genes are similar to genes in mice, chicken, or even bacteria. Therefore, already known mouse, chicken, and bacterial genes may help to find human genes.

  • If you could compare the days news in English, side-by-side to the same news in a foreign language, some similarities may become apparentSimilarity-Based Approach: Metaphor in Different Languages

  • Annotation of Genomic SequenceGiven the sequence of an organisms genome, we would like to be able to identify:GenesExon boundaries & splice sitesBeginning and end of translationAlternative splicingsRegulatory elements (e.g. promoters) The only certain way to do this is experimentally, but it is time consuming and expensive. Computational methods can achieve reasonable accuracy quickly, and help direct experimental approaches.primary goalssecondary goals

  • Prokaryotic Gene StructurePromoter CDS TerminatortranscriptionGenomic DNAmRNA Most bacterial promoters contain the Shine-Delgarno signal, at about -10 that has the consensus sequence: 5'-TATAAT-3'. The terminator: a signal at the end of the coding sequence that terminates the transcription of RNA The coding sequence is composed of nucleotide triplets. Each triplet codes for an amino acid. The AAs are the building blocks of proteins.

  • Pieces of a (Eukaryotic) Gene(on the genome)exons (cds & utr) / introns(~ 102-103 bp) (~ 102-105 bp)

  • What is Computational Gene Finding?Given an uncharacterized DNA sequence, find out:

    Which region codes for a protein?Which DNA strand is used to encode the gene?Which reading frame is used in that strand?Where does the gene starts and ends?Where are the exon-intron boundaries in eukaryotes?(optionally) Where are the regulatory sequences for that gene?

  • Prokaryotic Vs. Eukaryotic Gene FindingProkaryotes:

    small genomes 0.5 10106 bphigh coding density (>90%)no introns

    Gene identification relatively easy, with success rate ~ 99%

    Problems:

    overlapping ORFsshort genesfinding TSS and promotersEukaryotes:

    large genomes 107 1010 bplow coding density (

  • What is it about genes that we can measure (and model)?Most of our knowledge is biased towards protein-coding characteristicsORF (Open Reading Frame): a sequence defined by in-frame AUG and stop codon, which in turn defines a putative amino acid sequence.Codon Usage: most frequently measured by CAI (Codon Adaptation Index)Other phenomenaNucleotide frequencies and correlations: value and structureFunctional sites:splice sites, promoters, UTRs, polyadenylation sites

  • General Things to Remember about (Protein-coding) Gene Prediction SoftwareIt is, in general, organism-specific

    It works best on genes that are reasonably similar to something seen previously

    It finds protein coding regions far better than non-coding regions

    In the absence of external (direct) information, alternative forms will not be identified

    It is imperfect! (Its biology, after all)

  • Gene Finding: Different ApproachesSimilarity-based methods (extrinsic) - use similarity to annotated sequences:

    proteinscDNAsESTs

    Comparative genomics - Aligning genomic sequences from different species

    Ab initio gene-finding (intrinsic)

    Integrated approaches

  • Similarity-based methodsBased on sequence conservation due to functional constraints

    Use local alignment tools (Smith-Waterman algo, BLAST, FASTA) to search protein, cDNA, and EST databases

    Will not identify genes that code for proteins not already in databases (can identify ~50% new genes)

    Limits of the regions of similarity not well defined

  • Comparative GenomicsBased on the assumption that coding sequences are more conserved than non-coding

    Two approaches:intra-genomic (gene families)inter-genomic (cross-species)

    Alignment of homologous regions

    Difficult to define limits of higher similarity

    Difficult to find optimal evolutionary distance (pattern of conservation differ between loci)

  • Summary for Extrinsic ApproachesStrengths:

    Rely on accumulated pre-existing biological data, thus should produce biologically relevant predictions

    Weaknesses:

    Limited to pre-existing biological dataErrors in databasesDifficult to find limits of similarity

  • Ab initio Gene FindingInput: A DNA string over the alphabet {A,C,G,T}

    Output: An annotation of the string showing for every nucleotide whether it is coding or non-coding

    AAAGCATGCATTTAACGAGTGCATCAGGACTCCATACGTAATGCCGAAAGC ATG CAT TTA ACG A GT GCATC AG GA CTC CAT ACG TAA TGCCGGene finderUsing only sequence information

    Identifying only coding exons of protein-coding genes (transcription start site, 5 and 3 UTRs are ignored)

    Integrates coding statistics with signal detection

  • A eukaryotic geneThis is the human p53 tumor suppressor gene on chromosome 17.Genscan is one of the most popular gene prediction algorithms.This particular gene lies on the reverse strand.

  • ObservationsGiven (walk, shop, clean) What is the probability of this sequence of observations? (is he really still at home, or did he skip the country)What was the most likely sequence of rainy/sunny days?

Recommended

View more >