<div dir="ltr"><div><div><div><div>Hello All,<br><br></div>I'm trying to retrain Augustus using EST data from the same species and realized that quite a few of the gene models I get based on EST data are incomplete (i.e. no start and/or stop codon).<br><br></div>Now, when I get to the "etraining" step in Augustus retraining (right after the time-consuming "<a href="http://optimize_augustus.pl">optimize_augustus.pl</a>" step), I get a warning for each gene that doesn't contain a start or stop codon.<br><br><span style="font-family:monospace,monospace">.....<br>gene maker-scaffold4|size2210279-exonerate_est2genome-gene-20.1-mRNA-1 transcr. 1 in sequence scaffold4|size2210279_2021791-2044735: Initial exon does not begin with start codon but with acg<br>gene maker-scaffold4|size2210279-exonerate_est2genome-gene-20.2-mRNA-1 transcr. 1 in sequence scaffold4|size2210279_2045713-2064983: Terminal exon doesn't end in stop codon. Variable stopCodonExcludedFromCDS set right?<br>....</span><br><br></div>Does anyone know whether training is compromised by such incomplete gene models? Do you usually exclude them from the training set?<br><br></div>Oh, and by the way, the best guide to retraining Augustus is <a href="http://avrilomics.blogspot.ch/2013/04/training-augustus-gene-finding-software.html">here</a>. The <a href="http://bioinf.uni-greifswald.de/augustus/binaries/retraining.html">official</a> web page isn't bad, but doesn't explain in detail certain things.<br><div><div><br></div><div>Thanks,<br></div><div>Panos<br><br></div></div></div>