<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Yes. If you use est2genome it will just align the model, and then find the longest ORF. So it is a quick way to jsut align old models to the new assembly. Alternatively you can just do de novo annotation.<div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""><div class=""><div class=""><div class=""><br class=""></div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Oct 24, 2017, at 10:54 AM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" class="">qwzhang0601@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div class=""><div class=""><div class=""><div class=""><div class="">Dear Carson:<br class=""><br class=""></div>Thank you again for your suggestions. I just get the new genome assembly of NMR and start to do gene annotation. I understand you ideas about this. But can I simply use the old genome transcripts as transcript evidence, and just following the standard Maker2 pipeline? I set est2genome=1 and provide the mRNA sequences in the fasta format for the first round training of SNAP.<br class=""></div><div class=""><br class=""></div><div class="">For transcripts I have the following choices. I think the first choice is more reliable and better, right?<br class=""></div>(1) There are about 60,000 RefSeq transcripts from NCBI. So I downloaded those sequences in fasta format.<br class=""></div>(2) We have the raw data of RNA-seq from 11 tissues, we can do assembly by trinity for each sample and then get the transcripts. But I think most of the RNA-seq should have been submitted to NCBI. <br class=""><br class=""></div>BTW, if we use the  RefSeq data from NCBI, we can download the mRNA sequences, coding sequences or protein sequences. I wonder which type of data are the best to train the SNAP? For Augustus, we will use BUSCO to train it. <br class=""><br class=""></div>Many thanks. <br class=""><div class=""><div class=""><div class=""><div class=""><br class=""></div><div class="">Best</div><div class="">Quanwei<br class=""></div><div class=""><br class=""><br class=""><br class=""></div></div></div></div></div><div class="gmail_extra"><br class=""><div class="gmail_quote">2017-09-29 12:36 GMT-04:00 Carson Holt <span dir="ltr" class=""><<a href="mailto:carsonhh@gmail.com" target="_blank" class="">carsonhh@gmail.com</a>></span>:<br class=""><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">You can try using the est2genome=1 option to map the old models forward onto the new assembly as if they were ESTs (add a line that says est_forward=1 to the control file to maintain old naming and set est=1 to the old model transcript file). Then provide the final models as a pred_gff for a subsuquent run (i.e. a traditional MAKER run where you are annotating the new assembly with transcript and protein evidence and ab initio predictors). Don’t supply the old models to est= on that run.<br class="">
<br class="">
The idea behind doing it this way is:<br class="">
1. You need to get old models onto the new assembly so coordinates will change. So by doing it this way, you will at least be able to move many models forward based on homology.<br class="">
2. By providing the models to pred_gff on a subsequent MAKER run, you are just letting old models compete against new annotations. They will be rejected if they have no evidence support, or can be kept if they score better than alternate models from SNAP/Augustus. That way you have the chance to integrate old models while at the same time rejecting some old models that have no evidence overlap.<br class="">
<br class="">
—Carson<br class="">
<div class=""><div class="h5"><br class="">
<br class="">
> On Sep 28, 2017, at 6:05 AM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" class="">qwzhang0601@gmail.com</a>> wrote:<br class="">
><br class="">
> Hello:<br class="">
><br class="">
> Recently, we got a new version of NMR genome, whose genome had been assembled and annotated a few years ago. We can download the gene annotation from NCBI.<br class="">
><br class="">
> Now we want to annotate the new genome using Maker2 pipeline. I wonder how can I fully make use of existing annotations. On the other hand, since the previous genome is not very well assemblies, some genes annotation maybe false positives. I hope those false positive genes in previous annotation won't mislead Maker2 for current gene annotation.<br class="">
><br class="">
> Do you have any suggestions. Thanks<br class="">
><br class="">
> Best<br class="">
> Quanwei<br class="">
</div></div>> ______________________________<wbr class="">_________________<br class="">
> maker-devel mailing list<br class="">
> <a href="mailto:maker-devel@box290.bluehost.com" class="">maker-devel@box290.bluehost.<wbr class="">com</a><br class="">
> <a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" rel="noreferrer" target="_blank" class="">http://box290.bluehost.com/<wbr class="">mailman/listinfo/maker-devel_<wbr class="">yandell-lab.org</a><br class="">
<br class="">
</blockquote></div><br class=""></div>
</div></blockquote></div><br class=""></div></div></div></div></body></html>