<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Arial,Helvetica,sans-serif;" dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Arial,Helvetica,sans-serif;" dir="ltr">
<p>Dear Carson and Daniel,</p>
<p><br>
</p>
<p>Thanks for getting back to me promptly. <br>
</p>
<p>Adding the path to genemark executable in maker_exe.ctl fixes the error.</p>
<p>Hopefully <span>optimize_augustus.pl</span> runs quicker compared to <font class="">
<span style="background-color: rgba(255, 255, 255, 0);" class="">autoAug.pl </span>
</font>(which has been running for almost a week now)</p>
<p>It would be interesting and we look forward to evaluate which model optimizes our expected gene count, AED values and has recognizable domains.</p>
<p>PS. We think BUSCO  has helped us to evaluate gene model completeness. <br>
</p>
<p><br>
</p>
<p>Thanks,</p>
<p>Parul<br>
</p>
<br>
<p></p>
<div id="Signature"><b>----</b><br>
<b></b>
<div id="divtagdefaultwrapper" style="font-size:12pt; color:#000000; background-color:#FFFFFF; font-family:Calibri,Arial,Helvetica,sans-serif">
<p><b>Parul Kudtarkar</b></p>
<p></p>
<p class="title p-job-title">Bioinformatician</p>
<p class="department org p-org"><span class="organization-unit p-organization-unit">Biology and Biological Engineering</span>
</p>
<p id="office">Office<b>:</b> 278 Beckman Institute</p>
<p><span>California Institute of Technology</span><br>
</p>
<span class="street-address p-street-address">MC 139-74</span><br>
<span class="locality p-locality">Pasadena</span> <span class="region p-region">CA</span>
<span class="postal-code p-postal-code">91125</span>
<p></p>
<p><span class="postal-code p-postal-code"><a href="http://www.echinobase.org" id="LPNoLP">http://www.echinobase.org</a></span><br>
</p>
</div>
</div>
</div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> Carson Holt <carsonhh@gmail.com><br>
<b>Sent:</b> Tuesday, November 29, 2016 9:34:31 AM<br>
<b>To:</b> Kudtarkar, Parul V.<br>
<b>Cc:</b> maker-devel@yandell-lab.org<br>
<b>Subject:</b> Re: error: training genemodel with SNAP and GeneMark & run time to generate AUGUTUS species file</font>
<div> </div>
</div>
<div>How to train Augustus —> <a href="http://www.molecularevolution.org/molevolfiles/exercises/augustus/training.html" class="">http://www.molecularevolution.org/molevolfiles/exercises/augustus/training.html</a>
<div class=""><br class="">
</div>
<div class="">Step 2 shows how to create an empty species to start training with. Then Step 4 (optimize_augustus.pl) is the step that takes a while.</div>
<div class=""><br class="">
</div>
<div class="">Then for GeneMark, you must set the location of the necessary GeneMark executables in the maker_exe.ctl file.</div>
<div class=""><br class="">
</div>
<div class="">After getting all predictors trained, and running a few contigs, take a moment to review the predictor performance by manually reviewing them in something like Apollo. It is not uncommon that one or more perform poorly on an organism (they should
 each produce similar predictions). If one is significantly off relative to the other predictors and the evidence, it should be dropped. A bad behaving predictor will reduce the overall annotation performance.</div>
<div class=""><br class="">
</div>
<div class="">—Carson</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
<div>
<blockquote type="cite" class="">
<div class="">On Nov 29, 2016, at 10:13 AM, Kudtarkar, Parul V. <<a href="mailto:parulk@caltech.edu" class="">parulk@caltech.edu</a>> wrote:</div>
<br class="Apple-interchange-newline">
<div class="">
<div dir="auto" class="">
<div class=""><span class=""></span></div>
<div class="">
<div class=""><span class=""></span></div>
<div class=""><span class=""></span><br class="">
<span class=""></span>
<blockquote type="cite" class="">
<div id="divtagdefaultwrapper" dir="ltr" class="">
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">Dear Maker developers,</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">1. We use assembled RNAseq(from same species) and protein evidence(from evolutionary close species) to generate training gene structure(1st iteration, est2genome=1,protein2genome=1
 ). <br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">2. This is than used to train abinito gene predictors, SNAP and AUGUSTUS. <br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">3. GeneMarkES( version: GeneMark-ES / ET v.4.32) is used to produce training data-set with the command</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">gmes_petap.pl --sequence pmin_jelly.fa<br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">4. We would be predicting genes using results from SNAP, Genemark and AUGUSTUS(2nd iteration, est2genome=0, protein2genome=0) </span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">I have couple of questions relating to Genemark and AUGUSTUS</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">1. AUGUSTUS</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">We do not have a species file for species file of our interest or evolutionary closer species</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">following command is used to generate species file</span></font></p>
<div class=""><br class="webkit-block-placeholder">
</div>
<div class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">/autoAug.pl --genome=pmin_jelly.fa --species=pminiata --cdna=pmin_transcripts.fa --trainingset=genome.gff3 --singleCPU -v --useexisting <br class="">
</span></font></div>
<b style="background-color: rgba(255, 255, 255, 0);" class=""><font class="">AUGUSTUS is taking too long to compute species file, is there a solution for this issue. Using species file from other organism might generate false positives. Is it advised in such
 situations to not used AUGUSTUS model?</font></b>
<div class=""><br class="webkit-block-placeholder">
</div>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class=""><b class=""></b>2. Genemark<br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">I used the gmhmm file generated in the genemark output directory, however I encounter following error</span></font></p>
<div class=""><br class="webkit-block-placeholder">
</div>
<div class="">
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">-------------------------<br class="">
</span></font></p>
<div class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class=""><b class="">STATUS: Parsing control files...<br class="">
ERROR: You have failed to provide a value for 'gmhmme3' in the control files.<br class="">
ERROR: You have failed to provide a value for 'probuild' in the control files.</b><br class="">
</span></font></div>
<font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">---------------------</span></font></div>
<font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">FYI</span></font>
<div class=""><br class="webkit-block-placeholder">
</div>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">-----<br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">maker_opts.ctl<br class="">
</span></font></p>
<div class=""><br class="webkit-block-placeholder">
</div>
<div class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">#-----Gene Prediction<br class="">
snaphmm=/home/parul/Pmin_new/maker_snap/pmin1.hmm #SNAP HMM file<br class="">
gmhmm=/home/parul/Pmin_new/maker_snap/gmhmm.mod #GeneMark HMM file<br class="">
</span></font></div>
<div class=""><br class="webkit-block-placeholder">
</div>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">-----<br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">Using SNAP for training gene model yields over 6000-7000 additional gene. The model has good cumulative AED value. <br class="">
</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">I was hoping in addition to SNAP, if I could use AUGUSTUS and GeneMark to train the gene model to fuse dispersed models so that the gene count is within the expected
 range.</span></font></p>
<p class=""><br class="">
</p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">Thanks and regards,</span></font></p>
<p class=""><font class=""><span style="background-color: rgba(255, 255, 255, 0);" class="">Parul<br class="">
</span></font></p>
</div>
</blockquote>
<div class="">
<div dir="ltr" class="">
<p class=""><br class="">
</p>
</div>
</div>
<span class="">Sent from my iPhone</span><br class="">
</div>
</div>
</div>
</div>
</blockquote>
</div>
<br class="">
</div>
</div>
</div>
</body>
</html>