<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">I think that if you train any further you will run the risk of overtraining. setting alt_splice to 1 will add transcripts but not genes, so the gene count is going to be related to the training of the gene finder. I would recommend looking at a few of your large scaffolds in a genome browser. I would also recommend adding a second gene predictor such as augustus. When multiple predictors are used and the models they predict converge you can have more confidence in the gene prediction.<div class=""><br class=""></div><div class="">For the masking you can make a species specific repeat library like Carson suggested to see if the gene count comes down a little. If you are concerned about masking duplicated genes you cad do a couple of things. You can filter the repeat library based on known proteins. You can also set a copy number minimum for the making and only include repeats that are present more than 10 time in the genome. Here are a couple of URLs for making species specific repeat libraries </div><div class=""><a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Advanced" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Advanced</a></div><div class=""><a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Basic" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Basic</a></div><div class=""><br class=""></div><div class="">Take care,</div><div class="">Mike</div><div class=""> <br class=""><div><blockquote type="cite" class=""><div class="">On Oct 27, 2016, at 5:54 AM, Mohamed Amine CHEBBI <<a href="mailto:mohamed.amine.chebbi@univ-poitiers.fr" class="">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><div style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><div style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class="">Sorry, the X and Y were switched in the plot due to a mishandling. Please find attached now the correct AED graph.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class="">The round 3 (red curve) shows little higher overall AED than the second round (green curve) and more genes (<span style="color: rgb(33, 33, 33); background-color: white; background-position: initial initial; background-repeat: initial initial;" class="">22931 comparing to 22547 in the round 2). Do you think that I should stop at the second round ?</span><o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class="">I didn't<span class=""> <span class="Apple-converted-space"> </span></span>precise in the precedent email that the Repeat masking was done in Maker using the Repbase and only models found by RepeatModeler having identities. I let<span class=""> <span class="Apple-converted-space"> </span></span>unmasked the unkown lib of RepeatModeler. In fact we expect a high rate of segmental and gene duplication in the genome and then we  could explain the high overall count of genes found by Maker.<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class="">In the other hand the high, rate of genes may be also expalined by the fact that I activate the alt_splice=1 option to find alternative splicing, do you think that it was a good idea ?<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class=""> <o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 14pt;" class="">Thank you very much for your time.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></p><br style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><div style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><p style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><span lang="EN-US" class="">Best,</span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: 16.866666793823242px; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Amine<br class=""><span lang="EN-US" class=""><o:p class=""></o:p></span></p><div style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><br style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><div class="moz-cite-prefix" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Le 26/10/2016 à 20:06, Carson Holt a écrit :<br class=""></div><blockquote cite="mid:3EA2EC84-9B2A-4631-97F8-44D774E67468@gmail.com" type="cite" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">Sorry. I also assumed X and Y was flipped when I looked at it. Now I read the labels, your AED curve would be weird unless the X and Y are flipped in your figure.<div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""><div class=""><br class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 26, 2016, at 12:04 PM, Carson Holt <<a moz-do-not-send="true" href="mailto:carsonhh@gmail.com" class="">carsonhh@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="" style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">Your AED curve looks fine. The first run (using protein2genome or est2genome I assume) will always have really low overall AED because they are exact copies of the protein/transcript alignments (so AED is meaningless there because it will always artificially look good). The protein2genome or est2genome modles also have a hard end-to-end coverage filtering cutoff of 0.5 when generated (apparent in the curve - value in maker_bopts.ctl). The next runs with SNAP show >80% of models with AED under 0.5, so it looks good. You can further look at models by adding protein domains using InterProScan in which you would expect 70-80% of models to contain a recognizable InterPro domain (false and bad models will result in very low overall domain content).<div class=""><br class=""></div><div class="">Your overall gene counts are a little high though for an arthropod (14,000-19,000 genes would be expected as gene loss rather than gene gain is the primary evolutionary force in the Ecdysozoa). However your gene counts can be explained by either insufficient repeat masking (you can add a RepeatModeler generated library to the existing settings to help with this), poor mRNA-seq assembly or a lot of noise in the RNA-seq (this can be helped with more strict assembly parameters including the jaccard-clip option in trinity), or it is just the result of assembly fragmentation (if you have a lot of contigs or runs of NNNN in the assembly, then many genes will be split which results in inflated gene counts).<br class=""><div class=""><br class=""></div><div class="">Finally manually look at the most gene dense contigs in a browser like Apollo or IGV (gene_density = gene_count / contig_length). If the most gene dense contigs are overwhelmingly single exon, then you may need to filter out some prokaryotic assembly contamination (not uncommon). If you have contamination, it will assemble as independent contigs, so is easily blacklisted and can be identified visually (always gene dense and single exon).</div><div class=""><br class=""></div><div class="">Thanks,</div><div class="">Carson</div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 26, 2016, at 7:09 AM, Mohamed Amine Chebbi <<a moz-do-not-send="true" href="mailto:mohamed.amine.chebbi@univ-poitiers.fr" class=""></a><a class="moz-txt-link-abbreviated" href="mailto:mohamed.amine.chebbi@univ-poitiers.fr">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class=""><div class="" style="font-family: arial, helvetica, sans-serif; font-size: 12pt;"><div class=""><div class="" style="margin: 0px; line-height: normal;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;
                                      background: white;" class="" style="font-size: 12pt; color: rgb(34, 34, 34); background-color: white; background-position: initial initial; background-repeat: initial initial;">Hi !</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">I have tried three rounds of annotation in Maker on a non model arthropod genome (1.7Gb) which is an hybrid assembly of Pacbio and illumina reads.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">As suggested in the tutorial, I ran in the first round Maker with repeat masking to generate gene models using transcript (Trinity assembly) and protein (swissprot) evidence. Then Maker models were used twice in a bootstrap fashion to retrain SNAP.  </span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">The number of genes drops from<span class="Apple-converted-space"> </span></span><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #212121;
                                      background: white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white; background-position: initial initial; background-repeat: initial initial;">29207 in the round 1 to 22547 in the round 2 then increases slightly to 22931 in the round 3.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><br class=""><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #212121;
                                      background: white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white; background-position: initial initial; background-repeat: initial initial;"><span data-mce-style="font-variant-ligatures: normal; font-variant-caps: normal; orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;" class="" style="orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;">However, the AED profile (attached) don't seem to be satisfactory.</span></span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #212121;
                                      background: white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white; background-position: initial initial; background-repeat: initial initial;">So I wonder if you could let me a good strategy to improve the annotation quality. Do you think that filtering good transcripts could improve results. If yes , which criteria should</span><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;"><span class="Apple-converted-space"> </span>be taken into account ?</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">Thank you.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;"><br data-mce-bogus="1" class=""></span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">Best;</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt;
                                      font-family: 'Times New
                                      Roman','serif'; color: #222222;" class="" style="font-size: 12pt;">Amine</span></div></div></div></div><span id="cid:A35AEA9C-A0B8-490E-84CF-C956A8207A2C@genetics.utah.edu" class=""><AED-Graph.pdf></span>_______________________________________________<br class="">maker-devel mailing list<br class=""><a moz-do-not-send="true" href="mailto:maker-devel@box290.bluehost.com" class="">maker-devel@box290.bluehost.com</a><br class=""><a moz-do-not-send="true" href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" class="">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br class=""></div></blockquote></div><br class=""></div></div></div></div></blockquote></div><br class=""></div></div></blockquote><br style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><pre class="moz-signature" cols="72" style="font-size: 18px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">-- 
Mohamed Amine CHEBBI, PhD Student
Université de Poitiers
Laboratoire Ecologie et Biologie des Interactions - UMR CNRS 7267
Equipe Ecologie Evolution Symbiose
Bât. B8-B35 - 5 Rue Albert Turpin
TSA 51106
F-86022 Poitiers Cedex 9
FRANCE
Lab website: <a class="moz-txt-link-freetext" href="http://ecoevol.labo.univ-poitiers.fr/">http://ecoevol.labo.univ-poitiers.fr/</a></pre><span id="cid:A1915C92-1E48-4258-A2BE-A5E560F53C31"><AED-Graph.pdf></span></div></blockquote></div><br class=""></div></body></html>