<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">I do believe that you are getting a number of false positive genes because of under masking. So taking a more carful strategy (i.e. using the suggestions given by Michael) should mitigate that. You will have to decide how aggressive to be with the repeat masking (i.e. sensitivity/specificity balance). I would however turn off alt_splice. It has a very high threshold for how clean and complete mRNA alignments and repeat masking have to be in order to function correctly (reason why default is off). So given the filtering being done to pull back on repeat masking, it likely does not meet that threshold. It won’t really produce more genes, but you will get many spurious alternate transcripts.<div class=""><br class=""></div><div class="">Also for the gene count, make sure not to count from the fasta, that is the transcript count. You have to count the “gene" feature lines in the GFF3 to get the gene count. i.e. —> <font face="Courier" class="">grep -P -c "\tgene\t" models.gff</font></div><div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""><div class=""><br class=""></div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Oct 27, 2016, at 8:34 AM, Mohamed Amine CHEBBI <<a href="mailto:mohamed.amine.chebbi@univ-poitiers.fr" class="">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><div style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: 16.866666793823242px; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 12pt; line-height: 18.399999618530273px;" class="">Thank you<span class="Apple-converted-space"> </span><span style="background-color: white;" class="">Michael<span class="Apple-converted-space"> </span><span class=""> </span>for your response.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: 16.866666793823242px; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 12pt; line-height: 18.399999618530273px;" class="">As suggested by you, I would use Augustus and<span class=""> <span class="Apple-converted-space"> </span></span>Snap trained both by the assembled transcripts in a bootstrap fashion.<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: 16.866666793823242px; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span lang="EN-US" style="font-size: 12pt; line-height: 18.399999618530273px;" class="">For the masking, I intend to to adapt<span class="Apple-converted-space"> </span><span class=""> </span>Carson</span><span class="Apple-converted-space"> </span>strategy :<o:p class=""></o:p></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white; text-indent: -18pt;"><span lang="EN-US" style="font-size: 10pt; font-family: Symbol;" class=""><span class="">·<span class="">        <span class="Apple-converted-space"> </span></span></span></span><span lang="EN-US" style="font-size: 12pt;" class="">Collecting RepeatModeler repeats.lib<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white; text-indent: -18pt;"><span lang="EN-US" style="font-size: 10pt; font-family: Symbol;" class=""><span class="">·<span style="font-style: normal; font-variant-caps: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-family: 'Times New Roman';" class="">        <span class="Apple-converted-space"> </span></span></span></span><span lang="EN-US" style="font-size: 12pt;" class="">Searching Sequences in Modelerunknown.lib<span class="Apple-converted-space"> </span><span class=""> </span>against a transposase database (derived from </span><span style="font-size: 12pt;" class=""><a href="http://www.repeatmasker.org/" class=""><span lang="EN-US" style="color: windowtext; text-decoration: none;" class="">RepeatMasker</span></a></span><span lang="EN-US" style="font-size: 12pt;" class=""> package and </span><span style="font-size: 12pt;" class=""><a href="http://www.ncbi.nlm.nih.gov/pubmed/21535899" class=""><span lang="EN-US" style="color: windowtext; text-decoration: none;" class="">Kennedy et al (2011)</span></a></span><span lang="EN-US" style="font-size: 12pt;" class="">) and<span class="Apple-converted-space"> </span><span class=""> </span>considering sequences matching<span class="Apple-converted-space"> </span><span class=""> </span>transposases as transposons.</span><span lang="EN-US" style="font-size: 12pt;" class=""><o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white; text-indent: -18pt;"><span lang="EN-US" style="font-size: 10pt; font-family: Symbol;" class=""><span class="">·<span style="font-style: normal; font-variant-caps: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-family: 'Times New Roman';" class="">        <span class="Apple-converted-space"> </span></span></span></span><span lang="EN-US" style="font-size: 12pt;" class="">Exclusion of gene fragments in both known and unkown repeats<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white; text-indent: -18pt;"><span lang="EN-US" style="font-size: 10pt; font-family: Symbol;" class=""><span class="">·<span style="font-style: normal; font-variant-caps: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-family: 'Times New Roman';" class="">        <span class="Apple-converted-space"> </span></span></span></span><span lang="EN-US" style="font-size: 12pt;" class="">As I'm concerned by gene duplications, the remainder sequences in the unkown<span class="Apple-converted-space"> </span><span class=""> </span>lib present less than 10 times will be removed.<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white;"><span lang="EN-US" style="font-size: 12pt;" class=""><br class=""></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white;"><span lang="EN-US" style="font-size: 12pt;" class="">Thank you again for your time and I remain open to any suggestion.<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white;"><span lang="EN-US" style="font-size: 12pt;" class=""><o:p class=""> </o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 1.2pt 19.2pt; line-height: 18pt; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: white;"><span lang="EN-US" style="font-size: 12pt;" class="">Best,<o:p class=""></o:p></span></p><span lang="EN-US" style="font-family: Helvetica; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); font-size: 12pt; line-height: 18.399999618530273px;" class="">Amine</span><div style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><br class="webkit-block-placeholder"></div><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><div class="moz-cite-prefix" style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Le 27/10/2016 à 15:21, Michael Campbell a écrit :<br class=""></div><blockquote cite="mid:8935E6BD-FDEC-464B-B174-94649CB42D63@gmail.com" type="cite" style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">I think that if you train any further you will run the risk of overtraining. setting alt_splice to 1 will add transcripts but not genes, so the gene count is going to be related to the training of the gene finder. I would recommend looking at a few of your large scaffolds in a genome browser. I would also recommend adding a second gene predictor such as augustus. When multiple predictors are used and the models they predict converge you can have more confidence in the gene prediction.<div class=""><br class=""></div><div class="">For the masking you can make a species specific repeat library like Carson suggested to see if the gene count comes down a little. If you are concerned about masking duplicated genes you cad do a couple of things. You can filter the repeat library based on known proteins. You can also set a copy number minimum for the making and only include repeats that are present more than 10 time in the genome. Here are a couple of URLs for making species specific repeat libraries </div><div class=""><a moz-do-not-send="true" href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Advanced" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Advanced</a></div><div class=""><a moz-do-not-send="true" href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Basic" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction-Basic</a></div><div class=""><br class=""></div><div class="">Take care,</div><div class="">Mike</div><div class=""> <br class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 27, 2016, at 5:54 AM, Mohamed Amine CHEBBI <<a moz-do-not-send="true" href="mailto:mohamed.amine.chebbi@univ-poitiers.fr" class="">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><br class="webkit-block-placeholder"></div><div class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><br class="webkit-block-placeholder"></div><div class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><br class="webkit-block-placeholder"></div><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;">Sorry, the X and Y were switched in the plot due to a mishandling. Please find attached now the correct AED graph.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;">The round 3 (red curve) shows little higher overall AED than the second round (green curve) and more genes (<span class="" style="color: rgb(33, 33, 33); background-color: white;">22931 comparing to 22547 in the round 2). Do you think that I should stop at the second round ?</span><o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;">I didn't<span class=""> <span class="Apple-converted-space"> </span></span>precise in the precedent email that the Repeat masking was done in Maker using the Repbase and only models found by RepeatModeler having identities. I let<span class=""> <span class="Apple-converted-space"> </span></span>unmasked the unkown lib of RepeatModeler. In fact we expect a high rate of segmental and gene duplication in the genome and then we  could explain the high overall count of genes found by Maker.<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;">In the other hand the high, rate of genes may be also expalined by the fact that I activate the alt_splice=1 option to find alternative splicing, do you think that it was a good idea ?<o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;"> <o:p class=""></o:p></span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: normal; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US" style="font-size: 14pt;">Thank you very much for your time.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></p><br class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><div class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><br class="webkit-block-placeholder"></div><p class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><span class="" lang="EN-US">Best,</span></p><p class="MsoNormal" style="margin: 0cm 0cm 10pt; line-height: 16.866666793823242px; font-size: 11pt; font-family: Calibri, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Amine<br class=""><span class="" lang="EN-US"><o:p class=""></o:p></span></p><div class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><br class="webkit-block-placeholder"></div><br class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><div class="moz-cite-prefix" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Le 26/10/2016 à 20:06, Carson Holt a écrit :<br class=""></div><blockquote cite="mid:3EA2EC84-9B2A-4631-97F8-44D774E67468@gmail.com" type="cite" class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">Sorry. I also assumed X and Y was flipped when I looked at it. Now I read the labels, your AED curve would be weird unless the X and Y are flipped in your figure.<div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""><div class=""><br class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 26, 2016, at 12:04 PM, Carson Holt <<a moz-do-not-send="true" href="mailto:carsonhh@gmail.com" class="">carsonhh@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="" style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">Your AED curve looks fine. The first run (using protein2genome or est2genome I assume) will always have really low overall AED because they are exact copies of the protein/transcript alignments (so AED is meaningless there because it will always artificially look good). The protein2genome or est2genome modles also have a hard end-to-end coverage filtering cutoff of 0.5 when generated (apparent in the curve - value in maker_bopts.ctl). The next runs with SNAP show >80% of models with AED under 0.5, so it looks good. You can further look at models by adding protein domains using InterProScan in which you would expect 70-80% of models to contain a recognizable InterPro domain (false and bad models will result in very low overall domain content).<div class=""><br class=""></div><div class="">Your overall gene counts are a little high though for an arthropod (14,000-19,000 genes would be expected as gene loss rather than gene gain is the primary evolutionary force in the Ecdysozoa). However your gene counts can be explained by either insufficient repeat masking (you can add a RepeatModeler generated library to the existing settings to help with this), poor mRNA-seq assembly or a lot of noise in the RNA-seq (this can be helped with more strict assembly parameters including the jaccard-clip option in trinity), or it is just the result of assembly fragmentation (if you have a lot of contigs or runs of NNNN in the assembly, then many genes will be split which results in inflated gene counts).<br class=""><div class=""><br class=""></div><div class="">Finally manually look at the most gene dense contigs in a browser like Apollo or IGV (gene_density = gene_count / contig_length). If the most gene dense contigs are overwhelmingly single exon, then you may need to filter out some prokaryotic assembly contamination (not uncommon). If you have contamination, it will assemble as independent contigs, so is easily blacklisted and can be identified visually (always gene dense and single exon).</div><div class=""><br class=""></div><div class="">Thanks,</div><div class="">Carson</div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 26, 2016, at 7:09 AM, Mohamed Amine Chebbi <<a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:mohamed.amine.chebbi@univ-poitiers.fr"></a><a class="moz-txt-link-abbreviated" href="mailto:mohamed.amine.chebbi@univ-poitiers.fr">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class=""><div class="" style="font-family: arial, helvetica, sans-serif; font-size: 12pt;"><div class=""><div class="" style="margin: 0px; line-height: normal;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222; background:
                                                white;" class="" style="font-size: 12pt; color: rgb(34, 34, 34); background-color: white;">Hi !</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">I have tried three rounds of annotation in Maker on a non model arthropod genome (1.7Gb) which is an hybrid assembly of Pacbio and illumina reads.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">As suggested in the tutorial, I ran in the first round Maker with repeat masking to generate gene models using transcript (Trinity assembly) and protein (swissprot) evidence. Then Maker models were used twice in a bootstrap fashion to retrain SNAP.  </span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">The number of genes drops from<span class="Apple-converted-space"> </span></span><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #212121; background:
                                                white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white;">29207 in the round 1 to 22547 in the round 2 then increases slightly to 22931 in the round 3.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><br class=""><span data-mce-style="font-size:
                                                12.0pt; font-family:
                                                'Times New
                                                Roman','serif'; color:
                                                #212121; background:
                                                white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white;"><span data-mce-style="font-variant-ligatures: normal; font-variant-caps: normal; orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;" class="" style="orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;">However, the AED profile (attached) don't seem to be satisfactory.</span></span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #212121; background:
                                                white;" class="" style="font-size: 12pt; color: rgb(33, 33, 33); background-color: white;">So I wonder if you could let me a good strategy to improve the annotation quality. Do you think that filtering good transcripts could improve results. If yes , which criteria should</span><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;"><span class="Apple-converted-space"> </span>be taken into account ?</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">Thank you.</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;"><br data-mce-bogus="1" class=""></span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">Best;</span></div><div class="" style="line-height: normal; background-color: white; margin: 0px;"><span data-mce-style="font-size: 12.0pt; font-family: 'Times New
                                                Roman','serif'; color:
                                                #222222;" class="" style="font-size: 12pt;">Amine</span></div></div></div></div><span id="cid:A35AEA9C-A0B8-490E-84CF-C956A8207A2C@genetics.utah.edu" class=""><AED-Graph.pdf></span>_______________________________________________<br class="">maker-devel mailing list<br class=""><a moz-do-not-send="true" href="mailto:maker-devel@box290.bluehost.com" class="">maker-devel@box290.bluehost.com</a><br class=""><a moz-do-not-send="true" href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" class="">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br class=""></div></blockquote></div><br class=""></div></div></div></div></blockquote></div><br class=""></div></div></blockquote><br class="" style="font-family: Helvetica; font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><pre class="moz-signature" cols="72" style="font-size: 18px; font-style: normal; font-variant-ligatures: normal; font-variant-position: normal; font-variant-caps: normal; font-variant-numeric: normal; font-variant-alternates: normal; font-variant-east-asian: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">-- 
Mohamed Amine CHEBBI, PhD Student
Université de Poitiers
Laboratoire Ecologie et Biologie des Interactions - UMR CNRS 7267
Equipe Ecologie Evolution Symbiose
Bât. B8-B35 - 5 Rue Albert Turpin
TSA 51106
F-86022 Poitiers Cedex 9
FRANCE
Lab website: <a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://ecoevol.labo.univ-poitiers.fr/">http://ecoevol.labo.univ-poitiers.fr/</a></pre><span id="cid:A1915C92-1E48-4258-A2BE-A5E560F53C31" class=""><AED-Graph.pdf></span></div></blockquote></div><br class=""></div></blockquote><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><pre class="moz-signature" cols="72" style="font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">-- 
Mohamed Amine CHEBBI, PhD Student
Université de Poitiers
Laboratoire Ecologie et Biologie des Interactions - UMR CNRS 7267
Equipe Ecologie Evolution Symbiose
Bât. B8-B35 - 5 Rue Albert Turpin
TSA 51106
F-86022 Poitiers Cedex 9
FRANCE
Lab website: <a class="moz-txt-link-freetext" href="http://ecoevol.labo.univ-poitiers.fr/">http://ecoevol.labo.univ-poitiers.fr/</a></pre><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); float: none; display: inline !important;" class="">_______________________________________________</span><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); float: none; display: inline !important;" class="">maker-devel mailing list</span><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><a href="mailto:maker-devel@box290.bluehost.com" style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">maker-devel@box290.bluehost.com</a><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""></div></blockquote></div><br class=""></div></div></body></html>