<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Your AED curve looks fine. The first run (using protein2genome or est2genome I assume) will always have really low overall AED because they are exact copies of the protein/transcript alignments (so AED is meaningless there because it will always artificially look good). The protein2genome or est2genome modles also have a hard end-to-end coverage filtering cutoff of 0.5 when generated (apparent in the curve - value in maker_bopts.ctl). The next runs with SNAP show >80% of models with AED under 0.5, so it looks good. You can further look at models by adding protein domains using InterProScan in which you would expect 70-80% of models to contain a recognizable InterPro domain (false and bad models will result in very low overall domain content).<div class=""><br class=""></div><div class="">Your overall gene counts are a little high though for an arthropod (14,000-19,000 genes would be expected as gene loss rather than gene gain is the primary evolutionary force in the Ecdysozoa). However your gene counts can be explained by either insufficient repeat masking (you can add a RepeatModeler generated library to the existing settings to help with this), poor mRNA-seq assembly or a lot of noise in the RNA-seq (this can be helped with more strict assembly parameters including the jaccard-clip option in trinity), or it is just the result of assembly fragmentation (if you have a lot of contigs or runs of NNNN in the assembly, then many genes will be split which results in inflated gene counts).<br class=""><div class=""><br class=""></div><div class="">Finally manually look at the most gene dense contigs in a browser like Apollo or IGV (gene_density = gene_count / contig_length). If the most gene dense contigs are overwhelmingly single exon, then you may need to filter out some prokaryotic assembly contamination (not uncommon). If you have contamination, it will assemble as independent contigs, so is easily blacklisted and can be identified visually (always gene dense and single exon).</div><div class=""><br class=""></div><div class="">Thanks,</div><div class="">Carson</div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Oct 26, 2016, at 7:09 AM, Mohamed Amine Chebbi <<a href="mailto:mohamed.amine.chebbi@univ-poitiers.fr" class="">mohamed.amine.chebbi@univ-poitiers.fr</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class=""><div style="font-family: arial, helvetica, sans-serif; font-size: 12pt;" class=""><div class=""><div style="margin: 0px; line-height: normal;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222; background: white;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222; background: white;" class="">Hi ! </span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">I have tried three rounds of annotation in Maker on a non model arthropod genome (1.7Gb) which is an hybrid assembly of Pacbio and illumina reads.</span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">As suggested in the tutorial, I ran in the first round Maker with repeat masking to generate gene models using transcript (Trinity assembly) and protein (swissprot) evidence. Then Maker models were used twice in a bootstrap fashion to retrain SNAP.  </span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">The number of genes drops from </span><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" class="">29207 in the round 1 to 22547 in the round 2 then increases slightly to 22931 in the round 3.</span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><br class=""> <span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" class=""><span style="font-variant-ligatures: normal; font-variant-caps: normal; orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;" data-mce-style="font-variant-ligatures: normal; font-variant-caps: normal; orphans: 2; white-space: pre-wrap; widows: 2; -webkit-text-stroke-width: 0px; float: none; word-spacing: 0px;" class="">However, the AED profile (attached) don't seem to be satisfactory.</span></span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #212121; background: white;" class="">So I wonder if you could let me a good strategy to improve the annotation quality. Do you think that filtering good transcripts could improve results. If yes , which criteria should</span><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class=""> be taken into account ?</span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">Thank you.</span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class=""><br data-mce-bogus="1" class=""></span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">Best;</span></div><div style="line-height: normal; background-color: white; margin: 0px; background-position: initial initial; background-repeat: initial initial;" class=""><span style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" data-mce-style="font-size: 12.0pt; font-family: 'Times New Roman','serif'; color: #222222;" class="">Amine</span></div></div></div></div><span id="cid:A35AEA9C-A0B8-490E-84CF-C956A8207A2C@genetics.utah.edu"><AED-Graph.pdf></span>_______________________________________________<br class="">maker-devel mailing list<br class=""><a href="mailto:maker-devel@box290.bluehost.com" class="">maker-devel@box290.bluehost.com</a><br class="">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org<br class=""></div></blockquote></div><br class=""></div></div></body></html>