<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">You should not have to train separately for SNAP on unmasked sequence, and I do believe adding back genes that were rejected because of lack of support but contain an identifiable domain may help. These will be in the fasta files labeled non-overlapping file in the datastore.<br class=""><div><br class=""></div><div>—Carson</div><div><br class=""><blockquote type="cite" class=""><div class="">On Nov 21, 2017, at 10:42 AM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" class="">qwzhang0601@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div class=""><div class=""><div class=""><div class=""><div class="">Dear Carson:<br class=""><br class=""></div>Thank you for your comments and suggestions. Now the SNAP was trained with repeat masked, is it necessary to retrain the predictor without repeat masking?<br class=""></div>By BUSCO analysis on the genome, the completeness is shown as below. Now I am doing the analysis using the default reports of Maker2 (i.e., gene models with evidence support, the default build). For the gene loss, besides you suggestions I am also considering to do the analysis using the gene models with evidence support plus those with scanned domains (i.e., standard build). How do you think? <br class=""></div><div class=""><br class=""></div><div class=""><br class=""><div style="margin-top: 0pt; margin-bottom: 0pt; margin-left: 0in; text-align: left; direction: ltr; unicode-bidi: embed; word-break: normal;" class=""><span style="font-size: 12pt; font-family: Mangal;" class="">C:95.0%[S:92.7%,D:2.3%],F:2.2%,M:2.8%,n:4104</span></div><div style="margin-top: 0pt; margin-bottom: 0pt; margin-left: 0in; text-align: left; direction: ltr; unicode-bidi: embed; word-break: normal;" class=""><span style="font-size: 12pt; font-family: Calibri;" class=""><span class="">  </span>3902<span class="">  </span>Complete
BUSCOs (C)</span></div><div style="margin-top: 0pt; margin-bottom: 0pt; margin-left: 0in; text-align: left; direction: ltr; unicode-bidi: embed; word-break: normal;" class=""><span style="font-size: 12pt; font-family: Calibri;" class=""><span class="">  </span>3806<span class="">  </span>Complete
and single-copy BUSCOs (S)</span></div><div style="margin-top: 0pt; margin-bottom: 0pt; margin-left: 0in; text-align: left; direction: ltr; unicode-bidi: embed; word-break: normal;" class=""><span style="font-size: 12pt; font-family: Calibri;" class=""><span class="">  </span>96<span class="">  </span>Complete
and duplicated BUSCOs (D)</span></div><div style="margin-top: 0pt; margin-bottom: 0pt; margin-left: 0in; text-align: left; direction: ltr; unicode-bidi: embed; word-break: normal;" class=""><span style="font-size: 12pt; font-family: Calibri;" class=""><span class="">  </span>92<span class="">  </span>Fragmented
BUSCOs (F)</span></div>

<span style="font-size: 12pt; font-family: Calibri;" class=""><span class="">  </span>110<span class="">  </span>Missing
BUSCOs (M)</span>



<br class=""><br class=""></div>Thanks<br class=""></div>Best<br class=""></div>Quanwei<br class=""><div class=""><div class=""><div class="">  </div></div></div></div><div class="gmail_extra"><br class=""><div class="gmail_quote">2017-11-21 11:19 GMT-05:00 Carson Holt <span dir="ltr" class=""><<a href="mailto:carsonhh@gmail.com" target="_blank" class="">carsonhh@gmail.com</a>></span>:<br class=""><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space" class="">No known biases, but if you are concerned, you can collect known Histone H2A, H2B, H4 proteins and transcripts from other species (protein= and altest= options), them run MAKER with no masking to see if you gain any models that may have been overlooked because of over-masking of repeats. Make sure to evaluate any models you find as being a pseudogene. Run InterProScan on results to make sure they contain known InterPro domains for that gene family as well. Running without repeat masking will increase sensitivity but also false positives derived from low homology alignments to simple repeats which is why you need to evaluate results using something like InterProScan.<div class=""><br class=""></div><div class="">Also run BUSCO to evaluate the completeness of the genome. Make sure that the observed contraction is not just a result of an incomplete assembly.<br class=""><div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""><div class=""><br class=""><blockquote type="cite" class=""><div class=""><div class="h5"><div class="">On Nov 16, 2017, at 12:46 PM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" target="_blank" class="">qwzhang0601@gmail.com</a>> wrote:</div><br class="m_-6798815079585919037Apple-interchange-newline"></div></div><div class=""><div class=""><div class="h5"><div dir="ltr" class=""><div class=""><div class=""><div class=""><div class="">Hello:<br class=""><br class=""></div>We have annotated a new rodent genome using Maker2. Based on the annotated maker2 gene sets, we did gene family expansion/contraction analysis using CAFE. We found Histone H2A, H2B, H4 gene families are under contraction. I wonder whether there are known bias to predict those gene families using Maker2? For example, can this due to repeat masking of the genome? I used repeatmaker and generated species specific repeat libraries follows <a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction--Basic" target="_blank" class="">http://weatherby.genetics.<wbr class="">utah.edu/MAKER/wiki/index.php/<wbr class="">Repeat_Library_Construction--<wbr class="">Basic</a>.<br class=""><br class=""></div>Thanks<br class=""><br class=""></div>Best<br class=""></div>Quanwei<br class=""></div></div></div>
______________________________<wbr class="">_________________<br class="">maker-devel mailing list<br class=""><a href="mailto:maker-devel@box290.bluehost.com" target="_blank" class="">maker-devel@box290.bluehost.<wbr class="">com</a><br class=""><a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank" class="">http://box290.bluehost.com/<wbr class="">mailman/listinfo/maker-devel_<wbr class="">yandell-lab.org</a><br class=""></div></blockquote></div><br class=""></div></div></div></blockquote></div><br class=""></div>
</div></blockquote></div><br class=""></body></html>