<div dir="ltr"><div><div><div><div><div>Dear Carson:<br><br></div>Thank you for your comments and suggestions. Now the SNAP was trained with repeat masked, is it necessary to retrain the predictor without repeat masking?<br></div>By BUSCO analysis on the genome, the completeness is shown as below. Now I am doing the analysis using the default reports of Maker2 (i.e., gene models with evidence support, the default build). For the gene loss, besides you suggestions I am also considering to do the analysis using the gene models with evidence support plus those with scanned domains (i.e., standard build). How do you think? <br></div><div><br></div><div><br>










<p style="margin-top:0pt;margin-bottom:0pt;margin-left:0in;text-align:left;direction:ltr;unicode-bidi:embed;word-break:normal"><span style="font-size:12pt;font-family:Mangal;color:black">C:95.0%[S:92.7%,D:2.3%],F:2.2%,M:2.8%,n:4104</span></p>



<p style="margin-top:0pt;margin-bottom:0pt;margin-left:0in;text-align:left;direction:ltr;unicode-bidi:embed;word-break:normal"><span style="font-size:12pt;font-family:Calibri;color:black"><span>  </span>3902<span>  </span>Complete
BUSCOs (C)</span></p>

<p style="margin-top:0pt;margin-bottom:0pt;margin-left:0in;text-align:left;direction:ltr;unicode-bidi:embed;word-break:normal"><span style="font-size:12pt;font-family:Calibri;color:black"><span>  </span>3806<span>  </span>Complete
and single-copy BUSCOs (S)</span></p>

<p style="margin-top:0pt;margin-bottom:0pt;margin-left:0in;text-align:left;direction:ltr;unicode-bidi:embed;word-break:normal"><span style="font-size:12pt;font-family:Calibri;color:black"><span>  </span>96<span>  </span>Complete
and duplicated BUSCOs (D)</span></p>

<p style="margin-top:0pt;margin-bottom:0pt;margin-left:0in;text-align:left;direction:ltr;unicode-bidi:embed;word-break:normal"><span style="font-size:12pt;font-family:Calibri;color:black"><span>  </span>92<span>  </span>Fragmented
BUSCOs (F)</span></p>

<span style="font-size:12pt;font-family:Calibri;color:black"><span>  </span>110<span>  </span>Missing
BUSCOs (M)</span>



<br><br></div>Thanks<br></div>Best<br></div>Quanwei<br><div><div><div>  </div></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">2017-11-21 11:19 GMT-05:00 Carson Holt <span dir="ltr"><<a href="mailto:carsonhh@gmail.com" target="_blank">carsonhh@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space">No known biases, but if you are concerned, you can collect known Histone H2A, H2B, H4 proteins and transcripts from other species (protein= and altest= options), them run MAKER with no masking to see if you gain any models that may have been overlooked because of over-masking of repeats. Make sure to evaluate any models you find as being a pseudogene. Run InterProScan on results to make sure they contain known InterPro domains for that gene family as well. Running without repeat masking will increase sensitivity but also false positives derived from low homology alignments to simple repeats which is why you need to evaluate results using something like InterProScan.<div><br></div><div>Also run BUSCO to evaluate the completeness of the genome. Make sure that the observed contraction is not just a result of an incomplete assembly.<br><div><br></div><div>—Carson</div><div><br><div><br><blockquote type="cite"><div><div class="h5"><div>On Nov 16, 2017, at 12:46 PM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" target="_blank">qwzhang0601@gmail.com</a>> wrote:</div><br class="m_-6798815079585919037Apple-interchange-newline"></div></div><div><div><div class="h5"><div dir="ltr"><div><div><div><div>Hello:<br><br></div>We have annotated a new rodent genome using Maker2. Based on the annotated maker2 gene sets, we did gene family expansion/contraction analysis using CAFE. We found Histone H2A, H2B, H4 gene families are under contraction. I wonder whether there are known bias to predict those gene families using Maker2? For example, can this due to repeat masking of the genome? I used repeatmaker and generated species specific repeat libraries follows <a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Repeat_Library_Construction--Basic" target="_blank">http://weatherby.genetics.<wbr>utah.edu/MAKER/wiki/index.php/<wbr>Repeat_Library_Construction--<wbr>Basic</a>.<br><br></div>Thanks<br><br></div>Best<br></div>Quanwei<br></div></div></div>
______________________________<wbr>_________________<br>maker-devel mailing list<br><a href="mailto:maker-devel@box290.bluehost.com" target="_blank">maker-devel@box290.bluehost.<wbr>com</a><br><a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/<wbr>mailman/listinfo/maker-devel_<wbr>yandell-lab.org</a><br></div></blockquote></div><br></div></div></div></blockquote></div><br></div>