<div dir="rtl"><div style="" dir="ltr">Hello again and thank you all for your interesting answers.</div><div style="" dir="ltr">I mistakenly answered Mark yesterday from an unsubscribed mail, which resulted in only him getting it, so for documentation sake, I'm posting my answer here again, and Mark's reply:</div><div style="" dir="ltr">~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~</div><div style="" dir="ltr">Dear Mark,<div dir="auto">Thank you for the quick reply. I'm happy to see this ignites your interest and am willing to endure your punishing questions (;</div><div dir="auto">Before I answer them, I just want to make sure we're on the same page - as far as I understand, lower AED scores indicate higher agreement with the evidence, so the "good stuff" is actually left of the 0.5 surge. Am I correct? Otherwise, this is a very poor annotation...</div><div dir="auto">Now for the questions:</div><div dir="auto">1) I did not make any filtrations so far, so single exon genes are included as well. in fact, I'm exploring the results in order to develop some criteria for filtering the genes. Would you suggest discarding single exon genes?</div><div dir="auto"><br></div><div dir="auto">2) My evidence consist of assembled transcripts, proteins and predicted gene models (pred_gff).</div><div dir="auto"><br></div><div dir="auto">3) As for repeats, I'm masking based on a repeats library obtained from a previous publication, specific to my organism of interest.</div><div dir="auto"><br></div><div dir="auto">Unfortunately, I didn't understand your final question. Could you please explain what you mean by "final build"?</div><div dir="auto"><br></div><div dir="auto">Hope these answers are helpful, and waiting to hear more thoughts.</div><div dir="auto"><br></div><div dir="auto">Thanks again.</div><div dir="auto">~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ </div><div><b>To which Mark replied:</b></div><div><br></div><p class="gmail-m_3734070104672039783journal-list" style="margin-right:0.05in;margin-left:0in;font-size:11pt;font-family:Calibri,sans-serif;margin-bottom:5pt;line-height:19.65pt;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial">Sorry. I’m dyslexic, especially early in the morning. Yes, good stuff is on the left. As regards single exon genes, that’s always a hard call, as these have a higher false positive rate. Things to consider are how prevalent are introns in your org? Cason can give more advice on this point, I’m sure.<span style="font-size:9.5pt;font-family:Arial,sans-serif;color:black"><u></u><u></u></span></p><p class="gmail-m_3734070104672039783journal-list" style="margin-right:0.05in;margin-left:0in;font-size:11pt;font-family:Calibri,sans-serif;margin-bottom:5pt;line-height:19.65pt;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><u></u><span style="font-size:10pt;font-family:Symbol;color:black">·<span style="font-variant-numeric:normal;font-variant-east-asian:normal;font-stretch:normal;font-size:7pt;line-height:normal;font-family:"Times New Roman"">         </span></span><u></u><span style="font-size:9.5pt;font-family:Arial,sans-serif;color:black"><u></u> <u></u></span></p><p class="gmail-m_3734070104672039783journal-list" style="margin-right:0.05in;margin-left:0in;font-size:11pt;font-family:Calibri,sans-serif;margin-bottom:5pt;line-height:19.65pt;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><u></u></p><div><span style="font-size:10pt;font-family:Symbol;color:black">·<span style="font-variant-numeric:normal;font-variant-east-asian:normal;font-stretch:normal;font-size:7pt;line-height:normal;font-family:"Times New Roman"">         </span></span><u style="font-family:Calibri,sans-serif;font-size:11pt"></u><span style="font-family:Calibri,sans-serif;font-size:11pt">By ‘"final build", I meant is this using the ‘Standard build’  or ‘Max Build’ protocol from</span><span style="font-family:Calibri,sans-serif;font-size:11pt"> </span><span style="font-size:9.5pt;font-family:Arial,sans-serif;color:black">PMC4286374?</span> <br></div><div>~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~  </div><div><br></div><div> Mark - well, as I said I haven't done any filtration yet, so I guess my annotation currently includes genes that would be discarded even with the "max build". I'll give this a try and look at the resulting distribution. <br></div><div><br></div><div>Xabier - thanks, but I'm not using SNAP (just Augustus).</div><div><br></div><div>Carson - I see a few fingers pointing in the direction of single-exon models, so maybe I should see what happens to the distribution of AED when these genes are removed.</div><div><br></div><div>I'll get back to you with some more results.</div></div></div><br><div class="gmail_quote"><div dir="rtl" class="gmail_attr">‫בתאריך יום ב׳, 8 באפר׳ 2019 ב-8:20 מאת ‪Carson Holt‬‏ <‪<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>‬‏>:‬<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;">Yes. maker2zff tries to further select a subset of the best supported models by requiring multiple forms of evidence support.<div><br></div><div>—Carson</div><div><br><div><br><blockquote type="cite"><div>On Apr 7, 2019, at 10:42 PM, Xabier Vázquez-Campos <<a href="mailto:xvazquezc@gmail.com" target="_blank">xvazquezc@gmail.com</a>> wrote:</div><br class="gmail-m_8423958144873960990Apple-interchange-newline"><div><div dir="ltr">If you train SNAP, the maker2zff script has internal quality cutoffs based on the existence of evidence. e.g. by default it will require having some EST evidence<br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, 8 Apr 2019 at 11:32, Carson Holt <<a href="mailto:carsonhh@gmail.com" target="_blank">carsonhh@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">That’s interesting. It could be a handful of internal filters that help with spurious results.<br>
<br>
I use a 0.5 sensitivity/specificity to identify shared edges for a jaccardian split on overlapping evidence clusters for example. There are also a couple of places where if the only thing supporting a model is a single exon blastx hit (i.e. no exonerate, ab initio model, or est splice support, but just a chunk od single exon blastx) then maker will use a reading frame aware AED value of 0.5 as a filter (as in it checks if the reading frame matches and not just raw overlap). If that’s the case, the spike near 0.5 may indicate I needed to be a little strickter than my empirical cutoff estimate. Perhaps 0.4 or 0.45 would be the better cuttoff for these spurious blastx induced models.<br>
<br>
—Carson<br>
<br>
<br>
> On Apr 7, 2019, at 7:25 AM, Lior Glick <<a href="mailto:liorglic@mail.tau.ac.il" target="_blank">liorglic@mail.tau.ac.il</a>> wrote:<br>
> <br>
> Hi MAKER users,<br>
> Lately I've been performing annotations for multiple genomes from the same species.<br>
> When plotting the histogram of AED scores over all genes, I repeatedly see a very specific pattern, that looks something like this:<br>
> <AED_hist.png><br>
> This pattern is a bit surprising to me, in two aspects:<br>
> 1) Why is there a surge towards 0.5?<br>
> 2) Why is there a sudden drop right after that surge?<br>
> <br>
> Has anyone else seen this, or is this a specific outcome of my data/configuration?<br>
> Any ideas of what may cause such a distribution?<br>
> <br>
> While this is not necessarily an indication of a problem or bug, it does seem a bit odd, and  might imply some bias or artifact.<br>
> Would appreciate your comments.<br>
> Thank you!<br>
> _______________________________________________<br>
> maker-devel mailing list<br>
> <a href="mailto:maker-devel@box290.bluehost.com" target="_blank">maker-devel@box290.bluehost.com</a><br>
> <a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" rel="noreferrer" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br>
<br>
<br>
_______________________________________________<br>
maker-devel mailing list<br>
<a href="mailto:maker-devel@box290.bluehost.com" target="_blank">maker-devel@box290.bluehost.com</a><br>
<a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" rel="noreferrer" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail-m_8423958144873960990gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>Xabier Vázquez-Campos, <i>PhD</i><br><i>Research Associate</i><br>NSW Systems Biology Initiative<br>School of Biotechnology and Biomolecular Sciences<br>
The University of New South Wales<br>Sydney NSW 2052 AUSTRALIA<br></div></div></div></div></div></div></div></div></div></div></div>
</div></blockquote></div><br></div></div></blockquote></div>