<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">It’s best to look at these in a browser like Apollo where you can also manipulate the intron/exon structure. What you will often find is that there is something that breaks the ORF or breaks splicing, so the predictors can’t build an end to end model even with the hints given. If you have a GFF3 just for the contig, I can also look at it in a browser to help point out the logic that lead to the model.<div class=""><br class=""></div><div class="">—Carson<br class=""><div><br class=""><blockquote type="cite" class=""><div class="">On Dec 12, 2018, at 3:29 AM, Prashant Narendra SHINGATE <<a href="mailto:prashantns@imcb.a-star.edu.sg" class="">prashantns@imcb.a-star.edu.sg</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="WordSection1" style="page: WordSection1; caret-color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;"><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">Hi Carson,<o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""> <o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">I am Prashant a Bioinformatics postdoctoral fellow from Prof B Venkatesh</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">’s</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>lab, IMCB, A*STAR. I am using<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">MAKER-</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">tool to annotate an invertebrate genome (~2Gb). During annotation process, we found several instances of split genes</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">even though we have full-length reference protein sequences from very closely related species</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">. Hence we decided to look at one of the loc</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">i</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>to understand the reason behind it and to optimize the parameters.<o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">We<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">looked at</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>a gene ~110kb long<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">and</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>codes for<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">a<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">~1200 amino acid protein. We have a highly identical<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">reference protein<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">(>90% identity and 100% coverage)</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><span class="Apple-converted-space"> </span>from another species</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">.<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">In addition we also have</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>a high coverage<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">Trinity</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">transcript assembly<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">from our species</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">. Still, this gene is split into 4 fragments during evidence-based<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">MAKER</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>run. On closer a look, we found that the above mentioned closely related protein is not aligned by exonerate (protein2genome) even though it is the closest protein to this gene in our dataset.<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">It looks like the program is giving more weightage to transcripts which are typically fragments of the gene. So we are at a loss as to how to predict this gene in full.</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">For your reference,<span class="Apple-converted-space"> </span></span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">I am herewith enclosing</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>maker_opts.ctl file and maker_bopts.ctl. I will be glad to share the scaffold sequence and other input files if required.<o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; background-color: white;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class="">Can you please help me to understand the reason behind MAKER not able to use</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><span class="Apple-converted-space"> </span>the full-length reference</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><span class="Apple-converted-space"> </span>protein for gene prediction</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><span class="Apple-converted-space"> </span>and how we can overcome this problem.</span><span style="font-size: 10pt; font-family: Arial, sans-serif; color: rgb(34, 34, 34);" class=""><o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">Thanks<span class="Apple-converted-space"> </span><span style="" class="">for your time and help.<o:p class=""></o:p></span></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif;" class="">Best</span><span style="font-size: 10pt; font-family: Arial, sans-serif;" class=""><span class="Apple-converted-space"> </span>regards,<o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><b class=""><u class=""><span lang="EN-US" style="font-size: 9pt; color: rgb(14, 36, 242);" class=""><a href="mailto:prashantns@imcb.a-star.edu.sg" style="color: purple; text-decoration: underline;" class="">Prashant Shingate,<span class="Apple-converted-space"> </span><span style="text-decoration: none;" class="">PhD</span></a></span></u></b><b class=""><span lang="EN-US" style="font-size: 9pt; color: rgb(31, 73, 125);" class=""><span class="Apple-converted-space"> </span></span></b><b class=""><span lang="EN-US" style="font-size: 9pt;" class="">::<span class="Apple-converted-space"> </span></span></b><b class=""><span lang="EN-US" style="font-size: 9pt; color: rgb(31, 73, 125);" class="">Research Fellow :: Comparative and Medical Genomics Lab :: Institute of Molecular and Cell Biology (IMCB) :: Agency for Science, Technology and Research (A*STAR)</span></b><span style="font-size: 9pt; color: rgb(31, 73, 125);" class=""><o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span lang="EN-US" style="font-size: 9pt; color: rgb(31, 73, 125);" class="">61 Biopolis Drive :: #05-04 Proteos :: Singapore 138673 :: DID<span class="Apple-converted-space"> </span><a href="tel:(+65)%206586%209570" style="color: purple; text-decoration: underline;" class="">(+65) 6586 9570</a><span class="Apple-converted-space"> </span>:: Fax<span class="Apple-converted-space"> </span><a href="tel:(+65)%206779%201117" style="color: purple; text-decoration: underline;" class="">(+65) 6779 1117</a></span><span lang="EN-US" style="font-size: 9pt; color: rgb(14, 36, 242);" class="">::<span class="Apple-converted-space"> </span><a href="http://www.imcb.a-star.edu.sg/" style="color: purple; text-decoration: underline;" class=""><span style="color: rgb(14, 36, 242);" class="">http://www.imcb.a-star.edu.sg/</span></a></span><span style="font-size: 9pt; color: rgb(14, 36, 242);" class=""><o:p class=""></o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><b class=""><span lang="EN-GB" style="font-size: 9pt; color: red;" class="">We advance science and develop innovative technology to further economic growth and improve lives. <o:p class=""></o:p></span></b></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div><div style="margin: 0cm 0cm 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div></div><br style="caret-color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;" class=""><font face="Arial" color="Gray" size="1" style="font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; text-decoration: none;" class=""><br class="">Note: This message may contain confidential information. If this Email/Fax has been sent to you by mistake, please notify the sender and delete it immediately. Thank you.<br class=""></font><span style="caret-color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; float: none; display: inline !important;" class=""></span><span id="cid:54F7ABC6-81AF-4009-AEA5-4F1106EBCDD6@genetics.utah.edu"><maker_opts.ctl></span><span id="cid:4BED0133-BD17-44EC-AFBD-766FDA786274@genetics.utah.edu"><maker_opts.ctl></span></div></blockquote></div><br class=""></div></body></html>