<div dir="ltr"><div>Hi Daniel,<br><br></div><div>Thanks for the reply. No, I'm not using Genemark. I didn't check for overlap with RepeatMasker elements or transcript/protein evidence though.<br></div><div><br></div><div></div>But since it is such an unexpected finding, I decided to do something simpler. So I took all 750 transposases with the same InterPro annotation (IS4 family transposases) and clustered them with CD-HIT (amino acid sequences). At 90% similarity threshold each transposase goes to its own cluster. At 80% I get 748 clusters... This means that even though these transposases belong to the same family, they have diverged quite a bit, so that they're no longer considered "repeat elements". And this explains why they were not filtered out by RepeatMasker and made it to the final gene set.<br><br><div><div><br><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Jul 10, 2015 at 5:00 PM, Daniel Ence <span dir="ltr"><<a href="mailto:dence@genetics.utah.edu" target="_blank">dence@genetics.utah.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto"><div>Hi Panos, Without knowing how you made the species-specific repeat library, I can't speak to why it's giving hits against repbase. As to the 800 transposases, are they overlapped by repeat masker elements? Are they supported by EST or protein evidence? Are you using Genemark? That ab-initio predictor runs on the unmasked genome sequence, so if the transposases are present in your evidence set, they could still show up as gene models. </div><div><br></div><div>~Daniel<br><br>Sent from my iPhone</div><div><div><div><br>On Jul 10, 2015, at 5:45 AM, Panos Ioannidis <<a href="mailto:panos.ioannidis@gmail.com" target="_blank">panos.ioannidis@gmail.com</a>> wrote:<br><br></div><blockquote type="cite"><div><div dir="ltr"><div><div><div>An additional question related to the previous.<br><br></div>I searched my species-specific repeat library with InterProScan and can't find a single sequence with similarity to a transposable element...<br><br>I would expect it to find at least a few transposases. Is there an explanation for this, or has something gone wrong?<br><br></div>Thanks,<br></div>P<br><br></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Jul 10, 2015 at 11:50 AM, Panos Ioannidis <span dir="ltr"><<a href="mailto:panos.ioannidis@gmail.com" target="_blank">panos.ioannidis@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><div>Hi guys,<br><br>I have finished running Maker on my genome, but get >800 genes (out of ~20,000) that have similarity to transposases. Except from RepBase, have also built a species-specific repeat library, so it's weird that I still have quite a few transposases in my gene set...<br><br></div><div></div>The repeat masking-related parameters in my maker-opts.ctl file are:<br><br><span style="font-family:monospace,monospace">model_org=all #select a model organism for RepBase masking in RepeatMasker<br>rmlib=consensi.fa.classified #provide an organism specific repeat library in fasta format for RepeatMasker<br>repeat_protein=/Home/pioannid/Programs/maker/data/te_proteins.fasta #provide a fasta file of transposable element proteins for RepeatRunner<br>rm_gff= #pre-identified repeat elements from an external GFF3 file<br>prok_rm=0 #forces MAKER to repeatmask prokaryotes (no reason to change this), 1 = yes, 0 = no<br>softmask=1 #use soft-masking rather than hard-masking in BLAST (i.e. seg and dust filtering)<br></span><br>Does anyone have an idea why I'm getting so many transposases?<br><br></div>Thanks,<br></div>Panos<br></div>
</blockquote></div><br></div>
</div></blockquote></div></div><blockquote type="cite"><div><span>_______________________________________________</span><br><span>maker-devel mailing list</span><br><span><a href="mailto:maker-devel@box290.bluehost.com" target="_blank">maker-devel@box290.bluehost.com</a></span><br><span><a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a></span><br></div></blockquote></div></blockquote></div><br></div></div></div></div>