<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hi Quanwei, I think that your genome assembly probably contains many contigs that are too small to contain full gene sequences. Rather than 300bp, a minimum scaffold length of 5kbp or 10kbp is a more useful threshold. This is mentioned in the maker_opts.ctl file with the min_contig paramter: “skip genome contigs below this length (under 10kbp are often useless)”. <div class=""><br class=""></div><div class="">I don’t know how many genes are annotated on small (<10kbp) scaffolds and contigs but excluding those contigs would probably reduce your gene count. These may be fragments or duplicates of genes present on these sequences that weren’t assembled properly.</div><div class=""><br class=""></div><div class="">Also using predicted protein sequences from uniprot as evidence in your annotation is probably not advisable since those sequences are not from genes with experiment evidence. This is the trEMBL vs swiss-prot issue that that you asked about earlier. </div><div class=""><br class=""></div><div class="">Additionally requiring a minimum protein length as you asked about earlier could also reduce the gene count. </div><div class=""><br class=""></div><div class="">Ultimately, you may do whatever filtering you find necessary and justifiable for your annotation depending on the biology of your organism and the methods that generated your assembly, and your annotation. </div><div class=""><br class=""></div><div class="">Hope this helps, </div><div class="">Daniel<br class=""><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Sep 27, 2017, at 10:30 AM, Quanwei Zhang <<a href="mailto:qwzhang0601@gmail.com" class="">qwzhang0601@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div class=""><div class="">Hello:<br class=""><br class=""></div>Thank you for all your previous comments and suggestions. We annotated a new rodent species using the maker2 pipeline. The assembly is about 3.2Gb with N50 24.3Mb. I included all scaffolds longer than 300bp for gene annotation (about 250k scaffolds). <br class=""><br class="">For repeats masking, we also build a species specific library. We used both transcriptome and protein sequences as evidences (including 10k reviewed Mammalian and 340k predicted rodent protein sequences from uniprot). We predicted 28800 genes with AED<1 (the "default" gene set). <br class=""></div><div class=""><br class=""></div><div class="">For the 28800 predicted proteins, about 90% have AED value less than 0.5, and 74% have domains by "InterProScan". It seems the genome was well annotated, but I still feel  28800 protein coding genes are too many for a rodent species. Do you think this gene set is good for downstream analysis (e.g., gene family expansion analysis, positive selection analysis)? Or can I do further filtering to make the number of genes closer to estimated number (e.g., 22,000)?<br class=""></div><div class=""><br class=""></div><div class="">Thanks</div><div class=""><br class=""></div><div class="">Best</div><div class="">Quanwei<br class=""></div><div class=""><br class=""></div><span style="font-size: 18pt; font-family: Calibri; vertical-align: super;" class=""></span>



</div>
_______________________________________________<br class="">maker-devel mailing list<br class=""><a href="mailto:maker-devel@box290.bluehost.com" class="">maker-devel@box290.bluehost.com</a><br class="">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org<br class=""></div></blockquote></div><br class=""></div></div></body></html>