<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">You may need to select a subset of gene models to drive training.  I find that I get best results when I use protein2genome models only from uniprot/swiss-prot alignments to generate a training set, set always_complete=1. Uniprot/swiss-prot is manually curated, so is very high quality. Then I select models with the highest end-to-end completion (low AED). Also if you add est_forward=1 the score column in the GFF3 will be the % match to the original model.  It’s and easy way to select only models with a very high percent match. Remove models without start codons and stop codons.  You can relax these parameters if you don’t have many models, but in general you want 100-300 models to train with. Only one round of training is needed with this type of training set. The EST method requires 2 rounds and I don’t like it as much.<div class=""><br class=""></div><div class="">In the some cases, model selection for training will be a mostly manual task. You can use editors like Apollo to identify models that match evidence well, and delete odd models. Then train on that result.</div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">What you are seeing is likely the result of over-training. Usually happens if you use more that 2 rounds of training, but can happen with just two rounds.</div><div class=""><br class=""></div><div class="">—Carson</div><div class=""><br class=""></div><div class=""> <br class=""><div><br class=""><blockquote type="cite" class=""><div class="">On Mar 20, 2020, at 5:30 AM, Devon O'Rourke <<a href="mailto:devon.orourke@gmail.com" class="">devon.orourke@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">With so many posts on the forum it's been challenging to determine what the best practices are for performing multiple rounds of annotation with Maker.</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">My first round used est, altest, and protein fasta files with a custom GFF repeat masked file. The resulting vertebrate genome produced 21,970 gene models with a mean length of about 9016 bp; the BUSCO score was C:66.0%[S:64.2%,D:1.8%],F:4.2%,M:29.8%,n:9226 (mammalia_odb10 set). Things seemed to be on the right track, so I set up the next Maker round using both SNAP and Augustus-trained information in the round2 maker_opts.ctl file. At the end of that second round, I noticed a marked <i class="">decrease</i> in BUSCO score (C:53.3%[S:51.0%,D:2.3%],F:11.6%,M:35.1%,n:9226), yet an increase in the number of gene models (28,646) and mean length (16266 bp). <br class=""></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br class=""></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">This got me to wondering if I was setting up the _opts.ctl file incorrectly? I'm concerned with a few things (and maybe missing even more I should be concerned about!?):</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><ul class=""><li class="">I specified the evidence to come from EST/Protein instead of using the section available under "<span style="font-family:monospace" class="">#-----Re-annotation Using MAKER Derived GFF3</span>". Maybe that was a fundamental mistake? What is the expected change in behavior if I moved my round1 Maker output into that category instead of using the EST/Protein Homology evidence sections as I did below?</li><li class="">I wasn't sure what to do with the RepeatMasking GFF files in Round2. The RepeatMasker GFF I included in Round1 consisted of just complex repeats (setting <span style="font-family:monospace" class="">model_org=simple</span> and <span style="font-family:monospace" class="">softmask=1</span> to effectively only hard mask those complex areas for the initial alignments). But what should be used in Round2 - the output GFF of Round1, or the input GFF from Round1?</li></ul></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Here's what I did for the Round2 maker_opts.ctl file:<br class=""></div><div class="gmail_default"><span style="font-family:monospace" class=""><br class=""></span></div><div class="gmail_default"><span style="font-family:monospace" class="">#-----Genome (these are always required)<br class="">genome=/scratch/dro49/myluwork/annotation/input_files/mylu_hic_rails_noMasks.fa<br class="">organism_type=eukaryotic<br class="">#-----EST Evidence (for best results provide a file for at least one)<br class="">est_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.est2genome.gff<br class="">altest_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.cdna2genome.gff<br class="">#-----Protein Homology Evidence (for best results provide a file for at least one)<br class="">protein_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.protein2genome.gff<br class="">#-----Repeat Masking (leave values blank to skip repeat masking)<br class="">rm_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.repeats.gff<br class="">prok_rm=0 #forces MAKER to repeatmask prokaryotes (no reason to change this), 1 = yes, 0 = no<br class="">softmask=1 #use soft-masking rather than hard-masking in BLAST (i.e. seg and dust filtering)<br class="">#-----Gene Prediction<br class="">snaphmm=/scratch/dro49/myluwork/annotation/maker_rd2/snap_rd1/lu_rnd1.zff.length50_aed0.25.hmm #SNAP HMM file<br class="">augustus_species=mylu #Augustus gene prediction species model<br class="">run_evm=0 #run EvidenceModeler, 1 = yes, 0 = no<br class="">est2genome=0 #infer gene predictions directly from ESTs, 1 = yes, 0 = no<br class="">protein2genome=0 #infer predictions from protein homology, 1 = yes, 0 = no<br class="">trna=0 #find tRNAs with tRNAscan, 1 = yes, 0 = no<br class="">unmask=0 #also run ab-initio prediction programs on unmasked sequence, 1 = yes, 0 = no<br class="">allow_overlap= #allowed gene overlap fraction (value from 0 to 1, blank for default)</span></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br class=""></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br class=""></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Thank you for your insights and support,</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br class=""></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Devon<br class=""></div><br class="">-- <br class=""><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr" class=""><div class=""><div dir="ltr" class=""><div dir="ltr" class=""><div dir="ltr" class=""><div dir="ltr" class=""><div dir="ltr" class=""><div dir="ltr" class=""><div class=""><font face="tahoma, sans-serif" class="">Devon O'Rourke</font></div><div class=""><font face="tahoma, sans-serif" class="">Postdoctoral researcher, Northern Arizona University</font></div><font face="tahoma, sans-serif" class=""><span style="font-size:12.8px" class="">Lab of Jeffrey T. Foster - </span></font><a href="https://fozlab.weebly.com/" target="_blank" class="">https://fozlab.weebly.com/</a><br class=""><div class=""><span style="font-size:12.8px" class="">twitter: @thesciencedork<br class=""></span></div></div></div></div></div></div></div></div></div></div></div>
</div></blockquote></div><br class=""></div></body></html>