<div dir="ltr"><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">With so many posts on the forum it's been challenging to determine what the best practices are for performing multiple rounds of annotation with Maker.</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">My first round used est, altest, and protein fasta files with a custom GFF repeat masked file. The resulting vertebrate genome produced 21,970 gene models with a mean length of about 9016 bp; the BUSCO score was C:66.0%[S:64.2%,D:1.8%],F:4.2%,M:29.8%,n:9226 (mammalia_odb10 set). Things seemed to be on the right track, so I set up the next Maker round using both SNAP and Augustus-trained information in the round2 maker_opts.ctl file. At the end of that second round, I noticed a marked <i>decrease</i> in BUSCO score (C:53.3%[S:51.0%,D:2.3%],F:11.6%,M:35.1%,n:9226), yet an increase in the number of gene models (28,646) and mean length (16266 bp). <br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">This got me to wondering if I was setting up the _opts.ctl file incorrectly? I'm concerned with a few things (and maybe missing even more I should be concerned about!?):</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><ul><li>I specified the evidence to come from EST/Protein instead of using the section available under "<span style="font-family:monospace">#-----Re-annotation Using MAKER Derived GFF3</span>". Maybe that was a fundamental mistake? What is the expected change in behavior if I moved my round1 Maker output into that category instead of using the EST/Protein Homology evidence sections as I did below?</li><li>I wasn't sure what to do with the RepeatMasking GFF files in Round2. The RepeatMasker GFF I included in Round1 consisted of just complex repeats (setting <span style="font-family:monospace">model_org=simple</span> and <span style="font-family:monospace">softmask=1</span> to effectively only hard mask those complex areas for the initial alignments). But what should be used in Round2 - the output GFF of Round1, or the input GFF from Round1?</li></ul></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Here's what I did for the Round2 maker_opts.ctl file:<br></div><div class="gmail_default"><span style="font-family:monospace"><br></span></div><div class="gmail_default"><span style="font-family:monospace">#-----Genome (these are always required)<br>genome=/scratch/dro49/myluwork/annotation/input_files/mylu_hic_rails_noMasks.fa<br>organism_type=eukaryotic<br>#-----EST Evidence (for best results provide a file for at least one)<br>est_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.est2genome.gff<br>altest_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.cdna2genome.gff<br>#-----Protein Homology Evidence (for best results provide a file for at least one)<br>protein_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.protein2genome.gff<br>#-----Repeat Masking (leave values blank to skip repeat masking)<br>rm_gff=/scratch/dro49/myluwork/annotation/maker_rd2/mylu_rnd1.all.maker.repeats.gff<br>prok_rm=0 #forces MAKER to repeatmask prokaryotes (no reason to change this), 1 = yes, 0 = no<br>softmask=1 #use soft-masking rather than hard-masking in BLAST (i.e. seg and dust filtering)<br>#-----Gene Prediction<br>snaphmm=/scratch/dro49/myluwork/annotation/maker_rd2/snap_rd1/lu_rnd1.zff.length50_aed0.25.hmm #SNAP HMM file<br>augustus_species=mylu #Augustus gene prediction species model<br>run_evm=0 #run EvidenceModeler, 1 = yes, 0 = no<br>est2genome=0 #infer gene predictions directly from ESTs, 1 = yes, 0 = no<br>protein2genome=0 #infer predictions from protein homology, 1 = yes, 0 = no<br>trna=0 #find tRNAs with tRNAscan, 1 = yes, 0 = no<br>unmask=0 #also run ab-initio prediction programs on unmasked sequence, 1 = yes, 0 = no<br>allow_overlap= #allowed gene overlap fraction (value from 0 to 1, blank for default)</span></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Thank you for your insights and support,</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Devon<br></div><br>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div><font face="tahoma, sans-serif">Devon O'Rourke</font></div><div><font face="tahoma, sans-serif">Postdoctoral researcher, Northern Arizona University</font></div><font face="tahoma, sans-serif"><span style="font-size:12.8px">Lab of Jeffrey T. Foster - </span></font><a href="https://fozlab.weebly.com/" target="_blank">https://fozlab.weebly.com/</a><br><div><span style="font-size:12.8px">twitter: @thesciencedork<br></span></div></div></div></div></div></div></div></div></div></div></div>