<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
GFF3 should have the assembly fasta at the bottom. That is part of the format. Please familiarize yourself with GFF3 here —> <a href="https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md" class="">https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md</a>
<div class="">Particularly look at the different kinds of expected features (example gene/mRNA/exon/CDS gene models vs match/match_part evidence alignments).</div>
<div class=""><br class="">
</div>
<div class="">
<div class="">Also you need to familiarize yourself with the MAKER documentation, and perhaps follow one of the step by step tutorials in the MAKER wiki (<a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Main_Page" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/Main_Page</a>).
 The 2014 tutorial has a video you can follow along with. Output files are described in the documentation and the wiki. Particularly look at the necessary gff3_merge and fasta_merge scripts described in the wiki with multiple examples. Individual contigs will
 have results like so —></div>
<div class="">
<div class="">contig-dpp-500-500.gff</div>
<div class="">contig-dpp-500-500.maker.proteins.fasta</div>
<div class="">contig-dpp-500-500.maker.transcripts.fasta</div>
</div>
<div class=""><br class="">
</div>
<div class="">The merge scripts will collect all the individual contig results of into merged files. Example datasets for all of the wiki tutorials are included in the …/maker/data directory as well as the .../maker/MWAS/data/ directory (you can use them to
 follow along with the wiki pages).</div>
<div class=""><br class="">
</div>
<div class="">If you follow the tutorial steps from training snap on a new genome and you get empty training files, then the issue is the evidence training sets you gave (example from the e-mail list archive) —></div>
<div class=""><a href="https://groups.google.com/forum/#!searchin/maker-devel/maker2zff|sort:date/maker-devel/TculOM5oxl4/UWENIGN7EQAJ" class="">https://groups.google.com/forum/#!searchin/maker-devel/maker2zff%7Csort:date/maker-devel/TculOM5oxl4/UWENIGN7EQAJ</a></div>
<div class=""><br class="">
</div>
<div class="">You can also browse through the archive for more info on training SNAP and Augustus.</div>
<div class=""><br class="">
</div>
<div class="">—Carson</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
<div><br class="">
<blockquote type="cite" class="">
<div class="">On Oct 8, 2018, at 10:12 AM, Gupta, Parul <<a href="mailto:Parul.Gupta@oregonstate.edu" class="">Parul.Gupta@oregonstate.edu</a>> wrote:</div>
<br class="Apple-interchange-newline">
<div class="">
<div style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
Hi Carson,
<div class="">As per your suggestion, I turned on the est2genome=1 and protein2genome=1 but similar result are generated. gff of each scaffold has fasta (transcripts) sequence at the end instead of generating transcripts.fasta and protein.fasta separately.
 I don’t know how to use such gffs for further processing as training SNAP (for gene prediction). Need you suggestion.</div>
<div class="">Is there option to provided trained data from Augustus (generated from Augustus standalone rather from maker) instead of Augustus species in maker_opts.ctl ? </div>
<div class=""><br class="">
</div>
<div class="">Thanks,</div>
<div class="">Parul<br class="">
<div class=""><br class="">
<blockquote type="cite" class="">
<div class="">On Oct 4, 2018, at 6:43 PM, Gupta, Parul <<a href="mailto:Parul.Gupta@oregonstate.edu" class="">Parul.Gupta@oregonstate.edu</a>> wrote:</div>
<br class="Apple-interchange-newline">
<div class="">
<div dir="auto" class="">Thank you Carson.<br class="">
<br class="">
<div class="">Sent from my iPad</div>
<div class=""><br class="">
On Oct 4, 2018, at 3:11 PM, Carson Holt <<a href="mailto:carsonhh@gmail.com" class="">carsonhh@gmail.com</a>> wrote:<br class="">
<br class="">
</div>
<blockquote type="cite" class="">
<div class="">You must turn on at least 1 prediction method. It can est2genome-1, protein2genome=1, or a species file to run SNAP/Augustus. The first two option are for building models to train with.<br class="">
<div class=""><br class="">
</div>
<div class="">If you don’t provide a prediction method, MAKER will align evidence, but you won’t get any gene models.</div>
<div class=""><br class="">
</div>
<div class="">Example:</div>
<div class=""><a href="http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/MAKER_Tutorial_for_WGS_Assembly_and_Annotation_Winter_School_2018#Training_ab_initio_Gene_Predictors" class="">http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/MAKER_Tutorial_for_WGS_Assembly_and_Annotation_Winter_School_2018#Training_ab_initio_Gene_Predictors</a></div>
<div class=""><br class="">
</div>
<div class="">—Carson</div>
<div class=""><br class="">
<blockquote type="cite" class="">
<div class="">On Oct 1, 2018, at 1:05 PM, Gupta, Parul <<a href="mailto:Parul.Gupta@oregonstate.edu" class="">Parul.Gupta@oregonstate.edu</a>> wrote:</div>
<br class="Apple-interchange-newline">
<div class="">
<div class="">Hi Carson,<br class="">
I am a new user of maker pipeline and wanted to get gene prediction for a new plant genome. I used following options for maker_opts.ctl file for the first round :<br class="">
genome=masked_genome.fasta<br class="">
est=transcripts.fasta (from same species for which genome fasta is provided)<br class="">
atleast=transcripts.fasta (from alternative organism)<br class="">
protein=proteins.fasta<br class="">
<br class="">
Output files are only gff (no fasta), however gff for each scaffold has fasta sequences in bottom. I wonder, is that the correct output I am getting?
<br class="">
In order to train snap, I used gff3_merge to concatenate all gffs from datastore_index.log to get all.gff (which also has fasta sequences). Then, all.gff was used for maker2zff and it generated zero size files (genome.ann and genome.dna). I am wondering whether
 I did any mistake or not provides all input files. For repeat masking I used Repeatmasker separate from maker pipeline. My datastore_index.log file shows many “RETRY” and “FAILED” scaffolds.<br class="">
FYI, I subscribed to "maker-devel" google group but "new topic” button is greyed out.<br class="">
<br class="">
Yours suggestion??<br class="">
<br class="">
Thanks in advance.<br class="">
<br class="">
Parul<br class="">
<br class="">
</div>
</div>
</blockquote>
</div>
<br class="">
</div>
</blockquote>
</div>
</div>
</blockquote>
</div>
<br class="">
</div>
</div>
</div>
</blockquote>
</div>
<br class="">
</div>
</div>
</body>
</html>