<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; "><div>Correct.  The level of splitting is going to be limited by the largest config.  The largest config will then be your slowest job, but the total runtime will be based off how much splitting you can achieve.  Splitting into 10 jobs and running them all simultaneously will make total run time 1/10 as long.  You can use the –base flag with MAKER to make all jobs write to the same directory.  Use the –g flag to specify a different input fasta file for each job (then they can all share the same control files).  You will then need to run maker once using the original assembly fasta and the –dsindex flag when all jobs complete to get MAKER to clean up the datastore log file (rebuilt to index all contigs). That only takes 2 minutes to run.</div><div><br></div><div>You can use the fasta_tool utility that comes with MAKER to conveniently split the input assembly fasta.  </div><div>MAKER does not train the gene predictors for you, and the hints it gives are on a per gene basis, so splitting contigs has no affect on that.  For initial training of gene predictors, run MAKER on about 10-30 Mb of your largest contigs and use either the protein2genome or est2genome prediction options to build gene models to train the predictors on.  You will need to train Augustus or SNAP yourself using those models and their own documentation.  If training SNAP, you can use maker2zff to convert for SNAPs training format.  You can also use the tool CEGMA from Ian Korf's lab to train SNAP. Use the cegma2zff script that comes with MAKER to do the conversion for training input.</div><div><br></div><div>If you have questions once you start training, just send them to the list.</div><div><br></div><div>Thanks,</div><div>Carson</div><div><br></div><div><br></div><span id="OLK_SRC_BODY_SECTION"><div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt"><span style="font-weight:bold">From: </span> Daniel Lawson <<a href="mailto:lawson@ebi.ac.uk">lawson@ebi.ac.uk</a>><br><span style="font-weight:bold">Date: </span> Thursday, 27 June, 2013 9:37 AM<br><span style="font-weight:bold">To: </span> <<a href="mailto:michel.moser@ips.unibe.ch">michel.moser@ips.unibe.ch</a>><br><span style="font-weight:bold">Cc: </span> <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>><br><span style="font-weight:bold">Subject: </span> Re: [maker-devel] spliting genome for annotation<br></div><div><br></div><div dir="ltr">Michel,<div><br></div><div style="">It is about the size of your scaffolds rather than the whole genome. Presumably you don't have 1.2 Gb of contiguous sequence. If you have long scaffolds then the compute time will be constrained by the time taken to process the largest scaffold. </div><div style=""><br></div><div style="">regards</div><div style="">Dan</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 27 June 2013 14:33,  <span dir="ltr"><<a href="mailto:michel.moser@ips.unibe.ch" target="_blank">michel.moser@ips.unibe.ch</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear Maker-developers<br><br>
If i understood correctly, in order to increase speed and reduce needed resources one can split the genome into chunks and annotate each chunk separately.<br>
(i would really like to use that as i am working with a 1.2 Gbasepair draftgenome and cant use MPI on the computing cluster)<br>
I am a bit worried about how this might affect the annotation as the gene-predictor would get trained quite differently for each chunk, right?<br>
Or is there communication between the chunks using the -base function of maker?<br><br>
Could you maybe name some pros and cons of splitting your genome for the annotation with maker?<br><br>
Thank you very much,<br>
Michel<br><br><br><br><br>
________________________________________<br>
Von: Moser, Michel (IPS)<br>
Gesendet: Donnerstag, 27. Juni 2013 15:24<br>
An: Carson Holt<br>
Betreff: AW: [maker-devel] start position for some genes results<br><br>
________________________________________<br>
Von: maker-devel [<a href="mailto:maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a>]&quot; im Auftrag von &quot;Carson Holt [<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>]<br>

Gesendet: Mittwoch, 26. Juni 2013 04:02<br>
An: Jingjing Jin; <a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><br>
Betreff: Re: [maker-devel] start position for some genes results<br><br>
The point of the failure you are seeing is occurring in the initialization stage, before reaching any of the changes that would have been introduced by 2.28.  Try running the test data that comes with MAKER, does it fail as well?<br><br>
--Carson<br><br><br><br>
From: Jingjing Jin <<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a><mailto:<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a>>><br>
Date: Tuesday, 25 June, 2013 9:53 PM<br>
To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>>, "<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>" <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>

Subject: RE: [maker-devel] start position for some genes results<br><br>
Yes, this is the real name.<br><br>
There is also no ":" in the name.<br><br>
Because I have use the same file for maker.2.27 and have no problem.<br><br>
I am not sure what is wrong with the new version.<br><br>
Jingjing<br><br><br>
________________________________<br>
From: Carson Holt [<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>]<br>
Sent: Tuesday, June 25, 2013 9:47 PM<br>
To: Jingjing Jin; <a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>><br>
Subject: Re: [maker-devel] start position for some genes results<br><br>
Could you check for this sequence in your input genome file for "processed_tobacco_genome_sequences_c1", make sure that it is in fact that exact name, and there are no ':' characters in the name because they can confuse the bioperl fasta indexer.<br><br>
--Carson<br><br><br>
From: Jingjing Jin <<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a><mailto:<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a>>><br>
Date: Tuesday, 25 June, 2013 9:30 PM<br>
To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>>, "<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>" <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>

Subject: RE: [maker-devel] start position for some genes results<br><br>
Dear Carson,<br><br><br>
I am so sorry. The problem is still here.<br><br>
STATUS: Parsing control files...<br>
STATUS: Processing and indexing input FASTA files...<br>
STATUS: Setting up database for any GFF3 input...<br>
A data structure will be created for you at:<br>
/home/jingjing/project/tobacco/Nicotiana_tabacum/maker.2.28/1/tobacco_seq_1.maker.output/tobacco_seq_1_datastore<br><br>
To access files for individual sequences use the datastore index:<br>
/home/jingjing/project/tobacco/Nicotiana_tabacum/maker.2.28/1/tobacco_seq_1.maker.output/tobacco_seq_1_master_datastore_index.log<br><br>
STATUS: Now running MAKER...<br>
WARNING: Cannot find >processed_tobacco_genome_sequences_c1, trying to re-index the fasta.<br>
stop here: processed_tobacco_genome_sequences_c1<br>
ERROR: Fasta index error<br>
 at /home/jingjing/software/maker.2.28/maker/bin/../lib/Process/MpiChunk.pm line 239.<br>
        Process::MpiChunk::_prepare('Process::MpiChunk=HASH(0x4e16178)', 'HASH(0x4e10810)', 0) called at /home/jingjing/software/maker.2.28/maker/bin/../lib/Process/MpiTiers.pm line 73<br>
        Process::MpiTiers::__ANON__() called at /home/jingjing/software/maker.2.28/maker/bin/../lib/Error.pm line 415<br>
        eval {...} called at /home/jingjing/software/maker.2.28/maker/bin/../lib/Error.pm line 407<br>
        Error::subs::try('CODE(0x4e19100)', 'HASH(0x4e1bd58)') called at /home/jingjing/software/maker.2.28/maker/bin/../lib/Process/MpiTiers.pm line 79<br>
        Process::MpiTiers::_prepare('Process::MpiTiers=HASH(0x4e16e68)') called at /home/jingjing/software/maker.2.28/maker/bin/../lib/Process/MpiTiers.pm line 56<br>
        Process::MpiTiers::new('Process::MpiTiers', 'HASH(0x4e16ad8)', 0, 'Process::MpiChunk') called at /home/jingjing/software/maker.2.28/maker/bin/./maker line 650<br>
--> rank=NA, hostname=ChuaServer1<br>
ERROR: Failed in tier preparation<br>
WARNING: You must always set a rank before running MpiTiers<br>
FATAL: argument `seq_id` does not exist in MpiTier object<br><br>
________________________________<br>
From: Carson Holt [<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>]<br>
Sent: Tuesday, June 25, 2013 8:55 PM<br>
To: Jingjing Jin; <a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>><br>
Subject: Re: [maker-devel] start position for some genes results<br><br>
Delete the mpi_blastdb directory before starting, to make sure all indexes get rebuilt.  Also make sure you are not setting TMP= to a network mounted location.<br><br>
--Carson<br><br><br>
From: Jingjing Jin <<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a><mailto:<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a>>><br>
Date: Tuesday, 25 June, 2013 8:53 PM<br>
To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>>, "<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>" <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>

Subject: RE: [maker-devel] start position for some genes results<br><br>
Dear Carson,<br><br>
When I use the new version of maker, I have another problem like this:<br><br>
jingjing@ChuaServer1:~/project/$ /home/jingjing/software/maker.2.28/maker/bin/./maker<br>
STATUS: Parsing control files...<br>
STATUS: Processing and indexing input FASTA files...<br>
STATUS: Setting up database for any GFF3 input...<br>
A data structure will be created for you at:<br>
/home/jingjing/project/tobacco/Nicotiana_tabacum/maker.2.28/1/tobacco_seq_1.maker.output/tobacco_seq_1_datastore<br><br>
To access files for individual sequences use the datastore index:<br>
/home/jingjing/project/tobacco/Nicotiana_tabacum/maker.2.28/1/tobacco_seq_1.maker.output/tobacco_seq_1_master_datastore_index.log<br><br>
STATUS: Now running MAKER...<br>
WARNING: Cannot find >processed_tobacco_genome_sequences_c1, trying to re-index the fasta.<br>
stop here: processed_tobacco_genome_sequences_c1<br>
ERROR: Fasta index error<br><br><br>
Do you know how to fix this problem about new version?<br><br>
Thanks!<br><br>
Jingjing<br><br><br><br>
________________________________<br>
From: Carson Holt [<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>]<br>
Sent: Tuesday, June 25, 2013 6:55 PM<br>
To: Jingjing Jin; <a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>><br>
Subject: Re: [maker-devel] start position for some genes results<br><br>
What MAKER version are you using?  This should be fixed in the current 2.28.  It only happened under a very specific set of circumstances, but I remember fixing it. So let me know if you are using 2.28.<br><br>
--Carson<br><br><br><br>
From: Jingjing Jin <<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a><mailto:<a href="mailto:jjin01@mail.rockefeller.edu">jjin01@mail.rockefeller.edu</a>>><br>
Date: Tuesday, 25 June, 2013 5:13 PM<br>
To: "<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>" <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>

Subject: [maker-devel] start position for some genes results<br><br>
Dear all,<br><br>
I find some strange things about location for my final result.<br><br>
Like for some start position of final gene model:<br><br>
c124062 maker   gene    -1      507     .       -       .       ID=maker-c124062-snap-gene-0.2;Name=maker-c124062-snap-gene-0.2<br><br><br>
It start position is -1.<br><br>
Does someone know why the start position is  -1?<br><br>
Is there something wrong?<br><br>
Thanks!<br><br>
Jingjing<br><br><br>
_______________________________________________ maker-devel mailing list <a href="mailto:maker-devel@box290.bluehost.com">maker-devel@box290.bluehost.com</a><mailto:<a href="mailto:maker-devel@box290.bluehost.com">maker-devel@box290.bluehost.com</a>> <a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br><br>
_______________________________________________<br>
maker-devel mailing list<br><a href="mailto:maker-devel@box290.bluehost.com">maker-devel@box290.bluehost.com</a><br><a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Ensembl Genomes | VectorBase | i5K insect genome initiative
</div>
_______________________________________________
maker-devel mailing list
<a href="mailto:maker-devel@box290.bluehost.com">maker-devel@box290.bluehost.com</a>
<a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a>
</span></body></html>