<HTML>
<HEAD>
<TITLE>Re: [maker-devel] Status check?</TITLE>
</HEAD>
<BODY>
<FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'>Thanks. &nbsp;I&#8217;m downloading the files now. <BR>
<BR>
Carson<BR>
<BR>
<BR>
On 10/22/09 11:05 AM, &quot;Xavier Watkins&quot; &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<BR>
<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'>You should have got an email with the dropbox url.<BR>
Unfortunately was not able to get wublast before the change to AB-Blast.<BR>
<BR>
Thanks,<BR>
Xavier<BR>
<BR>
On 22 Oct 2009, at 17:53, Carson Holt wrote:<BR>
<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'> I think it would still be useful. &nbsp;Since that one change seemed to make all the difference, I&#8217;ll run some tests comparing cross_match and wublast under different configurations on our system.<BR>
&nbsp;<BR>
&nbsp;Thanks,<BR>
&nbsp;Carson<BR>
&nbsp;<BR>
&nbsp;<BR>
&nbsp;<BR>
&nbsp;On 10/22/09 10:50 AM, &quot;Xavier Watkins&quot; &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<BR>
&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'>Switching to &quot;Drosophila&quot; made all the difference, it's now whizzing through the analysis! Did you still want me to upload the files to my dropbox?<BR>
&nbsp;<BR>
&nbsp;Many thanks,<BR>
&nbsp;Xavier<BR>
&nbsp;<BR>
&nbsp;On 22 Oct 2009, at 17:45, Carson Holt wrote:<BR>
&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'> I&#8217;m also surprised you said that RepeatMasker is taking so long. &nbsp;I&#8217;m wondering if this is related to cross_match as wublast always seems to scream through this step. &nbsp;The suggestion to switch from &#8216;all&#8217; to &#8216;Drosophila&#8217; seems like a good start, but I&#8217;d like to check some other things as well. &nbsp;Is there anyway you could provide me with your datasets and maker control files? &nbsp;You could try an online storage site like <a href="http://www.getdropbox.com/">http://www.getdropbox.com/</a> which gives you 2 Gb of free storage online. &nbsp;They also let you share folders. &nbsp;You could then send me a link to the shared folder.<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;Thanks,<BR>
&nbsp;&nbsp;Carson<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;On 10/22/09 5:38 AM, &quot;Xavier Watkins&quot; &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT><BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'>Hi,<BR>
&nbsp;&nbsp;Thanks everyone for your help. I'm already running mpi_maker, planning <BR>
&nbsp;&nbsp;on using more CPUs next time...<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;I'm using the following:<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;RepeatMasker with cross_match (running cross match seems to be the bit <BR>
&nbsp;&nbsp;that's taking ages)<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;snap version 2006-07-28<BR>
&nbsp;&nbsp;GeneMarkS<BR>
&nbsp;&nbsp;NCBI blastall 2.2.20 for blastx<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;Not really sure what happens in RepeatMasker but from what I <BR>
&nbsp;&nbsp;understand it tries to blast the genome against itself to build a <BR>
&nbsp;&nbsp;library of possible repeats? Is there a way of building this library <BR>
&nbsp;&nbsp;of repeats in a more efficient way?<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;Many thanks,<BR>
&nbsp;&nbsp;Xavier<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;On 21 Oct 2009, at 16:07, Mark Yandell wrote:<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Hi Xavier,<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; I agree: This seems way to long. I can basically reproduce flybase's <BR>
&nbsp;&nbsp;&gt; annotations and blast data in about 3 days on my laptop-- so 2 weeks <BR>
&nbsp;&nbsp;&gt; on 5 processor's seems way too long.<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Is there some. special, really huge dataset you are running? Are you <BR>
&nbsp;&nbsp;&gt; doing TBLASTX to align hits from a large database of sequences?<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; --mark<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Mark Yandell<BR>
&nbsp;&nbsp;&gt; Associate Professor of Human Genetics<BR>
&nbsp;&nbsp;&gt; Eccles Institute of Human Genetics<BR>
&nbsp;&nbsp;&gt; University of Utah<BR>
&nbsp;&nbsp;&gt; 15 North 2030 East, Room 2100<BR>
&nbsp;&nbsp;&gt; Salt Lake City, UT 84112-5330<BR>
&nbsp;&nbsp;&gt; ph:801-587-7707<BR>
&nbsp;&nbsp;&gt; ________________________________________<BR>
&nbsp;&nbsp;&gt; From: <a href="maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a> [<a href="maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a><BR>
&nbsp;&nbsp;&gt; ] On Behalf Of Carson Holt<BR>
&nbsp;&nbsp;&gt; Sent: Wednesday, October 21, 2009 8:57 AM<BR>
&nbsp;&nbsp;&gt; To: Xavier Watkins; <a href="maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><BR>
&nbsp;&nbsp;&gt; Subject: Re: [maker-devel] Status check?<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; The time spent depends primarily on the size of the protein, EST, <BR>
&nbsp;&nbsp;&gt; and repeat protein databases provided. &nbsp;BLAST actually makes up <BR>
&nbsp;&nbsp;&gt; about 90% of the run time for MAKER. &nbsp;If your using 5 processors, I <BR>
&nbsp;&nbsp;&gt; suggest using mpi_maker instead of regular maker. &nbsp;It gets better <BR>
&nbsp;&nbsp;&gt; performance on multiprocessor systems. &nbsp;The number of slices is <BR>
&nbsp;&nbsp;&gt; dependant on what you set max_dna_len to be in the maker_opt.ctl <BR>
&nbsp;&nbsp;&gt; file. &nbsp;Increasing the number increases memory usage. &nbsp;Just divide <BR>
&nbsp;&nbsp;&gt; the contig length by that number. &nbsp;Doing a test run on the entire <BR>
&nbsp;&nbsp;&gt; Drosophila genome could take a while especially if you used large <BR>
&nbsp;&nbsp;&gt; protein and EST databases for the analysis. &nbsp;It is 120 Megabases in <BR>
&nbsp;&nbsp;&gt; size, and with the default max_dna_len of 100,000, &nbsp;it would be <BR>
&nbsp;&nbsp;&gt; divided into 1,200 chunks. &nbsp;It could take anywhere from 4 days to 3 <BR>
&nbsp;&nbsp;&gt; weeks depending on the BLAST databases used.<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; I guess Barry already answered the question on how to check on run <BR>
&nbsp;&nbsp;&gt; status. &nbsp;Individual contigs also create a file called run.log. &nbsp;<BR>
&nbsp;&nbsp;&gt; These will be under theVoid directory for each individual contig in <BR>
&nbsp;&nbsp;&gt; the MAKER datastore directory. &nbsp;These files also contain entries <BR>
&nbsp;&nbsp;&gt; with labels like STARTED and FINISHED for each individual analysis. &nbsp;<BR>
&nbsp;&nbsp;&gt; The master_datastore_index.log file has status tags for entire <BR>
&nbsp;&nbsp;&gt; contigs as apposed to individual analyses.<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; I hope that helps. &nbsp;Let us know how it goes.<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Thanks,<BR>
&nbsp;&nbsp;&gt; Carson<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; On 10/21/09 3:21 AM, &quot;Xavier Watkins&quot; &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Hi,<BR>
&nbsp;&nbsp;&gt; I'm currently doing a test run of Maker on the D. mel genome and I <BR>
&nbsp;&nbsp;&gt; would like to estimate the time it takes to run on our system (it <BR>
&nbsp;&nbsp;&gt; has now been running for 2 weeks on 5 processors).<BR>
&nbsp;&nbsp;&gt; Is there a way to know how many processes are left to run when <BR>
&nbsp;&nbsp;&gt; running MAKER, or to know which contigs (chromosomes in my case) <BR>
&nbsp;&nbsp;&gt; have finished running? From what I see it chops up the contigs into <BR>
&nbsp;&nbsp;&gt; slices when running RepeatMasker (currently on .151) is there a way <BR>
&nbsp;&nbsp;&gt; to know the total number of slices?<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; Apologies if I've missed this info in the documentation, I couldn't <BR>
&nbsp;&nbsp;&gt; find it.<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt; All the best,<BR>
&nbsp;&nbsp;&gt; Xavier<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;&gt;<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;<BR>
&nbsp;&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT></BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'> <BR>
&nbsp;&nbsp;&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT></BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'><BR>
&nbsp;<BR>
&nbsp;<BR>
</SPAN></FONT></BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'> <BR>
&nbsp;&nbsp;<BR>
</SPAN></FONT></BLOCKQUOTE><FONT FACE="Calibri, Verdana, Helvetica, Arial"><SPAN STYLE='font-size:11pt'><BR>
<BR>
</SPAN></FONT></BLOCKQUOTE>
</BODY>
</HTML>