<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>You should have got an email with the dropbox url.</div><div>Unfortunately was not able to get wublast before the change to AB-Blast.</div><div><br></div><div>Thanks,</div><div>Xavier</div><br><div><div>On 22 Oct 2009, at 17:53, Carson Holt wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div> <font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt">I think it would still be useful. &nbsp;Since that one change seemed to make all the difference, I’ll run some tests comparing cross_match and wublast under different configurations on our system.<br> <br> Thanks,<br> Carson<br> <br> <br> <br> On 10/22/09 10:50 AM, "Xavier Watkins" &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<br> <br> </span></font><blockquote><font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt">Switching to "Drosophila" made all the difference, it's now whizzing through the analysis! Did you still want me to upload the files to my dropbox?<br> <br> Many thanks,<br> Xavier<br> <br> On 22 Oct 2009, at 17:45, Carson Holt wrote:<br> <br> </span></font><blockquote><font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt"> I’m also surprised you said that RepeatMasker is taking so long. &nbsp;I’m wondering if this is related to cross_match as wublast always seems to scream through this step. &nbsp;The suggestion to switch from ‘all’ to ‘Drosophila’ seems like a good start, but I’d like to check some other things as well. &nbsp;Is there anyway you could provide me with your datasets and maker control files? &nbsp;You could try an online storage site like <a href="http://www.getdropbox.com/">http://www.getdropbox.com/</a> which gives you 2 Gb of free storage online. &nbsp;They also let you share folders. &nbsp;You could then send me a link to the shared folder.<br> &nbsp;<br> &nbsp;Thanks,<br> &nbsp;Carson<br> &nbsp;<br> &nbsp;<br> &nbsp;On 10/22/09 5:38 AM, "Xavier Watkins" &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<br> &nbsp;<br> &nbsp;<br> </span></font><blockquote><font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt">Hi,<br> &nbsp;Thanks everyone for your help. I'm already running mpi_maker, planning <br> &nbsp;on using more CPUs next time...<br> &nbsp;<br> &nbsp;I'm using the following:<br> &nbsp;<br> &nbsp;RepeatMasker with cross_match (running cross match seems to be the bit <br> &nbsp;that's taking ages)<br> &nbsp;<br> &nbsp;snap version 2006-07-28<br> &nbsp;GeneMarkS<br> &nbsp;NCBI blastall 2.2.20 for blastx<br> &nbsp;<br> &nbsp;Not really sure what happens in RepeatMasker but from what I <br> &nbsp;understand it tries to blast the genome against itself to build a <br> &nbsp;library of possible repeats? Is there a way of building this library <br> &nbsp;of repeats in a more efficient way?<br> &nbsp;<br> &nbsp;Many thanks,<br> &nbsp;Xavier<br> &nbsp;<br> &nbsp;<br> &nbsp;On 21 Oct 2009, at 16:07, Mark Yandell wrote:<br> &nbsp;<br> &nbsp;&gt;<br> &nbsp;&gt; Hi Xavier,<br> &nbsp;&gt;<br> &nbsp;&gt; I agree: This seems way to long. I can basically reproduce flybase's <br> &nbsp;&gt; annotations and blast data in about 3 days on my laptop-- so 2 weeks <br> &nbsp;&gt; on 5 processor's seems way too long.<br> &nbsp;&gt;<br> &nbsp;&gt; Is there some. special, really huge dataset you are running? Are you <br> &nbsp;&gt; doing TBLASTX to align hits from a large database of sequences?<br> &nbsp;&gt;<br> &nbsp;&gt; --mark<br> &nbsp;&gt;<br> &nbsp;&gt; Mark Yandell<br> &nbsp;&gt; Associate Professor of Human Genetics<br> &nbsp;&gt; Eccles Institute of Human Genetics<br> &nbsp;&gt; University of Utah<br> &nbsp;&gt; 15 North 2030 East, Room 2100<br> &nbsp;&gt; Salt Lake City, UT 84112-5330<br> &nbsp;&gt; ph:801-587-7707<br> &nbsp;&gt; ________________________________________<br> &nbsp;&gt; From: <a href="maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a> [<a href="maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a><br> &nbsp;&gt; ] On Behalf Of Carson Holt<br> &nbsp;&gt; Sent: Wednesday, October 21, 2009 8:57 AM<br> &nbsp;&gt; To: Xavier Watkins; <a href="maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><br> &nbsp;&gt; Subject: Re: [maker-devel] Status check?<br> &nbsp;&gt;<br> &nbsp;&gt; The time spent depends primarily on the size of the protein, EST, <br> &nbsp;&gt; and repeat protein databases provided. &nbsp;BLAST actually makes up <br> &nbsp;&gt; about 90% of the run time for MAKER. &nbsp;If your using 5 processors, I <br> &nbsp;&gt; suggest using mpi_maker instead of regular maker. &nbsp;It gets better <br> &nbsp;&gt; performance on multiprocessor systems. &nbsp;The number of slices is <br> &nbsp;&gt; dependant on what you set max_dna_len to be in the maker_opt.ctl <br> &nbsp;&gt; file. &nbsp;Increasing the number increases memory usage. &nbsp;Just divide <br> &nbsp;&gt; the contig length by that number. &nbsp;Doing a test run on the entire <br> &nbsp;&gt; Drosophila genome could take a while especially if you used large <br> &nbsp;&gt; protein and EST databases for the analysis. &nbsp;It is 120 Megabases in <br> &nbsp;&gt; size, and with the default max_dna_len of 100,000, &nbsp;it would be <br> &nbsp;&gt; divided into 1,200 chunks. &nbsp;It could take anywhere from 4 days to 3 <br> &nbsp;&gt; weeks depending on the BLAST databases used.<br> &nbsp;&gt;<br> &nbsp;&gt; I guess Barry already answered the question on how to check on run <br> &nbsp;&gt; status. &nbsp;Individual contigs also create a file called run.log. &nbsp;<br> &nbsp;&gt; These will be under theVoid directory for each individual contig in <br> &nbsp;&gt; the MAKER datastore directory. &nbsp;These files also contain entries <br> &nbsp;&gt; with labels like STARTED and FINISHED for each individual analysis. &nbsp;<br> &nbsp;&gt; The master_datastore_index.log file has status tags for entire <br> &nbsp;&gt; contigs as apposed to individual analyses.<br> &nbsp;&gt;<br> &nbsp;&gt; I hope that helps. &nbsp;Let us know how it goes.<br> &nbsp;&gt;<br> &nbsp;&gt; Thanks,<br> &nbsp;&gt; Carson<br> &nbsp;&gt;<br> &nbsp;&gt;<br> &nbsp;&gt; On 10/21/09 3:21 AM, "Xavier Watkins" &lt;<a href="xavier@flymine.org">xavier@flymine.org</a>&gt; wrote:<br> &nbsp;&gt;<br> &nbsp;&gt; Hi,<br> &nbsp;&gt; I'm currently doing a test run of Maker on the D. mel genome and I <br> &nbsp;&gt; would like to estimate the time it takes to run on our system (it <br> &nbsp;&gt; has now been running for 2 weeks on 5 processors).<br> &nbsp;&gt; Is there a way to know how many processes are left to run when <br> &nbsp;&gt; running MAKER, or to know which contigs (chromosomes in my case) <br> &nbsp;&gt; have finished running? From what I see it chops up the contigs into <br> &nbsp;&gt; slices when running RepeatMasker (currently on .151) is there a way <br> &nbsp;&gt; to know the total number of slices?<br> &nbsp;&gt;<br> &nbsp;&gt; Apologies if I've missed this info in the documentation, I couldn't <br> &nbsp;&gt; find it.<br> &nbsp;&gt;<br> &nbsp;&gt; All the best,<br> &nbsp;&gt; Xavier<br> &nbsp;&gt;<br> &nbsp;&gt;<br> &nbsp;&gt;<br> &nbsp;<br> &nbsp;<br> &nbsp;<br> </span></font></blockquote><font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt"> <br> &nbsp;&nbsp;<br> </span></font></blockquote><font face="Calibri, Verdana, Helvetica, Arial"><span style="font-size:11pt"><br> <br> </span></font></blockquote> </div>  </blockquote></div><br></body></html>