Thanks for the responses from everybody!<div><br></div><div>The genomic sequence I am annotating is coming directly from AllPaths-LG, which I've noticed retains as much ambiguity as possible--thus the seldom seen ambiguity nucleotides which in this case seem to outnumber the resolved nucleotides. On one hand, I would hate to lose all the information these ambiguity characters provide by replacing them with Ns, but on the other hand if most tools treat them as such, then it might not make much of a difference.</div>

<div><br></div><div>Another option I guess would be to replace ambiguity nucleotides by the most likely explicit nucleotide based solely on sequence composition. This would retain more information than an N, and would at least partially correct.</div>

<div class="gmail_extra"><br clear="all"><br>--<br>Daniel S. Standage<br>Ph.D. Candidate<br>Bioinformatics and Computational Biology Program<br>Department of Genetics, Development, and Cell Biology<br>Iowa State University<br>

<br>
<br><br><div class="gmail_quote">On Mon, Nov 26, 2012 at 12:33 AM, Fields, Christopher J <span dir="ltr"><<a href="mailto:cjfields@illinois.edu" target="_blank">cjfields@illinois.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

This is coming from BioPerl trying to guess the alphabet if one is not provided.  The specific spot:<br>
<br>
            if( ($str =~ tr/ATUGCNatugcn//) / $total > 0.7 ) {<br>
                if ( $str =~ m/U/i ) {<br>
                    $alphabet = 'rna';<br>
                } else {<br>
                    $alphabet = 'dna';<br>
                }<br>
            } else {<br>
                $alphabet = 'protein';<br>
            }<br>
<br>
Easy enough to fix to allow for additional ambiguous nucleotides (just committed, in fact).  It's probably best to explicitly set this when possible, though; it is a guess, after all.<br>
<br>
chris<br>
<div><div class="h5"><br>
On Nov 25, 2012, at 10:56 PM, Mark Yandell <<a href="mailto:myandell@genetics.utah.edu">myandell@genetics.utah.edu</a>> wrote:<br>
<br>
> good detective work there Carson!<br>
><br>
><br>
> Mark Yandell<br>
> Professor of Human Genetics<br>
> H.A. & Edna Benning Presidential Endowed Chair<br>
> Eccles Institute of Human Genetics<br>
> University of Utah<br>
> 15 North 2030 East, Room 2100<br>
> Salt Lake City, UT 84112-5330<br>
> ph:<a href="tel:801-587-7707" value="+18015877707">801-587-7707</a><br>
><br>
> ________________________________________<br>
> From: <a href="mailto:maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a> [<a href="mailto:maker-devel-bounces@yandell-lab.org">maker-devel-bounces@yandell-lab.org</a>] on behalf of Carson Holt [<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>]<br>


> Sent: Sunday, November 25, 2012 9:10 PM<br>
> To: Daniel Standage<br>
> Cc: Maker Mailing List<br>
> Subject: Re: [maker-devel] Maker issues<br>
><br>
> I think the problem is in the sequence of your scaffold.  I pulled this out of the exonerate alignment --><br>
> WTGGGGCTATGAAAAAAAAAWTTKMGMMAAAAAWTTWTKRWMRATC<br>
><br>
> Notice the letters W, K, R, M, etc.  While these are technically legal nucleotides, many external programs, and in this case BioPerl doesn't handle them well.<br>
> That is why you get --><br>
> ------------- EXCEPTION: Bio::Root::Exception -------------<br>
> MSG: Sequence is a protein. Cannot revcom<br>
><br>
> You might want to replace them in your input fasta with the letter 'N' so they are treated as masked.  You will have to delete the mpi_blastdb directory to let maker rebuild the fasta indexes and you will probably have to set clean_try=1 in the control files so that MAKER deletes old result files that contain those characters on the retry.  The other error may be just a snowball effect from the first error, so you should see of it still happens after fixing the input fasta file.<br>


><br>
> Thanks,<br>
> Carson<br>
><br>
><br>
><br>
> From: Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>><br>
> Date: Friday, 23 November, 2012 3:06 PM<br>
> To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>><br>
> Cc: Maker Mailing List <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>
> Subject: Re: Maker issues<br>
><br>
> Thanks for your reply, and sorry for my delayed response.<br>
><br>
> I have attached the first file you requested, but the other two do not exist. I have attached a listing of the files in that directory. Let me know if you need anything else.<br>
><br>
><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
> On Mon, Nov 12, 2012 at 10:02 AM, Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>> wrote:<br>
> The first error is an IO error with your system.  I've added some more detail to the errors in the development version if you do an 'svn update'.  Then you will know the system specific reason why close or opened failed.  For the other error, could you send me this file  --> /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.3.mason.maker.output/maker.pdom.3.mason_datastore/scaffold_7/theVoid.scaffold_7/scaffold_7.1869077-1869882.comp59027_c1_seq93.est_exonerate.0<br>


><br>
> This one --> /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/scaffold_23.716125-721460.0.fasta<br>
><br>
> And this one --> /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/comp58983_c0_seq101.for.716125-721460.0.fasta<br>


><br>
> thanks,<br>
> Carson<br>
><br>
><br>
><br>
><br>
> From: Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>><br>
> Date: Thursday, 8 November, 2012 9:32 AM<br>
><br>
> To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>><br>
> Cc: Maker Mailing List <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>
> Subject: Re: Maker issues<br>
><br>
> Scaling up to whole-genome annotation, things seem to be going well. However, there are some intermittent issues. I've seen a couple occurrences of the following error...<br>
><br>
> #-------------------------------#<br>
> Calling out to FastaSeq::convert at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm line 1480.<br>
> running  est2genome search.<br>
> #--------- command -------------#<br>
> Widget::exonerate::est2genome:<br>
> /N/hd01/dstandag/Mason/local/bin/exonerate  -q /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/comp58983_c0_seq101.for.716125-721460.0.fasta -t /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/scaffold_23.716125-721460.0.fasta -Q dna -T dna --model est2genome  --minintron 20 --maxintron 10000 --showcigar --percent 20 > /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/scaffold_23.716125-721460.comp58983_c0_seq101.est_exonerate.0<br>


> #-------------------------------#<br>
> Calling out to FastaSeq::convert at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm line 1480.<br>
> couldn't close /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.5.mason.maker.output/maker.pdom.5.mason_datastore/scaffold_23/theVoid.scaffold_23/comp58983_c0_seq37.for.716125-723330.0.fasta at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/FastaFile.pm line 60.<br>


> --> rank=NA, hostname=c4<br>
> ERROR: Failed while polishig ESTs<br>
> ERROR: Chunk failed at level:2, tier_type:2<br>
> FAILED CONTIG:scaffold_23<br>
><br>
> ERROR: Chunk failed at level:5, tier_type:0<br>
> FAILED CONTIG:scaffold_23<br>
><br>
> examining contents of the fasta file and run log<br>
> Calling Datastore::MD5::mkdir at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling uri_escape at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling File::Path::mkpath at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
><br>
><br>
> ...as well as one occurrence of this error.<br>
><br>
> #-------------------------------#<br>
> Calling out to FastaSeq::convert at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm line 1480.<br>
> running  est2genome search.<br>
> #--------- command -------------#<br>
> Widget::exonerate::est2genome:<br>
> /N/hd01/dstandag/Mason/local/bin/exonerate  -q /N/dc/scratch/dstandag/PdomGenomic/Annotation/output/maker.pdom.3.mason.maker.output/maker.pd<br>
> om.3.mason_datastore/scaffold_7/theVoid.scaffold_7/comp59027_c1_seq93.for.1869077-1869882.0.fasta -t /N/dc/scratch/dstandag/PdomGenomic/Anno<br>
> tation/output/maker.pdom.3.mason.maker.output/maker.pdom.3.mason_datastore/scaffold_7/theVoid.scaffold_7/scaffold_7.1869077-1869882.0.fasta<br>
> -Q dna -T dna --model est2genome  --minintron 20 --maxintron 10000 --showcigar --percent 20 > /N/dc/scratch/dstandag/PdomGenomic/Annotation/<br>
> output/maker.pdom.3.mason.maker.output/maker.pdom.3.mason_datastore/scaffold_7/theVoid.scaffold_7/scaffold_7.1869077-1869882.comp59027_c1_se<br>
> q93.est_exonerate.0<br>
> #-------------------------------#<br>
><br>
> ------------- EXCEPTION: Bio::Root::Exception -------------<br>
> MSG: Sequence is a protein. Cannot revcom<br>
> STACK: Error::throw<br>
> STACK: Bio::Root::Root::throw /N/u/dstandag/Mason/local/src/PerlLibs/lib/perl5/Bio/Root/Root.pm:368<br>
> STACK: Bio::PrimarySeqI::revcom /N/u/dstandag/Mason/local/src/PerlLibs/lib/perl5/Bio/PrimarySeqI.pm:381<br>
> STACK: Bio::LocatableSeq::revcom /N/u/dstandag/Mason/local/src/PerlLibs/lib/perl5/Bio/LocatableSeq.pm:577<br>
> STACK: exonerate::splice_info::needs_to_be_revcomped /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/exonerate/<a href="http://splice_info.pm:86" target="_blank">splice_info.pm:86</a><<a href="http://splice_info.pm:86" target="_blank">http://splice_info.pm:86</a>><br>


> STACK: Widget::exonerate::est2genome::assemble /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Widget/exonerate/<a href="http://est2genome.pm:686" target="_blank">est2genome.pm:686</a><<a href="http://est2genome.pm:686" target="_blank">http://est2genome.pm:686</a>><br>


> STACK: Widget::exonerate::est2genome::parse /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Widget/exonerate/<a href="http://est2genome.pm:961" target="_blank">est2genome.pm:961</a><<a href="http://est2genome.pm:961" target="_blank">http://est2genome.pm:961</a>><br>


> STACK: polisher::exonerate::est::e_exonerate /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/polisher/exonerate/<a href="http://est.pm:82" target="_blank">est.pm:82</a><<a href="http://est.pm:82" target="_blank">http://est.pm:82</a>><br>


> STACK: polisher::exonerate::est::polish /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/polisher/exonerate/<a href="http://est.pm:44" target="_blank">est.pm:44</a><<a href="http://est.pm:44" target="_blank">http://est.pm:44</a>><br>


> STACK: GI::to_polisher /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm:1670<br>
> STACK: GI::polish_exonerate /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm:1517<br>
> STACK: Process::MpiChunk::_go /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm:1663<br>
> STACK: Process::MpiChunk::run /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm:335<br>
> STACK: Process::MpiChunk::run_all /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm:351<br>
> STACK: Process::MpiTiers::run_all /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiTiers.pm:286<br>
> STACK: Process::MpiTiers::run_all /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiTiers.pm:286<br>
> STACK: /N/u/dstandag/Mason/local/src/maker-dev/bin/maker:644<br>
> -----------------------------------------------------------<br>
> --> rank=NA, hostname=c4<br>
> ERROR: Failed while polishig ESTs<br>
> ERROR: Chunk failed at level:2, tier_type:2<br>
> FAILED CONTIG:scaffold_7<br>
><br>
> ERROR: Chunk failed at level:5, tier_type:0<br>
> FAILED CONTIG:scaffold_7<br>
><br>
> examining contents of the fasta file and run log<br>
> Calling Datastore::MD5::mkdir at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling uri_escape at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling File::Path::mkpath at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
><br>
> I'll let you know if I see anything else.<br>
><br>
><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
> On Wed, Nov 7, 2012 at 11:46 AM, Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>> wrote:<br>
> Thanks.  Typo now fixed on my end too ;-)<br>
><br>
> Thanks,<br>
> Carson<br>
><br>
><br>
> From: Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>><br>
> Date: Wednesday, 7 November, 2012 11:43 AM<br>
><br>
> To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>><br>
> Cc: Maker Mailing List <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>
> Subject: Re: Maker issues<br>
><br>
> Looked good for a while, but came across this error.<br>
><br>
> total clusters:20 now processing 0<br>
> flattening EST clusters<br>
> doing tblastx of alt-ESTs<br>
> Undefined subroutine &GI::loalize_file called at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/GI.pm line 2648.<br>
> --> rank=NA, hostname=c4<br>
> ERROR: Failed while doing tblastx of alt-ESTs<br>
> ERROR: Chunk failed at level:4, tier_type:2<br>
> FAILED CONTIG:scaffold_58<br>
><br>
> ERROR: Chunk failed at level:5, tier_type:0<br>
> FAILED CONTIG:scaffold_58<br>
><br>
> examining contents of the fasta file and run log<br>
> Calling Datastore::MD5::mkdir at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling uri_escape at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
> Calling File::Path::mkpath at /N/hd01/dstandag/Mason/local/src/maker-dev/bin/../lib/Process/MpiChunk.pm line 433.<br>
><br>
><br>
><br>
> --Next Contig--<br>
><br>
> It seems pretty clear that there is a typo in GI.pm. I changed loalize to localize and relaunched.<br>
><br>
><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
> On Wed, Nov 7, 2012 at 9:30 AM, Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>> wrote:<br>


> Done.<br>
><br>
> Test job has successfully cleared the preliminary Fasta indexing steps and is repeat masking. I'll let you know if there are any problems. Thanks!<br>
><br>
><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
> On Wed, Nov 7, 2012 at 9:00 AM, Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>> wrote:<br>
> 1.006902        Bio::Root::Version      /N/u/dstandag/Mason/local/src/PerlLibs/bioperl-live/Bio/Root/Version.pm<br>
><br>
> One thing I noticed, in the debug output is that you are using Bioperl live (here -->  /N/u/dstandag/Mason/local/src/PerlLibs/bioperl-live).  It's fasta indexer is broken.  I have an open bug I am trying to resolve with the Bioperl developers, but for now use the CPAN version of Bioperl.<br>


><br>
> Thanks,<br>
> Carson<br>
><br>
><br>
><br>
><br>
> From: Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>><br>
> Date: Monday, 5 November, 2012 10:14 AM<br>
> To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>><br>
> Cc: Maker Mailing List <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>
> Subject: Re: Maker issues<br>
><br>
> Debug output attached (bzip2 compressed).<br>
><br>
><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
> On Mon, Nov 5, 2012 at 10:08 AM, Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>> wrote:<br>
> Thanks. Could you also run with the --debug flag set on the command line for a few minutes and send me that.<br>
><br>
> --Carson<br>
><br>
><br>
> From: Daniel Standage <<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a><mailto:<a href="mailto:daniel.standage@gmail.com">daniel.standage@gmail.com</a>>><br>
> Date: Monday, 5 November, 2012 10:05 AM<br>
> To: Carson Holt <<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a><mailto:<a href="mailto:carsonhh@gmail.com">carsonhh@gmail.com</a>>>, Maker Mailing List <<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a><mailto:<a href="mailto:maker-devel@yandell-lab.org">maker-devel@yandell-lab.org</a>>><br>


> Subject: Maker issues<br>
><br>
> Carson,<br>
><br>
> I updated to the latest development version, made sure the TMP directory is on native disk space, and relaunched. I have attached the output of the job that failed in <5 minutes. It looks pretty similar to the errors I got the last time I used the dev version.<br>


><br>
> --<br>
> Daniel S. Standage<br>
> Ph.D. Candidate<br>
> Bioinformatics and Computational Biology Program<br>
> Department of Genetics, Development, and Cell Biology<br>
> Iowa State University<br>
><br>
><br>
><br>
><br>
><br>
><br>
><br>
</div></div>> _______________________________________________<br>
> maker-devel mailing list<br>
> <a href="mailto:maker-devel@box290.bluehost.com">maker-devel@box290.bluehost.com</a><br>
> <a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a><br>
<br>
</blockquote></div><br></div>