OK, thanks. So if I understand correctly, to preserve human-friendly IDs requires setting just three options: map_forward=1, maker_gff=<my_human_friendly.gff>, and model_pass=1. (Or instead of the last two I could equivalently just set model_gff to a GFF containing only models.)<br>
<br>A couple new issues came up when I tried to run with these options. I started maker like this:<br><br>/usr/bin/time mpiexec -n 10 maker -q < /dev/null > maker.oe 2>&1<br><br>1. I get a bunch of messages as follows, but with variable line number:<br>
<br>DBD::SQLite::db do failed: database is locked at /home/jrs/maker-2.26-beta/bin/../lib/GFFDB.pm line 186.<br><br>I saw that this came up in another thread <<a href="https://groups.google.com/forum/?fromgroups=#!topic/maker-devel/TscBgbQfBX4">https://groups.google.com/forum/?fromgroups=#!topic/maker-devel/TscBgbQfBX4</a>>, but I'm not sure it was ever resolved, nor whether it will affect my reannotation results (as I'm not sure what "your GFF3 results will not be integrated" means). This error did not come up the last time I ran maker for reannotation with similar options in a different directory. And both my current directory and my tmp directory are locally mounted, ie not NFS.<br>
<br>2. Both in this run and in previous runs, I get a lot of lines like this, seemingly at random:<br><br>Warning: unable to close filehandle DF properly.<br><br><br><div class="gmail_quote">On Mon, Sep 10, 2012 at 6:01 AM, Carson Holt <span dir="ltr"><<a href="mailto:carsonhh@gmail.com" target="_blank">carsonhh@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word"><div>The map_forward option requires that the pass option for the gene models be turned on.  Otherwise you will have to do some spacial overlap test outside of MAKER.</div>
<div><br></div><div>If you have a new assembly, you can try mapping the old models onto the new assembly using the old transcripts as input to the est= and setting est2genome=1 (nothing else set, i.e no repeat masking etc.).  Then there is an undocumented option that is still a little buggy (hence why it is still undocumented).  Add the line est_forward=1 to your control files.  This tells MAKER to copy names from the ESTs, build the models directly from their alignment, and to do other things to try and make a 1 to 1 match across the genome.  You will have to manually check that it is 1 to 1 in the end (as I said still a little buggy and hence undocumented).  Use the resulting file as input to the model_gff option on a separate run with map_forward=1 for additional reannotation wil more evidence, etc. where you want to still be able to map names forward. </div>
<div><br></div><span><div style="border-right:medium none;padding-right:0in;padding-left:0in;padding-top:3pt;text-align:left;font-size:11pt;border-bottom:medium none;font-family:Calibri;border-top:#b5c4df 1pt solid;padding-bottom:0in;border-left:medium none">
<span style="font-weight:bold">From: </span> Jeremy Semeiks <<a href="mailto:jeremy.semeiks@utsw.edu" target="_blank">jeremy.semeiks@utsw.edu</a>><br><span style="font-weight:bold">Date: </span> Sunday, 9 September, 2012 3:49 PM<br>
<span style="font-weight:bold">To: </span> <<a href="mailto:maker-devel@yandell-lab.org" target="_blank">maker-devel@yandell-lab.org</a>><br><span style="font-weight:bold">Subject: </span> [maker-devel] How to preserve human-friendly IDs when reannotating<br>
</div><div><div class="h5"><div><br></div>Hi all,<br><br>I have sequenced some novel fungal genomes, and I am annotating them with maker-2.26-beta. The entire project is pretty iterative, in the sense that I first get some seemingly-sane annotation sets, then analyze and compare the proteomes biologically, then reannotate when new data comes in or as I learn more about how maker works. Because I have already attached biological meaning to some of my proteins, I would like to retain the same human-friendly IDs across annotations. Eg, if maker suddenly finds 1,000 new proteins on a reannotation run because I turned on keep_preds, then I don't want the transcript formerly known as mymold_09652T0 to become mymold_10698T0 when I run maker_map_ids; I want to keep it named mymold_09652T0.<br>
<br>So, is there any built-in way to preserve human-friendly IDs, or do I need to write my own script for this? I have tried setting map_forward=1 and maker_gff=<the GFF file output by the previous run of maker_map_ids>, but setting these seems to preserve neither the human-friendly IDs nor even the original IDs. (Eg, protein "genemark-scaffold353-processed-gene-0.9-mRNA-1" changed its name to "genemark-scaffold353-processed-gene-0.6-mRNA-1" when reannotated.) I haven't turned on any of the *_pass options, eg protein_pass; would this be relevant?<br>
<br>Extra credit question: I am making some mate-pair libraries for these fungi; when I re-assemble, that will completely change my scaffold names. Is there any easy way to preserve human-friendly transcript names in this case? As with the above simpler case, I think it would be pretty easy to transfer 90% of the names just by doing an all-vs-all blastp between two annotation sets and fishing out the best hits, but the remaining 10% might be a headache.<br>
<br>Thanks,<br>Jeremy<br>Grad student, Grishin lab<br>UT Southwestern, Dallas TX<br><a href="tel:510.385.8959" value="+15103858959" target="_blank">510.385.8959</a><br></div></div>
_______________________________________________
maker-devel mailing list
<a href="mailto:maker-devel@box290.bluehost.com" target="_blank">maker-devel@box290.bluehost.com</a>
<a href="http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org" target="_blank">http://box290.bluehost.com/mailman/listinfo/maker-devel_yandell-lab.org</a>
</span></div>
</blockquote></div><br>