<div dir="ltr">Hi all,<br><br>One of the fungal genomes I'm annotating is relatively shattered (?), with many contigs/scaffolds and based on CEGMA analysis only may indicate a potential widespread duplication of the genome<br><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">#      Statistics of the completeness of the genome based on 248 CEGs      #<br>              #Prots  %Completeness  -  #Total  Average  %Ortho<br> <br>  Complete      181       72.98      -   365     2.02     67.40<br>   Group 1       54       81.82      -   105     1.94     66.67<br>   Group 2       39       69.64      -    86     2.21     71.79<br>   Group 3       45       73.77      -    86     1.91     57.78<br>   Group 4       43       66.15      -    88     2.05     74.42<br>   Partial      230       92.74      -   528     2.30     77.83<br>   Group 1       61       92.42      -   140     2.30     72.13<br>   Group 2       53       94.64      -   127     2.40     84.91<br>   Group 3       56       91.80      -   126     2.25     69.64<br>   Group 4       60       92.31      -   135     2.25     85.00</blockquote><div><br></div>The expected genome size is relatively low (~42 Mb by abyss-fac) in comparison with <i>Hortaea werneckii</i> (51.6Mb, 23333 genes), a related fungi with nearly 90% of its genes present in at least two copies.<br>Paper: <a href="http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071328">http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071328</a><br><div><br></div><div>Now to the Maker part... So, as part of the Maker annotation, I trained SNAP and Augustus, and I generated a specific RepeatModeler library. I recorded the predicted outputs from each Maker run (AED, number of predicted proteins and transcripts...). Both Augustus and SNAP used to give quite high number (~19000 and ~23000 respectively) in comparison with the xxx.all.maker.proteins.fasta (about 13600). So, my first question is, how does maker deal with gene duplications? Or is this just a phenomenon given that there is no support from the protein files provided initially to Maker? I've used 4 different protein files for the annotation, could it be that they weren't the best choices? I picked them from the closest relatives and similar environments</div><div><br></div><div>So, in my last run I turn the keep_preds=1 and the proteins in the xxx.all.maker.proteins.fasta reached to <br></div><div><br></div><div>Last question regarding the protein files. I download the annotated genomes from the JGI and most of them have two annotation folders "All_models,_Filtered_and_Not" and "Filtered_Models___best__". I've been using the protein files found in the later as I expected to have real evidence and a lower chance of being predicting false genes. Am I right?</div><div><br></div><div>Thank you in advance,</div><div><br></div><div>Xabier</div><div><br><br>-- <br>Xabier Vázquez Campos<br>PhD Candidate<br>Water Research Centre<br>School of Civil and Environmental Engineering<br>The University of New South Wales<br>Sydney NSW 2052 AUSTRALIA</div></div>