<div dir="ltr"><div>Hello:<br><br></div>We are using the Maker2 pipeline to annotating a new genome. We just read something about the repeat masking from repeatMasker's documents. It suggests to leave low complexity region unmasked and to do gene annotation using both masked and unmasked genome. I wonder what your opinion and suggestions on this? Many thanks<br><div><div><div><br><br>The paragraph below is from <a href="http://www.binfo.ncku.edu.tw/RM/webrepeatmaskerhelp.html">http://www.binfo.ncku.edu.tw/RM/webrepeatmaskerhelp.html</a><br><h2>Use in association with gene prediction programs</h2>

<p> 
Predicting genes from a masked sequence faces several problems. <span style="color:rgb(0,0,255)">First,
one should not mask low complexity regions</span>, e.g. to avoid masking
trinucleotide repeats in coding regions. But even with only
interspersed repeats masked, gene prediction programs may fail to
identify exons correctly. As mentioned above, sometimes tail ends of
coding regions may have originated from transposable elements. Even if
no coding regions have been masked, splice sites may be compromised;
e.g. the polypyrimidine region that is part of the acceptor splice
site may be contained within a repeat.  
<br> <br>

Thus, I generally recommend to run a gene prediction program on
unmasked DNA (as well) and compare the predicted genes and exons with
the RepeatMasker output. Some gene prediction program allow you to
force certain exons out of the predictions (e.g. often the old ORFs of
LINE1 elements and endogenous retroviruses are included in
genes). Work is also in progress at several sites to incorporate
RepeatMasker into gene prediction programs, in which cases matches to
repeats are weighted in along with the other parameters used.  <br>
 <br></p><p>Best</p><p>Quanwei<br></p>

<h2><br></h2></div></div></div></div>