<div dir="ltr"><div>I&#39;m trying to encode a very large corpus derived from very heterogeneous text files. I&#39;ve solved most of the problems (e.g. multiple character encodings and the like), but there&#39;s one I&#39;m not sure how to deal with.</div><div><br></div><div>After tagging the texts with FreeLing I end up with a certain number of lines that are as follows:</div><div><br></div><div><font face="monospace">&lt;     &lt;     Fz     Fz     F     oth</font><br></div><div><br></div>When compiling the corpus, CQP throws the following error for each such case:<div><br></div><div><font face="monospace">Malformed tag &lt; &lt;       Fz      Fz      F       oth, inserted literally (file ~/02-Tagged/0128716.xml, line #85)</font><br></div><div><br></div><div>These cases seem to be from when writers got unduly creative with symbols, rather than from mathematical uses, so they&#39;re probably mostly expendable.</div><div><br></div><div>What&#39;s the best way to handle cases like these? I could in theory eliminate them with a script before CQP tries to compile the corpus, but I&#39;m loathe to make destructive changes to text contents. So it would be good to know what effect leaving them in will have on the final corpus -- with they interfere with CQP&#39;s corpus compilation process? For example, will they cause it to incorrectly determine where actual tags begin and end? Or are they basically harmless? </div><div><br></div><div>Thanks,<br>Scott</div><div><br></div><div><br></div></div>