<div style="line-height:1.7;color:#000000;font-size:14px;font-family:arial">Hi all,<br>Does anyone know whether cwb-align-encode support utf8 now? I'm running a problem when trying to align English with Chinese (encoded in utf8). It seems that I can query Chinese-English pairs but not reversely. The English-Chinese pairs do not give proper Chinese.<br><br>Ok, here is my scenario for your reference.<br><br>I have two toy corpora named "cn" and "en" respectively.<br>======================================<br>cn:<br>&lt;a_cn_en id="cn_en_1"&gt;<br>我<br>是<br>一个<br>兵<br>。<br>&lt;/a_cn_en&gt;<br>------------------------------------------------<br>en:<br>&lt;a_cn_en id="cn_en_1"&gt;<br>I<br>am<br>a<br>soldier<br>.<br>&lt;/a_cn_en&gt;<br><br><br>registry files:<br>-----------------------------------------------<br>cn:<br>NAME "cn"<br>ID&nbsp;&nbsp; cn<br>HOME /home/ray/bilingual/cn<br>ATTRIBUTE word<br>STRUCTURE a_cn_en<br>----------------------------------------------<br>en:<br>NAME "en"<br>ID&nbsp;&nbsp; en<br>HOME /home/ray/bilingual/en<br>ATTRIBUTE word<br>STRUCTURE a_cn_en<br>=====================================<br><br>I run the following step by step:<br>ray@ray-desktop:~$ export CORPUS_REGISTRY=/home/ray/bilingual/registry<br>ray@ray-desktop:~$ cwb-encode -c utf8 -d /home/ray/bilingual/cn -f /home/ray/bilingual/data/cn -R /home/ray/bilingual/registry/cn -S a_cn_en<br>Annotations of s-attribute &lt;a_cn_en&gt; not stored (file /home/ray/bilingual/data/cn, line #1, warning issued only once).<br><br>ray@ray-desktop:~$ cwb-encode -d /home/ray/bilingual/en -f /home/ray/bilingual/data/en -R /home/ray/bilingual/registry/en -S a_cn_en<br>Annotations of s-attribute &lt;a_cn_en&gt; not stored (file /home/ray/bilingual/data/en, line #1, warning issued only once).<br><br>ray@ray-desktop:~$ cwb-make -V EN<br>ray@ray-desktop:~$ cwb-make -V CN<br>ray@ray-desktop:~$ cwb-align -v -o out.align&nbsp; CN EN a_cn_en <br>ray@ray-desktop:~$ cwb-align-show out.align&nbsp; <br>Displaying alignment for [CN, EN] from file out.align<br>Enter 'h' for help.<br>&gt;&gt; p<br>1:1-alignment [0, 4] x [0, 4] (12)============================================<br><br>我 是 一个 兵 。&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; I am a soldier . <br>&gt;&gt; <br><br>ray@ray-desktop:~$ cwb-align -v -o out2.align&nbsp; EN CN a_cn_en&nbsp;&nbsp; <br>ray@ray-desktop:~$ cwb-align-show out2.align <br>Displaying alignment for [EN, CN] from file out2.align<br>Enter 'h' for help.<br>&gt;&gt; <br>1:1-alignment [0, 4] x [0, 4] (12)============================================<br><br>I am a soldier .&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 我 是 一个 兵 。 <br>&gt;&gt; <br><br><br>I added the following line in /home/ray/bilingual/registry/en:<br>ALIGNED&nbsp;&nbsp;&nbsp; cn<br>Similarly, in /home/ray/bilingual/registry/cn I added:<br>ALIGNED&nbsp;&nbsp;&nbsp; en<br><br>ray@ray-desktop:~$ cwb-align-encode -D out.align <br>ray@ray-desktop:~$ cwb-align-encode -D out2.align<br><br>ray@ray-desktop:~$ cqp<br>[no corpus]&gt; CN;<br>CN&gt; show +en;<br>CN&gt; "我";<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;我&gt; 是 一个 兵 。<br>--&gt;en: I am a soldier .<br>CN&gt; <br><br>ray@ray-desktop:~$ cqp<br>[no corpus]&gt; EN;<br>EN&gt; show +cn;<br>EN&gt; "I";<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &lt;I&gt; am a soldier .<br>--&gt;cn: &lt;88&gt;&lt;91&gt; &lt;98&gt;� &lt;80&gt;个 &lt;85&gt;� &lt;80&gt;&lt;82&gt;<br>EN&gt; <br><br>As you can see, the English-Chinese alignment doesn't yield proper Chinese.<br><br>My question is: is this a cwb-align-encode problem or a cqp problem? Thanks for any tips.<br><br><div><br><span style="color: rgb(128, 128, 128);"><span style="color: rgb(128, 128, 128);"><span style="color: rgb(0, 0, 0);"><span style="color: rgb(0, 0, 0);">Best,</span><br><span style="color: rgb(0, 0, 0);">Ray</span></span><br></span></span></div></div><br><br><span title="neteasefooter"><span id="netease_mail_footer"></span></span>