<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Webdings;
        panose-1:5 3 1 2 1 5 9 6 7 3;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Verdana",sans-serif;
        color:#4472C4;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">I&#8217;m glad you have a solution that works, but note you
<i>don&#8217;t even need cwb-align</i> if your data is already fully aligned by the sentence IDs&#8230; You can just use
<b>cwb-align-import</b> instead.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">Best<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">Andrew.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><b><span lang="EN-US">From:</span></b><span lang="EN-US"> cwb-bounces@sslmit.unibo.it &lt;cwb-bounces@sslmit.unibo.it&gt;
<b>On Behalf Of </b>&quot;Andrés Chandía&quot;<br>
<b>Sent:</b> 27 December 2018 16:09<br>
<b>To:</b> Open source development of the Corpus WorkBench &lt;cwb@sslmit.unibo.it&gt;<br>
<b>Subject:</b> Re: [CWB] Short sentences inconsistent alignment<o:p></o:p></span></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<div>
<p class="MsoNormal">I have aligned the corpus this way:<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">cwb-align -r registry/ <strong><span style="font-family:&quot;Calibri&quot;,sans-serif">-V s_id</span></strong> -o txtgmmdes_es.align txtgmmdes_es txtgmmdes_md s<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">And the other way around for its parallel corpus.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Adding the <strong><span style="font-family:&quot;Calibri&quot;,sans-serif">-V s_id</span></strong> did the trick<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Reading this part, helped me:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal">If we specify pre-alignment with -S, then the aligner assumes that the source and target corpora have<br>
the same number of paragraphs, and that the first paragraph in the source (HOLMES-EN) corresponds<br>
to the first paragraph in the target (HOLMES-DE), the second to the second, and so on. This would be<br>
done as follows:<br>
$ cwb-align -S p -o holmes.align HOLMES-EN HOLMES-DE s<br>
Alternatively we can use -V. In this case, paragraphs will not be matched up by order - they are<br>
matched up by the value of the s-attribute. Since the Holmes corpora input data have num as an<br>
annotation, there is an s-attribute p num which has values and can be used in this way. This would be<br>
done as follows:<br>
$ cwb-align -V p_num -o holmes.align HOLMES-EN HOLMES-DE s<o:p></o:p></p>
</blockquote>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal">Thanks a lot!!!!<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<p class="MsoNormal">El Jue, 27 de Diciembre de 2018, 13:58, Hardie, Andrew escribió:<o:p></o:p></p>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">The .align file is read as described in
<strong><span style="font-family:&quot;Verdana&quot;,sans-serif">man cwb-align</span></strong>.
</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">In brief, cols 1-4 are two pairs of cpos, where the first cpos pair = region
 in source and the second cpos pair = aligned region in target: so what I&#8217;m asking is, are the example sentences you sent with id=73 correctly represented by a line of cpos pairs in the a-attribute?</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">(You can also use cwb-align-decode to check that what is encoded is the
 same as what is in your .align file.)</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">If the cpos pairs are
<em><span style="font-family:&quot;Verdana&quot;,sans-serif">not</span></em> correct for that sentence alignment, then the problem is in the generation of the .align file. One point to note is that if you used
<strong><span style="font-family:&quot;Verdana&quot;,sans-serif">cwb-align</span></strong> to generate the alignments (??), errors are to be expected for language pairs which share little or no vocab.</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">Best</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">Andrew.</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><strong><span lang="EN-US" style="font-family:&quot;Calibri&quot;,sans-serif">From:</span></strong><span lang="EN-US"> &quot;Andrés Chandía&quot;
<br>
<strong><span style="font-family:&quot;Calibri&quot;,sans-serif">Sent:</span></strong> 27<br>
December 2018 11:47<br>
<strong><span style="font-family:&quot;Calibri&quot;,sans-serif">To:</span></strong> Hardie, Andrew
<br>
<strong><span style="font-family:&quot;Calibri&quot;,sans-serif">Cc:</span></strong> Open source development of the Corpus WorkBench
<br>
<strong><span style="font-family:&quot;Calibri&quot;,sans-serif">Subject:</span></strong> RE: [CWB] Short sentences inconsistent alignment</span><o:p></o:p></p>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Thanks for the answer, but how do I check that
<span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,sans-serif;color:#4472C4;mso-fareast-language:EN-US">
these s elements are really aligned with one another in the underlying a-attribute?</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">If you mean to check the align files, how should they be read?, anyway, here they are (just in case):<o:p></o:p></p>
</div>
<div>
<table class="MsoNormalTable" border="0" cellpadding="0">
<tbody>
<tr>
<td valign="top" style="padding:.75pt .75pt .75pt .75pt">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="border:solid windowtext 1.0pt;padding:0cm">[IMAGE REMOVED]</span><br>
<a href="http://chandia.net/content/dungupeyem" target="_blank" title="Este enlace externo se abrirá
en una nueva ventana">Dungupeyem</a> |
<a href="http://chandia.net/content/iecmap" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
IECMap</a> | <a href="http://chandia.net/content/isecmap" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
ISECMap</a> | <a href="http://chandia.net/content/nmt" target="_blank" title="Este enlace externo se abrirá en una
nueva ventana">
NMT</a> | <a href="http://corlexim.cl" target="_blank" title="Este
enlace externo se abrirá en una nueva ventana">
Corlexim</a><br>
<br>
administrador de:<br>
<a href="http://parles.upf.edu" target="_blank" title="Este enlace
externo se abrirá en una nueva ventana">Parles.upf</a> |
<a href="https://iwch.upf.edu" target="_blank" title="Este enlace externo se abrirá en una nueva
ventana">
IWCH</a> | <a href="http://amindterapia.com" target="_blank" title="Este
enlace externo se abrirá en una nueva ventana">
Amind terapia</a> | <a href="http://koyaktumapuche.net" target="_blank" title="Este enlace externo se abrirá en una
nueva ventana">
ONG Mapuche koyaktu</a> | <a href="http://parles.upf.edu/llocs/nocando" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
Nocando</a> | <a href="https://iac.upf.edu" target="_blank" title="Este enlace externo se abrirá en una nueva ventana">
IAC</a> | <a href="https://iac.upf.edu/cddz" target="_blank" title="Este enlace externo se abrirá en una
nueva ventana">
CddZ</a> | <a href="https://iac.upf.edu/isac" target="_blank" title="Este enlace externo se abrirá en una nueva ventana">
ISAC</a> | <a href="http://catcg.upf.edu" target="_blank" title="Este enlace
externo se abrirá en una nueva ventana">
CatCg</a><br>
<span style="font-size:18.0pt;font-family:Webdings">P</span> <span style="font-size:10.0pt">
No imprima innecesariamente. ¡Cuide el medio ambiente!</span><o:p></o:p></p>
<p class="MsoNormal"><br>
<br>
<br>
_______________________<br>
andrés chandía<br>
<a href="http://www.chandia.net" target="_blank" title="Este
enlace externo se abrirá en una nueva ventana"><span style="border:solid windowtext 1.0pt;padding:0cm;text-decoration:none"><img border="0" width="100" height="100" style="width:1.0416in;height:1.0416in" id="_x0000_i1025" src="cid:~WRD000.jpg" alt="Image removed by sender. chandia.net"></span></a><a href="https://twitter.com/chandianet" target="_blank" title="Este enlace externo se abrirá en una nueva ventana"><span style="border:solid windowtext 1.0pt;padding:0cm;text-decoration:none"><img border="0" width="20" height="20" style="width:.2083in;height:.2083in" id="_x0000_i1026" src="cid:image001.jpg@01D49E93.BAF449E0" alt="Image removed by sender."></span></a><br>
<a href="http://chandia.net/content/dungupeyem" target="_blank" title="Este enlace externo se abrirá
en una nueva ventana">Dungupeyem</a> |
<a href="http://chandia.net/content/iecmap" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
IECMap</a> | <a href="http://chandia.net/content/isecmap" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
ISECMap</a> | <a href="http://chandia.net/content/nmt" target="_blank" title="Este enlace externo se abrirá en una
nueva ventana">
NMT</a> | <a href="http://corlexim.cl" target="_blank" title="Este
enlace externo se abrirá en una nueva ventana">
Corlexim</a><br>
<br>
administrador de:<br>
<a href="http://parles.upf.edu" target="_blank" title="Este enlace externo se abrirá en una nueva ventana">Parles.upf</a> |
<a href="https://iwch.upf.edu" target="_blank" title="Este enlace externo se abrirá en una nueva
ventana">
IWCH</a> | <a href="http://amindterapia.com" target="_blank" title="Este enlace externo se abrirá en una nueva ventana">
Amind terapia</a> | <a href="http://koyaktumapuche.net" target="_blank" title="Este
enlace externo se abrirá en una nueva ventana">
ONG Mapuche koyaktu</a> | <a href="http://parles.upf.edu/llocs/nocando" target="_blank" title="Este enlace
externo se abrirá en una nueva ventana">
Nocando</a> | <a href="https://iac.upf.edu" target="_blank" title="Este enlace externo se abrirá en
una nueva ventana">
IAC</a> | <a href="https://iac.upf.edu/cddz" target="_blank" title="Este enlace externo se abrirá en una nueva ventana">
CddZ</a> | <a href="https://iac.upf.edu/isac" target="_blank" title="Este enlace externo se
abrirá en una nueva ventana">
ISAC</a> | <a href="http://catcg.upf.edu" target="_blank" title="Este enlace externo se abrirá en una nueva
ventana">
CatCg</a><br>
<span style="font-size:18.0pt;font-family:Webdings;color:#4F6228">P</span> <span style="font-size:10.0pt">
No imprima innecesariamente. ¡Cuide el medio ambiente!</span><o:p></o:p></p>
</td>
</tr>
</tbody>
</table>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</div>
</div>
</div>
</body>
</html>