<pre>Sorry for sticking my nose into this, but I, as Spanish speaker, don't see the point on
having,<br />at least in this case, a multi word construction, in English you would say
&quot;on the contrary&quot;, and I doubt<br />there is a multi word construction for that
expression, in case you need it, I've seen and worked<br />with some corpora that take multi
word constructions into another level, that regarding structural<br />tagging, for
instance:<br /><br />&lt;s&gt;<br />...<br />palabra<br />...<br />&lt;expression&gt;<br
/>por<br />el<br />contrario<br />&lt;/expression&gt;<br />....<br />palabra<br />....<br
/>&lt;/s&gt;<br /><br />I hope my comment helps....<br />&nbsp;<br /><br />Hi Andrew,  thanks
for this explanation!  However, besides to the more technical details, my issue is still a bit
different: For I will not use the Spanish corpora by myself in the first place, I just want to
be sure what prospective users are going to expect when they use a Spanish corpus tagged with
the TreeTagger.  To me the best and most simple solution seems to be a normal tokenizing with
every word as one token, since it is a rather arbitrary matter what will count as a multiword
expression. But if tagging multi word expressions is standard in the Spanish-speaking
community I will bow to the majority&hellip;  Best, Simon  <font color="#800000">&gt; Am
30.04.2017 um 11:47 schrieb Hardie, Andrew &lt;<a
href="http://mail.chandia.net/src/compose.php?send_to=a.hardie%40lancaster.ac.uk">a.hardie@lancaster.ac.uk</a>&gt;:
</font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; Hi Simon, </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; this is a design issue with the
regular expressions used in CQPweb. To explain: [UNREADABLE] appears in the display when the
regex used to extract words from the CQP concordance is unable to parse a particular token in
the concordance. </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; In
this case, the reason is that the concordance contains </font> <font color="#800000">&gt; 
</font> <font color="#800000">&gt; ...por el contrario/ADV ... </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; which is split into 3 words </font>
<font color="#800000">&gt;  </font> <font color="#800000">&gt; por </font> <font
color="#800000">&gt; el </font> <font color="#800000">&gt; contrario/ADV </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; of which only the third is
well-formed according to CQPweb's expectations (that each word-token will be followed by / and
then a tag). SO the first two render as [UNREADABLE]. </font> <font color="#800000">&gt; 
</font> <font color="#800000">&gt; The fundamental problem is that the space, which here
occurs within tokens, is also used as the token-divider in CQP concordances. CQPweb shouldn't
be breaking up &quot;por el contrario&quot; but it has to because space is the between-token
character. </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; And the
*more* fundamental problem is that CQPweb is designed to work with the human-readable CQP
concordance rather than with an unambiguously parseable representation of the concordance
(e.g. XML). This is on the list to fix in CWB v4 when we revamp the CQP concordance print
modes. </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; In the meantime,
you can bodge this by replacing the space in multiword tokens in the input data with some
other character e.g. _ which would then give you  </font> <font color="#800000">&gt;  </font>
<font color="#800000">&gt; ... por_el_contrario/ADV .... </font> <font color="#800000">&gt; 
</font> <font color="#800000">&gt; which would, I believe, be correctly extracted as a single
word-and-tag. </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; best
</font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; Andrew. </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; -----Original Message----- </font>
<font color="#800000">&gt; From: <a
href="http://mail.chandia.net/src/compose.php?send_to=cwb-bounces%40sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a>
[<a
href="http://mail.chandia.net/src/compose.php?send_to=cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>]
On Behalf Of Meier-Vieracker, Simon </font> <font color="#800000">&gt; Sent: 30 April 2017
10:04 </font> <font color="#800000">&gt; To: Open source development of the Corpus WorkBench
</font> <font color="#800000">&gt; Subject: [CWB] Spanish TreeTagger </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; Sorry for posting a question not
concerning CQP in the first place but the TreeTagger for Spanish texts: </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; Using the script
&bdquo;tree-tagger-spanish&ldquo; a list of multiword expressions is included in the tagging
procedure, e.g. printing  </font> <font color="#800000">&gt;  </font> <font
color="#ff0000">&gt;&gt; Por el contrario        ADV        por~el~contrario </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; For CQPweb has problems with this and
displays it as &quot;[UNREADABLE] [UNREADABLE] contrario&ldquo; I wonder if I should to a
normal tokenizing. However, I am not sure whether users familiar with tagged Spanish texts
will expect &bdquo;por el contrario&ldquo; as a multiword token (for my part, I don&rsquo;t
speak Spanish). </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt; Or is
this a bug of my CQPweb v3.2.27? </font> <font color="#800000">&gt;  </font> <font
color="#800000">&gt; Best, Simon </font> <font color="#800000">&gt;  </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; ------- </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; Dr. Simon Meier </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt; Technische Universit&auml;t Berlin
</font> <font color="#800000">&gt; Institut f&uuml;r Sprache und Kommunikation </font> <font
color="#800000">&gt; Fachgebiet Allgemeine Linguistik </font> <font color="#800000">&gt;
Sekretariat H42 </font> <font color="#800000">&gt; Stra&szlig;e des 17. Juni 135, 10623 Berlin
</font> <font color="#800000">&gt; +49 (0) 30 314 22323 </font> <font color="#800000">&gt; <a
href="http://mail.chandia.net/src/compose.php?send_to=simon.meier%40tu-berlin.de">simon.meier@tu-berlin.de</a>
</font> <font color="#800000">&gt; <a
href="http://www.linguistik.tu-berlin.de/menue/mitarbeiterinnen/wiss_mitarbeiterinnen/simon_meier/"
target="_blank">http://www.linguistik.tu-berlin.de/menue/mitarbeiterinnen/wiss_mitarbeiterinnen/simon_meier/</a>
</font> <font color="#800000">&gt;  </font> <font color="#800000">&gt;  </font> <font
color="#800000">&gt;  </font> <font color="#800000">&gt;  </font> <font color="#800000">&gt;
_______________________________________________ </font> <font color="#800000">&gt; CWB mailing
list </font> <font color="#800000">&gt; <a
href="http://mail.chandia.net/src/compose.php?send_to=CWB%40sslmit.unibo.it">CWB@sslmit.unibo.it</a>
</font> <font color="#800000">&gt; <a href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb"
target="_blank">http://liste.sslmit.unibo.it/mailman/listinfo/cwb</a> </font> <font
color="#800000">&gt; _______________________________________________ </font> <font
color="#800000">&gt; CWB mailing list </font> <font color="#800000">&gt; <a
href="http://mail.chandia.net/src/compose.php?send_to=CWB%40sslmit.unibo.it">CWB@sslmit.unibo.it</a>
</font> <font color="#800000">&gt; <a href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb"
target="_blank">http://liste.sslmit.unibo.it/mailman/listinfo/cwb</a> </font>  -------  Dr.
Simon Meier  Technische Universit&auml;t Berlin Institut f&uuml;r Sprache und Kommunikation
Fachgebiet Allgemeine Linguistik Sekretariat H42 Stra&szlig;e des 17. Juni 135, 10623 Berlin
+49 (0) 30 314 22323 <a
href="http://mail.chandia.net/src/compose.php?send_to=simon.meier%40tu-berlin.de">simon.meier@tu-berlin.de</a>
<a
href="http://www.linguistik.tu-berlin.de/menue/mitarbeiterinnen/wiss_mitarbeiterinnen/simon_meier/"
target="_blank">http://www.linguistik.tu-berlin.de/menue/mitarbeiterinnen/wiss_mitarbeiterinnen/simon_meier/</a>
    _______________________________________________ CWB mailing list <a
href="http://mail.chandia.net/src/compose.php?send_to=CWB%40sslmit.unibo.it">CWB@sslmit.unibo.it</a>
<a href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb"
target="_blank">http://liste.sslmit.unibo.it/mailman/listinfo/cwb</a></pre>
<br /><br /><br /><br />_______________________<br />
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;andr&eacute;s
chand&iacute;a<br /><a href="http://www.chandia.net" target="_blank"><img
src="http://mail.chandia.net/images/chandia_net.png" alt="chandia.net" border="0" /></a><a
href="https://twitter.com/andreschandia" target="_blank"><img
src="http://mail.chandia.net/images/ico_tw.png" width="20" height="20" alt="" /></a><br /><a
href="http://chandia.net/content/nmt" title="Unificador ortogràfico de mapudungun">NMT</a> |
<a href="http://chandia.net/content/dungupeyem" title="Analizador y generador mofológico de
mapudungun">Dungupeyem</a> | <a href="http://corlexim.cl" title="Corpus lexicográfico de
mapudungun">Corlexim</a><br /><br />administrador de:<br /><a
href="http://parles.upf.edu">Parles.upf</a> | <a href="http://amindterapia.com">Amind
terapia</a> | <a href="http://koyaktumapuche.net">Mapuche koyaktu</a> | <a
href="http://parles.upf.edu/llocs/nocando">Nocando</a> |<br />mail: <a
href="http://mail.corporacionkoyaktu.net">ONG Mapuche koyaktu</a> | <a
href="http://mail.psicoaching.net">Psicoaching</a> |<br /><span style="font-size: 18pt; color:
rgb(79, 98, 40); font-family: Webdings;">P</span> <span style="font-size: 10pt; color: rgb(79,
98, 40);">No imprima innecesariamente. &iexcl;Cuide el medio ambiente!</span>