<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<div class="" style="word-wrap:break-word; line-break:after-white-space">Hi everyone, on behalf of Donald Dunagan at the University of Georgia (cc)
<div class="">I’m pleased to contribute CWB encoder scripts for the Spanish treebanks that I asked about previously (see below).</div>
<div class=""><br class="">
</div>
<div class="">
<div class="">The attached zip archive includes a README file; it is presupposed that the user already has licensed copies of the DEFT spanish treebank from the Linguistic Data Consortium and AnCora-ES 3.0 from the Centre de Llenguatge i Computació, Universitat
 de Barcelona.</div>
<div class=""><br class="">
</div>
<div class="">You will need to first adjust pathnames that set at the beginning such as INPUT1, INPUT2, CWBMAKE, DATA_DIRECTORY etc</div>
<div class="">to fit your site’s filesystem configuration. You may also need to upgrade your version of awk and ensure that you have the “iconv” utility on your system.</div>
<div class=""><br class="">
</div>
<div class="">But if all goes well, after running them you will be able to issue queries like:</div>
<div class="">
<blockquote type="cite" class=""><span class="" style="font-family:Consolas,Courier,monospace; font-size:13.333333015441895px">&lt;s_clausetype=&quot;relative&quot;&gt; [word=&quot;que&quot;] [pos=&quot;v&quot;] []* &lt;grup_nom_gen=&quot;f&quot;&gt; []* &lt;/grup_nom_gen&gt; &lt;/s_clausetype&gt; ;</span></blockquote>
</div>
<div class="">which&nbsp;searches for relative clauses which begin with the word 'que' followed by a verb and end with a feminine noun phrase.</div>
<div class=""><br class="">
</div>
<div class="">Perhaps this zip file could be added to the CWB web page under&nbsp;<a href="http://cwb.sourceforge.net/download.php#import" class="">Import &amp; export utilities</a>?</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class="">all the best,</div>
<div class="">-john</div>
<div class=""><br class="">
</div>
<div class="">
<div><br class="">
<blockquote type="cite" class="">
<div class="">On Jun 20, 2019, at 8:13 AM, John Hale &lt;<a href="mailto:jthale@uga.edu" class="">jthale@uga.edu</a>&gt; wrote:</div>
<br class="x_Apple-interchange-newline">
<div class="">
<meta content="text/html; charset=utf-8" class="">
<div class="" style="word-wrap:break-word; line-break:after-white-space">Hi, before reinventing the wheel I wanted to ask the CWB list whether anyone has already created an encoder script for the XML annotations used in the CLiC group’s&nbsp;<a href="http://clic.ub.edu/corpus" class="">Spanish
 corpora</a>? This annotation system is also used in the&nbsp;<a href="https://catalog.ldc.upenn.edu/LDC2018T01" class="">DEFT Spanish treebank</a>&nbsp;and documented fairly exhaustively in this English-language publication:
<div class="">
<pre class="" style="font-variant-ligatures:normal; orphans:2; widows:2; white-space:pre-wrap"><font face="Helvetica" class="">Soriano, B., O. Borrega, M. Taulé and M.A. Martí (2008) Guidelines,
3LB-WP-02-03, Universitat de Barcelona.
(<a href="http://clic.ub.edu/corpus/webfm_send/17" class="">http://clic.ub.edu/corpus/webfm_send/17</a>) </font></pre>
<div class="">It’s straightforward enough to thresh out the word (“wd”) attributes and morphology as positional attributes,</div>
<div class="">but my ambition is to encode the syntactic annotations as s-attributes as well, along the lines suggested in&nbsp;<a href="http://cwb.sourceforge.net/files/CWB_Encoding_Tutorial/node7.html" class="">the CWB manual</a>.</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class="">with grateful for any tips you might have,</div>
<div class="">-john</div>
</div>
</div>
</div>
</blockquote>
<br class="">
</div>
</div>
</div>
<div></div>
</div>
<div class="" style="word-wrap:break-word; line-break:after-white-space">
<div></div>
</div>
</body>
</html>