<div class="markdown_content"><ul>
<li><strong>status</strong>: open --&gt; closed</li>
<li><strong>Group</strong>:  --&gt; TODO-3.5</li>
<li><strong>Comment</strong>:</li>
</ul>
<p>done in Q1 2016</p>
<hr/>
<p><strong> <a class="alink strikethrough" href="https://sourceforge.net/p/cwb/feature-requests/12/">[feature-requests:#12]</a> CQPweb: XML support</strong></p>
<p><strong>Status:</strong> closed<br/>
<strong>Group:</strong> TODO-3.5<br/>
<strong>Labels:</strong> CQPweb <br/>
<strong>Created:</strong> Sun Jun 14, 2009 11:58 PM UTC by Andrew Hardie<br/>
<strong>Last Updated:</strong> Wed Dec 12, 2012 05:26 AM UTC<br/>
<strong>Owner:</strong> Andrew Hardie</p>
<p>This is the big enhancement for version 3.0: many, MANY users have asked for it.</p>
<p>Just as the "text-based restrictions" parallel the "written text restrictions" in BNCweb, so the "XML-based restrictions" will need to parallel the "utterance-by-speaker-type" system in BNCweb.</p>
<p>Each XML span (ie s-attribute) which is to be covered in this way (and note, not all of the XML in a given corpus needs to be) will need to be identified by the combination of (a) an element-name (b) some given attribute. Its "is" in the database will then look a bti like this:</p>
<p>xml_metadata_for_CORPUSNAME [parallel to text_metadata_for_CORPUSNAME]<br/>
id          gender   class     ...      CQPbegin   CQPend<br/>
-----------------------------------------------------------<br/>
u|who|S933  m        AB        ...      \d\d\d\d   \d\d\d\d</p>
<p>Boite, however, this kind of "natural" system for XML identifiers won't work, because the XML segment is not *uniquely* identified. Two solutions:<br/>
(1) allow CQPbeing and CQPend to contain *multiple* cwb-indexes<br/>
(2) enforce uniqueness of XML elements - so "who" could not be used for u, but "id" could be.</p>
<p>Neither of these is entirely satisfactory and this needs careful thinking about.</p>
<p>Also note that every different s-attribute will require (a) a different set of CWB-frequency indexes and (b) a separate set of frequency tables . This function will be **VERY** hungry of disk space.</p>
<hr/>
<p>Sent from sourceforge.net because cwb@sslmit.unibo.it is subscribed to <a href="https://sourceforge.net/p/cwb/feature-requests/">https://sourceforge.net/p/cwb/feature-requests/</a></p>
<p>To unsubscribe from further messages, a project admin can change settings at <a href="https://sourceforge.net/p/cwb/admin/feature-requests/options.">https://sourceforge.net/p/cwb/admin/feature-requests/options.</a>  Or, if this is a mailing list, you can unsubscribe from the mailing list.</p></div>