<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <div class="moz-cite-prefix">Dear All,<br>
      <br>
    </div>
    <blockquote type="cite"
      cite="mid:0bf0eef9-57f9-16ad-b09b-f0bb6d644cb4@ff.cuni.cz">Just a
      small rectification re: <code style="font-size: 0.85em; font-family: Consolas,Inconsolata,Courier,monospace;margin: 0px 0.15em; padding: 0px 0.3em; white-space: pre-wrap; border: 1px solid rgb(234, 234, 234); background-color: rgb(248, 248, 248); border-radius: 3px; display: inline;">&lt;g/&gt;</code>
      in Manatee/Bonito: turns out it <em>is</em> an opt-in
      configuration after all, cf. <a
href="https://groups.google.com/a/sketchengine.co.uk/d/msg/noske/lYHa3WSb4L8/6ycvtxCYAwAJ"
        moz-do-not-send="true">https://groups.google.com/a/sketchengine.co.uk/d/msg/noske/lYHa3WSb4L8/6ycvtxCYAwAJ</a>.
      Sorry if I misled anyone earlier, I don’t use the feature myself,
      so I only had a vague recollection it was somehow there. And
      apologies to any (No)SkE devs who might be subscribed to the CWB
      list — this is actually a nice and clean way to do it :)</blockquote>
    <br>
    The &lt;g/&gt; feature in (No)SkE can be opted in at two levels:
    Firstly, by including or the &lt;g/&gt; structure into the source
    vertical (this must be performed during tokenization), and defining
    it in the respective corpus configuration file, the corpus designer
    decides that the original appearance of spaces is preserved.  And
    secondly, any corpus user can decide whether the &lt;g/&gt;
    structures are to be interpreted (which is bit misleadingly called
    "displayed").<br>
    <br>
    In our (No)SkE installations, we prefer preserving information about
    spaces for the text displayed on the screen, as two main groups of
    our corpora (lexicographers and students of foreign languages)
    typically need to copy longer texts fragments, which otherwise would
    require manual editing.<br>
    <br>
    I admit, however, that use of &lt;g/&gt;'s may also confuse corpus
    users, as some token boundaries become "hidden" and tonenization
    policy is less apparent :-)<br>
    <br>
    Best regards,<br>
    <br>
    Vlado B, 18:20<br>
    <br>
       <br>
    <div class="moz-signature">-- <br>
      <font color="navy">Vladimír Benko</font>
      <p>
        Université Comenius de Bratislava<br>
        Chaire UNESCO de communication<br>
        plurilingue et multiculturelle</p>
      <p>
        Šafárikovo námestie 6, SK-81499 Bratislava</p>
      <p>
        <a class="moz-txt-link-freetext" href="http://unesco.uniba.sk/guest/">http://unesco.uniba.sk/guest/</a><br>
        <a class="moz-txt-link-freetext" href="https://www.facebook.com/araneawebcorpora/">https://www.facebook.com/araneawebcorpora/</a><br>
        <a class="moz-txt-link-freetext" href="https://vk.com/araneawebcorpora">https://vk.com/araneawebcorpora</a>
      </p>
    </div>
  </body>
</html>