<html>
  <head>
    <meta content="text/html; charset=windows-1252"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <div class="moz-cite-prefix">Dear Scott,<br>
      <br>
      Yes, this is a documented limitation of the CWB software.  One of
      the options for larger corpora is a system called NoSketch Engine,
      which is an open-source subset of the commercial Sketch Engine. 
      The largest corpus we have in our installation of NoSkE is the
      Russian 13.7 billion Araneum Russicum Maximum.  You may want to
      try how the system feels here:<br>
      <br>
      <a class="moz-txt-link-freetext" href="http://unesco.uniba.sk/guest/index.html">http://unesco.uniba.sk/guest/index.html</a><br>
      <br>
      The software itself can be downloaded here:<br>
      <br>
      <a class="moz-txt-link-freetext" href="https://nlp.fi.muni.cz/trac/noske">https://nlp.fi.muni.cz/trac/noske</a><br>
      <br>
      Best,<br>
      <br>
      Vlado B, 10:45<br>
      <br>
    </div>
    <blockquote
cite="mid:CAJAB93zrsFWajfSryBg1WqOMWEVZ3eCMA2LWDPz9gSBLMG-O_Q@mail.gmail.com"
      type="cite">
      <meta http-equiv="Content-Type" content="text/html;
        charset=windows-1252">
      <div dir="ltr">Hi all,
        <div><br>
        </div>
        <div>I just got this warning for the first time:<br>
          <div><br>
          </div>
          <div>
            <div><font face="monospace, monospace">WARNING: Maximal
                corpus size has been exceeded.</font></div>
            <div><font face="monospace, monospace">         Input
                truncated to the first 2147483647 tokens (file
                /home/homebox/Corpora/source-files//input.vrt, line
                #3161375683).</font></div>
            <div><font face="monospace, monospace">Warning: missing
                &lt;/s&gt; tag inserted at end of input.</font></div>
          </div>
        </div>
        <div><br>
        </div>
        <div>Is there any way around this, by chance? That's 2^31, just
          a bit shy of 32 bits, but I'm on a 64 bit system with ext4
          filesystems, so I assume the issue is CQB related. </div>
        <div><br>
        </div>
        <div>Cheers!</div>
        <div>Scott</div>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
CWB mailing list
<a class="moz-txt-link-abbreviated" href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a>
<a class="moz-txt-link-freetext" href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb">http://liste.sslmit.unibo.it/mailman/listinfo/cwb</a>
</pre>
    </blockquote>
    <br>
    <p><br>
    </p>
    <div class="moz-signature">-- <br>
      <font color="navy">Vladimír Benko</font>
      <p>
        Université Comenius de Bratislava<br>
        Chaire UNESCO de communication<br>
        plurilingue et multiculturelle</p>
      <p>
        Šafárikovo námestie 6, SK-81499 Bratislava</p>
      <p>
        <a class="moz-txt-link-freetext" href="http://unesco.uniba.sk/guest/">http://unesco.uniba.sk/guest/</a><br>
        <a class="moz-txt-link-freetext" href="https://www.facebook.com/araneawebcorpora/">https://www.facebook.com/araneawebcorpora/</a><br>
        <a class="moz-txt-link-freetext" href="https://vk.com/araneawebcorpora">https://vk.com/araneawebcorpora</a>
      </p>
    </div>
  </body>
</html>