<div dir="ltr">Thanks for the info, Andrew. I just needed to make sure I wasn&#39;t doing something wrong on my end. Can&#39;t wait for v4, by the way!<div><br></div><div>And thanks for the tip, Vladimir. NoSkE certainly looks nice, but I&#39;m pretty attached to CWB :-)</div><div><br></div><div>Cheers,</div><div>Scott</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Mar 30, 2017 at 6:11 AM, Hardie, Andrew <span dir="ltr">&lt;<a href="mailto:a.hardie@lancaster.ac.uk" target="_blank">a.hardie@lancaster.ac.uk</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div bgcolor="white" lang="EN-GB" link="blue" vlink="purple">
<div class="m_-1111406279661565057WordSection1">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d">And our Ziggurat project is designed to address – among other things - precisely this limitation.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><i><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d">Read all about it:
<a href="http://cwb.sourceforge.net/cwb4.php" target="_blank">http://cwb.sourceforge.net/<wbr>cwb4.php</a>
</span></i><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d">best<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d">Andrew.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1f497d"><u></u> <u></u></span></p>
<div>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext"> <a href="mailto:cwb-bounces@sslmit.unibo.it" target="_blank">cwb-bounces@sslmit.unibo.it</a>
 [mailto:<a href="mailto:cwb-bounces@sslmit.unibo.it" target="_blank">cwb-bounces@sslmit.<wbr>unibo.it</a>] <b>On Behalf Of </b>Vladimír Benko<br>
<b>Sent:</b> 30 March 2017 09:49<br>
<b>To:</b> <a href="mailto:ssadowsky@gmail.com" target="_blank">ssadowsky@gmail.com</a><br>
<b>Cc:</b> Open source development of the Corpus WorkBench<br>
<b>Subject:</b> Re: [CWB] Maximum corpus size exceeded<u></u><u></u></span></p>
</div>
</div><div><div class="h5">
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">Dear Scott,<br>
<br>
Yes, this is a documented limitation of the CWB software.  One of the options for larger corpora is a system called NoSketch Engine, which is an open-source subset of the commercial Sketch Engine.  The largest corpus we have in our installation of NoSkE is
 the Russian 13.7 billion Araneum Russicum Maximum.  You may want to try how the system feels here:<br>
<br>
<a href="http://unesco.uniba.sk/guest/index.html" target="_blank">http://unesco.uniba.sk/guest/<wbr>index.html</a><br>
<br>
The software itself can be downloaded here:<br>
<br>
<a href="https://nlp.fi.muni.cz/trac/noske" target="_blank">https://nlp.fi.muni.cz/trac/<wbr>noske</a><br>
<br>
Best,<br>
<br>
Vlado B, 10:45<u></u><u></u></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal">Hi all, <u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">I just got this warning for the first time:<u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-family:&quot;Courier New&quot;">WARNING: Maximal corpus size has been exceeded.</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-family:&quot;Courier New&quot;">         Input truncated to the first 2147483647 tokens (file /home/homebox/Corpora/source-<wbr>files//input.vrt, line #3161375683).</span><u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><span style="font-family:&quot;Courier New&quot;">Warning: missing &lt;/s&gt; tag inserted at end of input.</span><u></u><u></u></p>
</div>
</div>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Is there any way around this, by chance? That&#39;s 2^31, just a bit shy of 32 bits, but I&#39;m on a 64 bit system with ext4 filesystems, so I assume the issue is CQB related. <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Cheers!<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Scott<u></u><u></u></p>
</div>
</div>
<p class="MsoNormal"><br>
<br>
<br>
<u></u><u></u></p>
<pre>______________________________<wbr>_________________<u></u><u></u></pre>
<pre>CWB mailing list<u></u><u></u></pre>
<pre><a href="mailto:CWB@sslmit.unibo.it" target="_blank">CWB@sslmit.unibo.it</a><u></u><u></u></pre>
<pre><a href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb" target="_blank">http://liste.sslmit.unibo.it/<wbr>mailman/listinfo/cwb</a><u></u><u></u></pre>
</blockquote>
<p class="MsoNormal"><u></u> <u></u></p>
<p><u></u> <u></u></p>
<div>
<p class="MsoNormal">-- <br>
<span style="color:navy">Vladimír Benko</span> <u></u><u></u></p>
<p>Université Comenius de Bratislava<br>
Chaire UNESCO de communication<br>
plurilingue et multiculturelle<u></u><u></u></p>
<p>Šafárikovo námestie 6, SK-81499 Bratislava<u></u><u></u></p>
<p><a href="http://unesco.uniba.sk/guest/" target="_blank">http://unesco.uniba.sk/guest/</a><br>
<a href="https://www.facebook.com/araneawebcorpora/" target="_blank">https://www.facebook.com/<wbr>araneawebcorpora/</a><br>
<a href="https://vk.com/araneawebcorpora" target="_blank">https://vk.com/<wbr>araneawebcorpora</a> <u></u>
<u></u></p>
</div>
</div></div></div>
</div>

<br>______________________________<wbr>_________________<br>
CWB mailing list<br>
<a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><br>
<a href="http://liste.sslmit.unibo.it/mailman/listinfo/cwb" rel="noreferrer" target="_blank">http://liste.sslmit.unibo.it/<wbr>mailman/listinfo/cwb</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="font-size:12.7272720336914px">Dr. Scott Sadowsky<br>Profesor Asistente de Lingüística</div><div dir="ltr" style="font-size:12.7272720336914px">Pontificia Universidad Católica de Chile<br></div><div dir="ltr" style="font-size:12.7272720336914px"><br></div><div dir="ltr" style="font-size:12.7272720336914px">ssadowsky gmail com</div><div dir="ltr" style="font-size:12.7272720336914px">scsadowsky uc cl<br><a href="http://sadowsky.cl/" target="_blank">http://sadowsky.cl/</a></div><div dir="ltr" style="font-size:12.7272720336914px"> </div></div></div></div></div></div></div></div></div></div></div>
</div>