<div dir="ltr"><div>G&#39;day...</div><div><br></div><div>Has anyone else done serious work on porting the tools to support large corpora?</div><div><br></div><div>I have forked the core tools to <a href="https://github.com/TinoDidriksen/cwb">https://github.com/TinoDidriksen/cwb</a> and am working on changing the internals to make use of 64bit types and algorithms.</div><div><br></div><div>Step one was to make it build natively on Windows in Visual Studio with vcpkg, which the <a href="https://github.com/TinoDidriksen/cwb/tree/cmake">https://github.com/TinoDidriksen/cwb/tree/cmake</a> branch does. This branch is compatible with existing code and corpora - it&#39;s really just build fixes and using CMake for the cross-platform project.</div><div><br></div><div>Step two will be a new branch with a thorough overhaul of the codebase, using C99 and possibly C++ if I get tired of C&#39;s limitations. This will be incompatible with existing code and corpora, since everything from hash functions to random generator algorithms need to be bumped to 64bit, and most storage changes from int to uint64_t.</div><div><br></div><div>But if anyone else has already done this, I&#39;d like to know. I am aware of the 4.0 effort and the papers from 2015 promising new features, but they&#39;re still too far off for our use.</div><div><br></div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr" style="font-size:12.8px">-- <span style="font-size:12.8px">Tino Didriksen</span></div><div dir="ltr" style="font-size:12.8px"><br></div></div></div></div></div>