<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Serge,<br><div><div><br></div><div>I have done an implementation of a corpus engine with an input format similar to CWB's that uses suffix arrays, but only for string regexp matching. It should not be too complicated to use suffix arrays also with token granularity, depending on the size of your corpus. I use a version of sary (<a href="http://sary.sourceforge.net/">http://sary.sourceforge.net/</a>) which I reimplemented in Common Lisp with 64bit support. (It comes only with 32bit support, which is to little for larger lexica.)</div><div><br></div><div>In any case, if you are interested, I can send you&nbsp;an article draft describing my architecture.</div><div><br></div><div>The system is still in beta stage (although it is used in a couple of projects in Bergen). Hopefully soon, I will put online some corpora using this system, which is called Korpuskel.&nbsp;</div><div><br></div><div><blockquote type="cite"><span class="Apple-style-span" style="font-family: monospace; ">Is someone aware of any implementation of suffix arrays algorithms<br>based on CWB indexes ?<br>We plan to develop token (versus character) based n-grams of any<br>length in the TXM context (<a href="http://textometrie.ens-lyon.fr/?lang=en">http://textometrie.ens-lyon.fr/?lang=en</a>)<br>which is based on CWB.<br>Milos Jakubicek said at PACLIC24 that Manatee (which could have<br>some similarity of architecture with CWB) integrates suffix<br>arrays, has anyone experience of that ?<br></span></blockquote><br></div><div>Best,</div><div>Paul</div><div><br></div></div><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: 'Lucida Grande'; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div><div><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: 'Lucida Grande'; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><span class="Apple-style-span" style="font-family: Helvetica; font-size: 12px; ">--&nbsp;</span></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">Paul Meurer</span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; "><br></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" face="Helvetica"><span class="Apple-style-span" style="font-family: monospace; ">Uni Computing<br>Allégt. 27, N-5007 Bergen, Norway<br>Phone +47 55 58 97 94<br><a href="http://uni.no/" style="text-decoration: none; ">http://uni.no</a>/digital</span></font></div><div><font class="Apple-style-span" face="monospace"><br></font></div></div></span></div></div></span><br class="Apple-interchange-newline">
</div>

<br></body></html>