All tools distributed with sourcecode are distributed under the GNU General Public Licence. More information on the GNU project is available here. The code comes with no warranty. Use at own risk.
The collection of tools has moved to a new location.
See the new Stava info at the new tools page.
The sourcecode for Stava is available here (last published July 25, 2016). Lexicon Bloom filters and some useful lists of common names etc. are available here.
If you have any questions, please contact Viggo Kann (viggo@nada.kth.se).
See the new JavaSDM info at the new tools page.
The sourcecode for JavaSDM is available here and on-line documentation is available as JavaDoc. Additional information on how to run the random indexing package is available in a Readme file. Furthermore a Readmemore file explains how to use several of the classes in the JavaSDM package stand-alone; for example for decompounding, lemmatizing, tagging or for looking up term and/or document frequencies calculated over large Swedish corpora. A Java package containing a large number of Vector/Matrix similarity measures is available here, together with on-line documentation, also in JavaDoc.
If you have any questions, please contact Martin Hassel (xmartin@nada.kth.se).
See the new Stomp info at the new tools page.
The sourcecode for Stomp is available here (last published November 22, 2005). For more information, see this article. Note: In this implementation the handling of numerical values is very bad (all numerical values are expected by Stomp to have been replaced with the string "4711"). It should be quite straightforward to improve this handling, though.
If you have any questions, please contact Jonas Sjöbergh (jsh@nada.kth.se).
See the new Compound Splitter info at the new tools page.
The sourcecode for a server implementation of Compound Splitter is available here (Last published March 11, 2009). For more information, see this article. Compound Splitter is also a part of Stava, see above.
If you have any questions, please contact Jonas Sjöbergh (jsh@nada.kth.se).
See the new Granska tagger info at the new tools page.
The sourcecode for Granska Tagger is available here (last published March 10, 2009) and a version for amd64 (last published November 5, 2010, thanks to Robert Östling). For more information, see the following article. To be useful Granska Tagger requires various lexicon files which are available here.
See the new Granska info at the new tools page.
The sourcecode for Granska is available in the Git repository git@github.com:viggokann under the branch willes. It can be compiled both under Solaris and Linux.
Description of Granska's rule language (in Swedish).
If you have any questions, please contact Viggo Kann (viggo@nada.kth.se).
See the new Inflector info at the new tools page.
The sourcecode for Inflector is available here (Last published December 30, 2005). To be useful Inflector requires the same lexicon files as Granska Tagger.
Unfortunately we will not be able to answer any questions regarding this tool.
See the new AutoEval info and the new Missplel infoat the new tools page.
The source code for AutoEval and Missplel (last published November 22, 2005). The code may not be used for commercial purposes. The source code is best compiled with gcc/g++ 3.4.4 and requires Xerces, Boost and zlib. There is also a graphical user interface available that requires QT. Also, you should take a look at the lexicon files (e.g. the file cwtl) used by Granska Tagger if you don't have access to your own tagged corpus (this will only be useful for producing spelling errors in Swedish, however).
If you have any questions, please contact Johnny Bigert (johnny@kth.se).
See the new Infomat info at the new tools page.
Infomat is available here. Infomat is a Vector Space Visualization Tool. With it you can browse huge matrixes, such as those often used in Information Retrieval.
If you have any questions, please contact Magnus Rosell (rosell@csc.kth.se).
Many of the tools are vailable online, running on a server at KTH. There are several ways to access the tools, including a RESTful interface called Granska API and connecting to the servers directly unsing sockets.
Denna text ger både intern information om servrarna och information om hur dom anropas utifrån. Teckenkoden för servrarna är ISO-8859-1 (Latin 1). Använd alltså inte UTF-8.
Samtliga servrar går på datorn skrutten.csc.kth.se.
Granska lyssnar för närvarande på portarna 6123 (grammatikgranskning), 6127 (chunking) och 6128 (grammatikgranskning).
För att anropa en Granskaserver skickar man text till skrutten.csc.kth.se på den port servern lyssnar på. Det vanligaste anropet är nyckelordet "TEXT", följt av mellanslag, följt av den text man vill ha granskad (chunkad) på en enda lång rad, följt av en ny rad med nyckelordet "ENDQ" följt av ett nyradstecken. Servern skickar tillbaka XML med resultatet av anropet.
Exempel:
telnet skrutten.csc.kth.se 6123
TEXT En liten bil åker där borta.
ENDQ
Man kan även skicka kommandot "INFLECT", följt av mellanslag, följt av ett ord, följt av en ny rad med nyckelordet "ENDQ". Då får man tillbaka det ordets möjliga böjningsformer.
Granskaserverna tar för närvarande inte emot texter längre än 10000 tecken (kan ställas om vid kompilering).
För närvarande finns en server på port 6140 som ger det troligaste förslaget och en server på port 6150 som ger samtliga möjliga förslag.
Servern anropas genom att skriva ord med mellanslag eller nyrad emellan dem (att klistra in vanlig löptext som denna fil fungerar också i allmänhet bra) och avsluta med nyckelordet "ENDQ" på en egen rad (följt av radmatning). De analyserade orden kommer tillbaka ett ord per rad med eventuella uppdelningsförslag på samma rad, separerade med TAB-tecken.
För närvarande finns en server för felaktiga särskrivningar på port 6133, ordföljdsfel på port 6134 och kongruensfel på port 6135.
Servrarna anropas på följande sätt:
Text skickas till lämplig port, ett ord per rad med nyckelordet "ENDQ" ensamt på en rad på slutet.
Varje ord behöver dessutom annotation, varje kolumn (ord, och annotationskolumner) separeras med space.
För särskrivningar och ordföljdsfel skickas ordet självt och dess POS-tagg (med Granskas tagg-set).
För kongruensfel skickas ordet, taggen som den är minus information om genus, bestämd/obestämd form, singular/plural, och sedan kolumner med genus, singular/plural, bestämd form eller ej. Taggar där denna information inte finns eller är applicerbar har "-" i de fälten. Se filen /opt/snaalgranska/fejkgranska/web-interface/snaalapplet.java för en mappning från Granska-tagg till den information servern vill ha.
För att använda servrarna behöver man alltså först POS-tagga texten med hjälp av Granska (eller någon annan tagger som använder samma tagg-set).