
Escribo este post por si alguien se está rompiendo la cabeza intentando utilizar con el IDE de processing un stemmer en castellano.
El Stemming (o mal traducido lematizar) es un método para reducir una palabra a su raíz.
El stemming es una herramienta básica en los sistemas de recuperación de información. Por ejemplo una consulta sobre “bibliotecas” también encuentra documentos en los que solo aparezca “bibliotecario” porque el stem de las dos palabras es el mismo “bibliotec”.
Usaba una versión en inglés con la Massive Comprehension Machine para hacer grupos de palabras(clusters) y juntar en un único nodo (stem) las diferentes palabras.
El método más utilizado es el algoritmo de porter que aunque existe una implementación en Java, me he tenido que rebanar los sesos para utilizarlo en español con el IDE de processing.
Lo dejo aquí para quien le interese:
spanishstemmerprocessing.tar
Si lo usas: ¡dejame un comentario!
Para realizar este blog 









Muchas gracias por compartirlo!. Yo lo estoy usando para agrupar palabras en algún que otro experimento gráfico. Te dejo un enlace a los resultados…
http://www.flickr.com/photos/juanosborne/
No estaría nada mal tener la versión inglesa en processing, sabes si anda por ahi?.
Lo dicho, millones de gracias.
Left by Juan Osborne on July 27th, 2009