Search

termino-seo-stemming
Escribo este post por si alguien se está rompiendo la cabeza intentando utilizar con el IDE de processing un stemmer en castellano.

El Stemming (o mal traducido lematizar) es un método para reducir una palabra a su raíz.

El stemming es una herramienta básica en los sistemas de recuperación de información. Por ejemplo una consulta sobre “bibliotecas” también encuentra documentos en los que solo aparezca “bibliotecario” porque el stem de las dos palabras es el mismo “bibliotec”.
Usaba una versión en inglés con la Massive Comprehension Machine para hacer grupos de palabras(clusters) y juntar en un único nodo (stem) las diferentes palabras.

El método más utilizado es el algoritmo de porter que aunque existe una implementación en Java, me he tenido que rebanar los sesos para utilizarlo en español con el IDE de processing.

Lo dejo aquí para quien le interese:
spanishstemmerprocessing.tar

Si lo usas: ¡dejame un comentario!

13 Responses to “Lematizador español para processing”

Muchas gracias por compartirlo!. Yo lo estoy usando para agrupar palabras en algún que otro experimento gráfico. Te dejo un enlace a los resultados…

http://www.flickr.com/photos/juanosborne/

No estaría nada mal tener la versión inglesa en processing, sabes si anda por ahi?.

Lo dicho, millones de gracias.

Guau!

Brutales la imágenes! Justo pretendía hacer algo parecido con una red semántica sobre cada candidato.

Has usado processing también para situar las palabras o lo has hecho con un programa de retoque fotográfico?

La versión inglesa del stemmer la puedes encontrar en la librería RITA.
http://www.rednoise.org/rita/

Un saludo,
has sido el primer comentario, enhorabuena! ;)

Gracias Lot!,

Si, usé processing con los índices de repeticiones de palabras para ‘componer’ las imágenes buscando patrones homogéneos de color.

Al final trasteando con tu implementación y la versión java de snowball he conseguido que me funcione en inglés. Como siempre lo peor es ajustar las stopwords.

Si se te ocurre alguna idea para aplicar esta técnica…

Lo dicho, mil gracias y un saludo!.

Lo ideal es escoger un buen fichero de stopwords si quieres yo tengo alguno por ahi que he hecho.

Contar sólo la frecuencia de las palabras lematizadas todavía es una técnica muy básica, hay que combinarla con otros métodos de comprensión del lengaje natural.

Si necesitas ayuda con algo avisa!
Un saludo.

Estimado,

Busco la forma de poder aplicar Stemming sobre documentos planos (archivos de texto), queria saber si esto podria ayudar, ya que necesito aplicarlo en español. Espero que me puedas ayudar, muchas gracias.

Saludos.

Eso es precisamente lo que hace!

Estimado, por favor si me puedes ayudar, cuales tendrian que ser los pasos para compilar estos codigos (uso linux), hay un archivo con formato extraño .pde, lo que necesito es pasarle un archivo.txt con muchos escritos y que me aplique stemming sobre las palabras.

Piero,
Si ni siquiera sabes que pde es la extensión del lengaje processing, creo que necesitas muchos conocimientos para que te pueda ayudar.

Processing funciona en Linux, aunque también puedes usar lematizadores en c++, python, java, etc.

Por lo tanto, es posible implementar el codigo processing por un codigo similar en java?

Ya lo hice, muchas gracias por todo.

Saludos y que sea un muy buen año 2010.

¿El Stemming (o mal traducido lematizar) es un método para reducir una palabra a su raíz. ?

No es que esté mal traducido: son dos cosas distintas.

El lema de soy, eres, somos es ser.

Bueno, si son dos cosas distintas es que está mal traducido, no?

Hola a todos muy interesante el stemmerprocessing recien lo rebisare
pero parece muy buen aporte.

Saludos desde La Paz – Bolivia

¿Algo que decir?