ENVÍOS, XIX Reunión Nacional y VIII Encuentro Internacional de la AACC

Tamaño de fuente: 
Diccionario de frecuencia léxica infantil para el español rioplatense: el Cuenta palabras
Julieta Fumagalli, María Elina Sanchez, Bruno Bianchi, Cesar Cócaro, Martín Melman, Matías Cancino, María Paz Oliva

Última modificación: 2023-07-03

Resumen


Introducción: Para diseñar distintas tareas destinadas al estudio de la comprensión y producción del lenguaje es necesario controlar variables lingüísticas (longitud, complejidad silábica u ortosilábica) y psicolingüísticas (vecindad ortográfica y fonológica, familiaridad, edad de adquisición, concretud, imaginabilidad y frecuencia léxica). La frecuencia léxica permite explicar por qué algunas palabras se procesan más rápido que otras. Sin embargo, a pesar de su relevancia teórica y experimental, no contamos con diccionarios de frecuencia léxica para el español rioplatense.

Objetivo: Mostrar datos actualizados utilizados para la elaboración de un diccionario de frecuencia léxica infantil para el español en su variedad rioplatense.

Materiales: El corpus fue elaborado a partir de 57 textos escolares (34 en formato digital y 23 en formato físico) de 1º a 7º grado de nivel primario del cual se extrajeron 2.718.079 palabras totales y 107.774 palabras únicas.

Análisis de datos: Para la elaboración del corpus los textos en formato físico fueron digitalizados mediante escáner óptico y procesados con sistemas de Reconocimiento Óptico de Caracteres (OCR). Luego, los datos fueron cargados y normalizados para calcular la frecuencia total y la frecuencia de cada ítem según nivel escolar. El procesamiento se realizó mediante algoritmos implementados en el lenguaje Python3, con las librerías de Procesamiento de Lenguaje Natural NLTK y SpaCy. Para calcular las frecuencias se segmentaron las palabras a partir de los espacios, se eliminaron todos los signos de puntuación y se contabilizó la aparición de cada ítem (mediante la función FreqDist de la librería NLTK).

Resultados: Las palabras funcionales son las más frecuentes (“de” = 131.000 apariciones totales). El verbo más frecuente es “es” con 17.311 apariciones totales y entre los sustantivos “palabras” con 4162 y “ejemplo” con 4073. El conector más frecuente es “y” con 74387. Además, hay 30.000 ítems con una sola aparición (“gladiolo”, “glosas”).


Palabras clave


psicolingüística; frecuencia léxica; diccionario infantil; español

Se necesita una cuenta en este sitio para poder ver los documentos. Haga clic aquí para crear una cuenta.