Corpus lingüístico

Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas).

Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante.

Esta subdisciplina, dado el volumen de datos que se maneja, normalmente se asocia con la lingüística computacional, según esta última se acerca a las aplicaciones de Procesamiento de lenguaje natural.

Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el clásico Computational Analysis of Present-Day American English, basándose en el corpus Brown, una compilación de inglés americano de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Fuente: Wikipedia