Un corpus de texte est un recueil de textes, oral ou écrit, qui est la base de corpus recherche en linguistique. Le stockage de ces grandes banques de textes permet aux chercheurs d'analyser divers aspects de n'importe quelle langue. Un corpus de texte est un moyen efficace de mener des recherches parce qu'une fois que le matériel est rassemblé, il peut être utilisé pour étudier une variété de questions liées à la langue dont la morphologie, la syntaxe, le vocabulaire et la pragmatique.
Contrairement aux anciennes méthodes de faire de la recherche linguistique, un corpus de texte permet aux chercheurs d'examiner langue en fonction de la façon dont il est effectivement utilisé dans son contexte, plutôt que la façon dont il pourrait hypothétiquement être utilisé. Les linguistes ont généralement accès à des échantillons de données beaucoup plus grandes que quand ils ont dû se limiter aux données dont ils pourraient se rassembler dans un laps de temps limité avec des ressources financières limitées.
Les corpus sont généralement stockés dans un ordinateur, afin que les programmes de logiciels puissent être créés pour faciliter la recherche. Une façon courante d'utiliser un corpus de texte est de compter le nombre total de mots dans les textes, puis de compter et classer le nombre de fois que certains mots sont apparus. Le rapport qui se crée entre le nombre de mots au total et des mots spécifiques est connu comme la loi de Zipf. Ce ratio permet d'expliquer la fréquence des mots dans une langue. Comprendre la loi de Zipf permet aux programmeurs de logiciels de conception assistée par ordinateur qui répond aux exigences d'une langue donnée. Ils peuvent compter et prévoir la fréquence de certains mots et expressions seront utilisées comme entrée.
Une autre façon d'utiliser un corpus de texte est de marquer des éléments précis dans ce que le chercheur veut étudier. Un exemple de comment cela pourrait être utilisé est de compter combien de fois la voix passive apparaît dans différents genres de texte. Marquage a également été utile pour créer des programmes informatiques qui aident les personnes dans leur vie quotidienne. Tagging partie du discours a été essentiel au développement de logiciels de reconnaissance vocale. En anglais, par exemple, le même mot peut avoir plus d'une partie du discours. Les multisyllabiques mots sont souvent stressés différemment pour signaler quelle partie du discours est utilisé. Le substantif «objet» porte son effort sur la première syllabe, mais «l'objet» verbe est souligné sur la deuxième syllabe. Tagging le substantif de «l'objet» aide le programme d'ordinateur à la fois lire à haute voix correctement et reconnaître quand «objet» qui est dit par un humain.
Le corpus de texte sont utiles à la fois linguistique de l'homme et de la linguistique computationnelle. Ils permettent de recherche à mener qui aide les gens à mieux comprendre l'utilisation de la langue des humains qui à son tour contribue à développer l'utilisation des ordinateurs de la langue. Grands bonds ont été réalisés dans la technologie de reconnaissance vocale, qui permet aux consommateurs de contrôler verbalement ordinateurs dans leurs bureaux, les maisons et les véhicules. Les progrès continus permettront aux humains de communiquer avec les ordinateurs aussi naturellement comme ils le font avec l'autre.