Parfois connu sous le nom de recherche d'information, l'extraction d'information (IE) est un processus qui est utilisé avec les systèmes informatiques afin de permettre données pertinentes à extraire de grandes étendues de données, en utilisant un certain ensemble de critères prédéfinis. L'idée derrière l'extraction d'information est de permettre d'identifier facilement et d'assimiler des données qui sont pertinentes à une activité particulière, sans avoir besoin de passer par la main de grandes quantités d'informations pour trouver les données exactes nécessaires. Le processus est similaire aux idées de l'exploitation minière concept ou grattage Web, en ce que toutes ces approches visent à recueillir des informations utiles à partir d'un vivier plus important de données disponibles.
L'approche générale pour l'extraction d'information appelle à l'aide de programmation qui est capable de numériser les sources d'information qui sont considérés comme lisibles par machine. Il peut s'agir de documents papier qui ont été numérisés dans une sorte de fichiers électroniques, les documents préparés sous forme de tableurs ou des documents de traitement de texte, ou même les données qui sont contenues dans des domaines lisibles dans une base de données. En règle générale, les paramètres sont réglés qui font qu'il est possible pour un programme de logiciel pour avoir accès à ces sources de données et de numériser rapidement à travers eux à l'aide des critères précis pour établir les priorités et sortir certains types d'informations à partir de la réserve disponible. Ce processus est généralement différent d'un processus de recherche simple, en ce que la méthode appelle à ne correspondant pas à des mots ou des expressions spécifiques en soi, mais utilise à la place un processus appelé traitement du langage naturel, ce qui facilite non seulement pour évaluer les termes exacts, mais aussi le contexte et le sens impliqué par ce contexte.
Les complexités liées à l'extraction d'informations rendent l'utilisation de cette approche quelque peu difficile à gérer à l'échelle mondiale, mais il existe des outils d'IE qui fonctionnent très bien qu'avec un nombre limité de données, tels que les sources de données associées aux fichiers électroniques logés sur le serveur d'une société, ou même un groupe de sources impliquant un nombre limité de fils de nouvelles. Avec cette approche, il est possible d'identifier un certain type d'événement, peut-être même de limiter les rendements à l'inclusion d'un certain nombre de participants à l'événement, et d'avoir les données classées selon la date.
Comme pour de nombreuses formes de technologie, les outils utilisés pour se livrer à l'extraction d'information sont continuellement affinées. Depuis le début du 21e siècle, la possibilité de définir les paramètres et faire usage de sans cesse croissantes des organes de données électroniques dans le cadre de la recherche d'informations pertinentes a augmenté de façon significative. Cela inclut la possibilité de traiter de grands volumes de données non structurées et d'utiliser ces paramètres pour mettre de l'ordre ou de la structure de ces données, ce qui rend d'autant plus utiles pour les recherches futures.