L’extraction de connaissances est le processus de faire usage des diverses sources d'information afin de créer une banque de connaissances cohérent. Dans le cadre de cette approche, l'extraction sera souvent appel à un éventail de sources structurées et non structurées. En cas de succès, les résultats d'extraction de connaissances dans les données solides qui peuvent être facilement lus et interprétés par un programme donné, permettant à l'utilisateur final d'utiliser cette connaissance formelle à toutes fins qu'il ou elle désire.
Plusieurs sources peuvent être utilisées dans le processus d'extraction de connaissances. Dans le cadre de sources structurées, les données peuvent être extraites à partir de différents types de bases de données relationnelles ou un certain type de langage de balisage extensible ou de la source XML. Sources non structurées, telles que des images, des différentes formes de documents de traitement de texte, tableurs et même le texte capturé sur les programmes de style bloc-notes peuvent être utilisés dans le cadre du processus d'extraction. Pour autant que les sources sont lisibles au programme utilisé pour gérer le processus d'extraction de connaissances, ils peuvent être utilisés en tant que sources qui élargissent le potentiel du projet qui est avancée au moyen de l'extraction et de permettre la connaissance finale produite pour être utilisables .
Il existe plusieurs applications courantes qui se produisent avec extraction de connaissances. Un exemple fréquent est la capacité de capturer des données provenant d'une source non structurées et d'intégrer dans un certain type de source de connaissance structurée. Extraction de données trouvées dans des bases relationnelles et l'utiliser pour créer de nouveaux documents, ou de faire usage des documents électroniques pour importer des données dans les bases de données relationnelles, est un autre exemple de la façon dont ce type d'extraction permet d'accélérer le partage des connaissances formelles sans avoir besoin de saisir manuellement les données qui est déjà disponible à partir d'une autre source. Cette réutilisation des connaissances existantes dans un format nouveau est souvent très utile dans un certain nombre de scénarios, ce qui permet d'utiliser ces connaissances de manière qui n'auraient pas été possibles avec la source existante. De cette manière, l'utilisateur peut créer des sources qui sont idéales pour un certain nombre d'applications différentes, plutôt que seulement ceux pertinents pour le foyer d'origine de la connaissance formelle.
Avec l'utilisation de l'extraction des données, il est possible de faire usage d'un vaste entrepôt de données, facilement importer et exporter des données en tant que moyen de créer une nouvelle source qui est utilisable dans un but précis. Ces sources nouvellement créées, à leur tour aussi trouvent une place dans l'entrepôt de données et peut éventuellement être utilisé dans la création de nouvelles extractions qui sont utilisés pour répondre aux besoins d'utilisation les plus récents. Dans cet esprit, l'extraction de connaissance peut être considérée comme un outil très utile qui aide à tirer le meilleur parti de toutes les ressources actuellement sur la main, ce qui simplifie de nombreuses tâches impliquées dans le partage de la connaissance formelle.