La statistique exploration de données, aussi connu comme la connaissance ou la découverte des données, est une méthode informatisée de collecte et d'analyse des informations. L'outil d'exploration de données prend les données et catégorise les informations de découvrir des modèles ou des corrélations qui peuvent être utilisés dans des applications importantes, comme la médecine, la programmation informatique, la promotion des entreprises et de la conception robotique. Statistiques techniques de data mining utiliser les mathématiques complexes et compliquées procédés statistiques pour créer une analyse.
L'exploration de données comprend cinq étapes principales. L'application première mine de données collecte des données statistiques et des lieux de l'information dans un programme d'entrepôt de type. Ensuite, les données de l'entrepôt est organisé et crée un système de gestion. L'étape suivante crée un moyen d'accéder aux données gérées. Ensuite, la quatrième étape développe des logiciels pour analyser les données, aussi connu comme la régression exploration de données, tandis que la dernière étape facilite l'utilisation ou de l'interprétation des données statistiques d'une manière pratique.
En général, les techniques de data mining analytique et d'intégrer les données de transaction systèmes. Sortes de logiciels d'analyse à travers deux types de systèmes de données en utilisant des questions ouvertes utilisateur. Les questions ouvertes permettent des réponses innombrables sorte que les programmeurs ne sont pas influencer les résultats du tri. Les programmeurs de créer des listes de questions pour aider à catégoriser l'information en utilisant un tri est ensuite basée sur les classes en développement et les clusters de données, des associations trouvées dans les données, et tente de définir les caractéristiques et tendances sur la base des associations. Par exemple, Google recueille des renseignements sur les habitudes d'achat des utilisateurs pour aider à placer la publicité en ligne. Les questions ouvertes utilisées pour trier cette orientation acheteur données sur les préférences d'achat ou les habitudes d'écoute des utilisateurs d'Internet.
Les informaticiens et programmeurs se concentrer sur l'analyse des données statistiques qui sont collectées. Création d'arbres de décision, réseaux de neurones artificiels, la méthode du plus proche voisin, l'induction de règle, la visualisation de données et les algorithmes génétiques utilisent tous les données statistiquement minées. Ces systèmes de classification aident à interpréter les associations découverts par les programmes d'analyse de données. Statistiques de data mining consiste petits projets qui peuvent être faites sur une petite échelle sur un ordinateur à la maison, mais la plupart des data mining ensembles d'associations sont si grands et la régression de data mining si compliqué dont ils ont besoin d'un supercalculateur ou d'un réseau d'ordinateurs à haute vitesse.
La statistique exploration de données recueille trois types généraux de données, y compris les données opérationnelles et non opérationnelles, de données et des métadonnées. Dans un magasin de vêtements, les données opérationnelles sont les données de base utilisées pour gérer l'entreprise, tels que la comptabilité, les ventes et le contrôle des stocks. Données non opérationnelles, qui est indirectement liées à l'entreprise, comprend des estimations de ventes futures et informations générales sur le marché du vêtement national. Métadonnées concerne les données elles-mêmes. Un programme utilisant des métadonnées peuvent trier les clients en magasin afin de classifications fondées sur le sexe ou la situation géographique des acheteurs de vêtements ou de la couleur préférée des clients, si ces données ont été collectées.
Une application d'exploration de données peut être extrêmement sophistiquée et l'outil d'extraction de données statistiques peut avoir des applications pratiques largement répandues. L'étude des épidémies est un exemple. Un projet de 2000 de data mining analysé le foyer de maladie de cryptospridium dans l'Ontario, au Canada afin de déterminer les causes de l'augmentation des cas de maladies. Les résultats de l'exploration de données a aidé à relier l'apparition des bactéries aux conditions locales de l'eau et de l'absence de traitement adéquat de l'eau municipale. Un champ appelé «biosurveillance» utilise épidémiologique exploration de données pour identifier les foyers d'une seule maladie.
Les programmeurs et les concepteurs utilisent également l'étude des probabilités et analyse statistique des données pour développer des machines et des programmes informatiques. Le moteur de recherche Google Internet a été conçu à l'aide des statistiques de data mining. Google continue de recueillir et d'utiliser l'exploration de données pour créer des mises à jour de programmes et d'applications.