Le regroupement de corrélation est effectuée sur les bases de données et d'autres sources de données pour les ensembles de données regroupé similaires, tout en alertant l'utilisateur de bases de données hétérogènes. Ceci peut être fait à la perfection dans certains graphiques, tandis que d'autres connaîtront des erreurs, car il sera difficile de faire la différence similaire à partir de données hétérogènes. Dans le cas de ce dernier, le groupement de corrélation permettra de réduire les erreurs automatiquement. Ceci est souvent utilisé pour l'extraction de données, ou pour rechercher des données difficiles à manier pour les similitudes. Données dissemblables sont souvent supprimés ou placés dans un groupe séparé.
Quand une fonction de regroupement de corrélation est utilisée, il recherche les données basées sur les instructions de l'utilisateur. L'utilisateur d'indiquer au programme ce qu'il doit chercher et, quand il se trouve, où placer les données. Ceci est normalement appliqué à des sources de données très volumineuses quand il serait impossible - ou de prendre trop d'heures - de rechercher dans les données manuellement. Il peut être soit parfaite regroupement ou regroupement imparfaite.
Le regroupement parfait est le scénario idéal. Cela signifie qu'il y a seulement deux types de données, et l'on est ce que l'utilisateur est à la recherche tandis que l'autre est inutile. Tout le positif, ou nécessaire, les données sont placées dans une grappe, tandis que les autres données sont supprimées ou déplacés. Dans ce scénario, il n'y a pas de confusion et tout fonctionne parfaitement.
Les graphiques les plus complexes ne permettent pas le regroupement parfait, et sont, au contraire, imparfait. Par exemple, un diagramme des trois variables X, Y et Z. X, Y est similaire, X, Z est similaire, mais Y, Z est différent. Les trois groupes de variables sont tellement semblables, cependant, qu'il est impossible d'avoir le regroupement corrélation parfaite. Le programme travaillera à maximiser le nombre de corrélations positives, mais cela nécessitera encore quelques recherches manuelles de l'utilisateur.
Dans l'exploration de données, surtout lorsqu'il s'agit de grands ensembles de données, le regroupement de corrélation est utilisé pour regrouper les données similaires avec des données similaires. Par exemple, si une entreprise extrait les données pour un grand site Web ou base de données et ne veut connaître un aspect particulier, il faudrait une éternité pour parcourir toutes les données relatives à cet aspect. En utilisant une formule de regroupement, les données seront mis de côté pour une analyse correcte.
Les informations dissemblables sont traitées uniquement fondée sur les instructions d'utilisation. L'utilisateur peut choisir d'envoyer des données différentes à différents groupes, parce que l'information peut être utile pour d'autres projets. Si les données sont inutiles et sont en train de perdre la mémoire, l'information différente est jeté dehors. En classification imparfaite, il est possible que certaines informations dissemblables ne sera pas jeté dehors, car il est tellement semblable aux données pour lesquelles l'utilisateur est à la recherche.