-Anatomie et physiologie • Animaux et l'environnement • culture generale • economie • flore et ses bienfaits • Internet et Informatique • L'alimentation et la nutrition • La Biologie • Le mésothéliome • Les épices • Les fruits et légumes • Les vitamines • Maladies & Affections • Médecine et traitements • Médicaments • monde technologique • remèdes naturels • Santé et Bien-être • sciences et génie -orange

mercredi 3 avril 2013

Qu'est-ce que le clustering de corrélation?

Le regroupement de corrélation est effectuée sur les bases de données et d'autres sources de données pour les ensembles de données regroupees similaires, tout en alertant l'utilisateur de bases de données hétérogènes. Ceci peut être fait à la perfection dans certains graphiques, tandis que d'autres connaîtront des erreurs, car il sera difficile de faire la différence similaire à partir de données hétérogènes. Dans le cas de ce dernier, le groupement de corrélation permettra de réduire les erreurs automatiquement. Ceci est souvent utilisé pour l'extraction de données, ou pour rechercher des données difficiles à manier pour les similitudes. Données dissemblables sont souvent supprimés ou placés dans un groupe séparé.

Quand une fonction de clustering de corrélation est utilisée, il recherche les données basées sur les instructions de l'utilisateur. L'utilisateur d'indiquer au programme ce qu'il doit chercher et, quand il se trouve, où placer les données. Ceci est normalement appliqué à des sources de données très volumineuses quand il serait impossible - ou de prendre trop d'heures - de rechercher dans les données manuellement. Il peut être soit parfaite regroupement ou clustering imparfaite.
Regroupement parfait est le scénario idéal. Cela signifie qu'il ya seulement deux types de données, et l'on est ce que l'utilisateur est à la recherche tandis que l'autre est inutile. Tout le positif, ou nécessaire, les données sont placées dans une grappe, tandis que les autres données sont supprimées ou déplacés. Dans ce scénario, il n'ya pas de confusion et tout fonctionne parfaitement.

Graphiques les plus complexes ne permettent pas le regroupement parfait, et sont, au contraire, imparfait. Par exemple, un diagramme des trois variables X, Y et Z. X, Y est similaire, X, Z est similaire, mais Y, Z est différent. Les trois groupes de variables sont tellement semblables, cependant, qu'il est impossible d'avoir le regroupement corrélation parfaite. Le programme travaillera à maximiser le nombre de corrélations positives, mais cela nécessitera encore quelques recherches manuelles de l'utilisateur.

Dans l'exploration de données, surtout lorsqu'il s'agit de grands ensembles de données, le regroupement de corrélation est utilisé pour regrouper les données similaires avec des données similaires. Par exemple, si une entreprise extrait les données pour un grand site Web ou base de données et ne veut connaître un aspect particulier, il faudrait une éternité pour parcourir toutes les données relatives à cet aspect. En utilisant une formule de clustering, les données seront mises de côté pour une analyse correcte.

Les informations dissemblables sont traitées uniquement fondée sur les instructions d'utilisation. L'utilisateur peut choisir d'envoyer des données différentes à différents groupes, parce que l'information peut être utile pour d'autres projets. Si les données sont inutiles et sont en train de perdre la mémoire, l'information différente est jetée dehors. En classification imparfaite, il est possible que certaines informations dissemblables ne sera pas jeté dehors, car il est tellement semblable aux données pour lesquelles l'utilisateur est à la recherche.