Biclustering est une technique d'extraction de données d'informations qui trie dans une matrice en affectant les lignes et les colonnes de la matrice en même temps. Au cœur de cette technique est l'efficacité, permettant à l'ordinateur de passer au crible et trier une grande quantité de données dans un court laps de temps par rapport aux méthodes de classification simples. Biclustering est tout simplement une rubrique générale d'une classe particulière de techniques d'exploration de données, il existe de nombreux algorithmes différents qui peuvent entrer dans cette catégorie, y compris les blocs sources, le modèle Plaid, couplée à deux voies clustering, et interdépendants dans les deux sens clustering.
Pour comprendre l'importance de biclustering, il faut d'abord comprendre le concept général de l'exploration de données. L'exploration de données prend un gros tas de données - telles que les informations déversées à partir de base de données principale de l'entreprise - et le tri à travers elle de dégager des tendances et d'autres modèles utiles. Ce type d'analyse peut être utilisé pour déterminer les modèles qui ne seraient pas devenues évidentes à travers l'étude occasionnels, tels que les tendances d'achat des consommateurs et les fluctuations des marchés boursiers. L'exploration de données peut être effectuée manuellement par un analyste humain ou électronique en utilisant un type d'algorithme de data mining, c'est là où biclustering entre en scène.
Pendant le processus d'extraction de données, l'ordinateur procède à l'analyse tentera de trier informations associées avec l'autre. Ce processus est connu comme le "regroupement". Clustering permet à l'ordinateur de fléchir son intelligence artificielle en reconnaissant lorsque deux ou plusieurs éléments d'information sont liés les uns aux autres, de les placer ensemble dans une matrice. Normalement, les lignes ou les colonnes de la matrice sont remplis, mais un seul à la fois.
Biclustering supprime cette limitation en en permettant à l'ordinateur pour remplir à la fois les lignes et les colonnes en même temps. Cela améliore l'efficacité du processus de regroupement, mais peut entraîner des matrices différemment disposés en fonction de l'algorithme particulier utilisé. Par exemple, un ordinateur disposant choses avec les valeurs correspondantes constants en rangées contre un arranger des choses avec des valeurs d'appariement constants placés dans des colonnes va générer différentes matrices recherche en utilisant exactement les mêmes valeurs. Il n'existe pas de «bonne» façon de regrouper les données, tout dépend de la situation particulière et les préférences de la personne effectuant la fouille de données.