El clustering es una de las principales técnicas de modelado de la minería de datos la cual consiste en dividir la información en grupos diferentes, internamente los miembros de cada grupo son muy similares unos de otros y disimiles respecto a los miembros de los otros grupos. Los grupos o clusters pueden ser usados para clasificar nuevos datos.
En Rekha y Sabu (2010) se define tres modelos de arquitectura de minería de datos distribuida; el primero consiste en que cada nodo distribuido dispone de un componente de minería encargado de minar los datos en la base de datos local, obteniéndose de esta forma, un modelo de minería de datos parcial en cada uno de los nodos; posteriormente, estos modelos parciales se combinan para obtener el modelo de minería de datos global.
Los otros dos modelos son similares pues ambas consideran implementar un modelo global de minería de datos en la parte superior del sistema distribuido que actúe sobre una vista integrada de las distintas bases de datos locales. La diferencia entre estos dos modelos radica en la forma en que se genera la vista integrada sobre la que actuaría la capa de minería de datos. La primera realiza consultas en cada base de datos distribuida de manera independiente, generando un modelo de datos integrado sobre el que operan los algoritmos de minería de datos; mientras que la segunda integra todas las bases de datos distribuidas y las consultas se realizan sobre esta vista integrada de datos.

Figura 1: ejemplo de Clustering.
Objetivo de la aplicación: El objetivo de la aplicación a menudo afecta la elección de un algoritmo de clustering. Por ejemplo, si se desea encontrar la ubicación óptima de las sucursales de una cadena de supermercados, el objetivo será encontrar la mínima distancia entre la ubicación de los clientes y cada sucursal. Para el reconocimiento de imágenes, es deseable hallar los clusters que deben tener cierta uniformidad de color, densidad, etc.