Manejo de conjuntos de datos masivos

Francis López
18 jun 2021
17 min de lectura

La minería de datos implica la extracción de información de conjuntos de datos históricos. Los paradigmas estadísticos básicos han restringido un poco su uso por parte de profesionales de la calidad a tipos de estudios de referencia. Pero, con el aumento en la tasa con la que se generan conjuntos de datos masivos, los tipos que involucran transacciones de clientes o mediciones de productos, existe una gran cantidad de conocimiento escondido en los almacenes de datos que a menudo se relaciona directamente con las tareas en cuestión en Black Belt (BB). proyectos.

Extraer ese conocimiento implica herramientas y técnicas especialmente diseñadas que son la esencia de la minería de datos. Al vincular la comunidad Six Sigma con la función de TI de una empresa, que captura estos grandes conjuntos de datos, y con una línea de negocios que los utiliza, todas las partes pueden obtener los beneficios. Esto se ilustrará con el estudio de caso de optimización de red que sigue.

Perspectiva histórica

La extracción de datos de grandes bases de datos de observación puede requerir herramientas estadísticas claves como regresión lineal y logística, análisis de conglomerados, análisis discriminante, árboles de decisión y redes neuronales.

Las siete herramientas de calidad esenciales (hojas de verificación, diagramas de Pareto, diagramas de Ishikawa, diagramas de flujo, histogramas, diagramas de dispersión y diagramas de control) no parecen superponerse directamente con las principales herramientas estadísticas de minería de datos. Sin embargo, tras un examen más detenido, tres de las herramientas de calidad estadística (histograma, diagrama de dispersión y gráficos de Pareto) son bastante útiles, al menos en la fase de preparación de datos de la minería de datos o en la presentación de los resultados.

El cuerpo de conocimiento de ASQ BB (BoK) revela otras superposiciones con los métodos de minería de datos. El ítem IV.A.2, retroalimentación de los clientes, está relacionado, pero el entendimiento en el BoK es que las encuestas o entrevistas futuras deben ser la base de la voz del cliente en lugar de los datos de las encuestas o del centro de llamadas depositados en una base de datos histórica.

El ítem V.B.1, tipos de datos, recomienda la conversión de datos de atributos a variables continuas cuando sea posible, lo que puede ser contraproducente en aplicaciones de minería de datos donde la discretización de variables continuas puede ser una técnica muy útil en minería de datos.

El ítem V.D.4, métodos gráficos, juega un papel importante tanto en la calidad como en la minería de datos, aunque la relación que se traza puede diferir (por ejemplo, gráficos de elevación o curvas características de funcionamiento del receptor en la minería de datos). Ambas áreas hacen un uso intensivo de la regresión (VI.A.2).

ES POSIBLE QUE LOS BLACK BELTS SE DAN CUENTA DE QUE YA SE MIDE Y ALMACENAN UN GRAN NÚMERO DE VARIABLES PERTINENTES, EVITANDO ASÍ LA NECESIDAD DE IR Y RECOPILAR NUEVOS DATOS.

Certifícate en Lean & Six Sigma

100% Español - incluye 100% términos en Inglés

VER PLANES/PRECIOS

Sin embargo, un artículo que incluye herramientas de calidad y minería de datos no debe limitarse a contenido estadístico y matices sutiles. Más bien, la discusión debe agregar las características más amplias y los dominios de problemas de la calidad y la minería de datos, identificando problemas y enfoques comunes con la intención de atraer a más profesionales de Six Sigma al campo de la minería de datos.

Debido a que la minería de datos ofrece amplias oportunidades para lograr mejoras en la calidad de los productos y servicios, reducción del tiempo de ciclo y ahorros en el costo de la calidad, puede parecer desconcertante que la minería de datos haya recibido escasa atención por parte de la comunidad Six Sigma BB. Una posible explicación es que en el contexto de algunos entrenamientos de BB, los datos históricos se ven con escepticismo porque se describen como posiblemente no confiables o no representativos de los resultados del proceso en condiciones más controladas.

Por ejemplo, el conjunto insignia de herramientas en el diseño de experimentos (DoE) generalmente se promociona como superior para establecer relaciones de causa-efecto a lo que se puede lograr en el análisis de datos fortuitos. Del mismo modo, los estudios de repetibilidad y reproducibilidad del sistema de medición (GR&R) generalmente requieren condiciones que es poco probable que ocurran en la recopilación de datos históricos debido al ajuste continuo de los procesos.

Tanto DoE como GR&R requieren nueva recopilación de datos, lo que a su vez requiere tiempo, recursos y fondos. Por otro lado, los datos históricos pueden estar disponibles de inmediato y analizarse eficazmente después de que se establezcan primero la validez y cobertura de los datos, por ejemplo, mediante el análisis de sistemas de medición.

Desde un punto de vista teórico, la generación de hipótesis estadísticas impulsada por datos también se ve con sospecha si se sigue con pruebas formales inspiradas y basadas en el mismo conjunto de datos. En una nota más positiva, los datos históricos se han utilizado en la determinación del tamaño de la muestra y en los cálculos preliminares del poder.

La consideración de los métodos de minería de datos debe primero superar las barreras antes mencionadas enfatizando la consideración de conjuntos de datos históricos y observacionales masivos. Al dividir un conjunto de datos masivo en subconjuntos de entrenamiento (para desarrollo de modelos), validación (para evaluación de modelos) y pruebas (para confirmación), los métodos de minería de datos pueden evitar algunas de las dificultades inherentes.

Minería de datos, en general, y analítica predictiva, en particular, son armas viables adicionales para el arsenal de un practicante de Six Sigma. Con una tasa de recopilación de datos que aumenta exponencialmente en todos los aspectos de la gestión de un negocio, hay frutos al alcance de la mano dentro del registro histórico que se han pasado por alto anteriormente debido a la gran magnitud de los datos disponibles y la práctica común de definir una pequeña escala. Proyecto Six Sigma adaptable a las herramientas clásicas.

El campo de la minería de datos ofrece áreas de aplicación prometedoras en el ámbito de la excelencia en el rendimiento o la calidad. Al igual que con todas las herramientas Six Sigma, las técnicas de minería de datos deben aplicarse correctamente y en las circunstancias en las que sean apropiadas. Si bien existen desafíos para abrir el camino hacia la nueva frontera de la minería de datos por parte de los profesionales de Six Sigma, los beneficios financieros son irresistibles, especialmente con la mejora continua del software de soporte.

Para preparar el escenario para una discusión general de los métodos de minería de datos, se describirá una aplicación específica que involucra la optimización de la red de telefonía celular. Esta aplicación tiene las características genéricas de conjuntos de datos masivos, dificultades para ensamblar la base de datos que se va a extraer y la progresión desde el descubrimiento de lo obvio hasta la detección de lo sublime, junto con sorpresas potencialmente rentables en el camino.

Aplicación de optimización de red

Un proyecto de optimización del rendimiento de una red inalámbrica ilustra el papel que puede desempeñar la minería de datos para mejorar el rendimiento de una organización. El problema específico qué motivó este proyecto implicó la expansión de una tecnología inalámbrica madura existente desplegada en un conjunto de frecuencias para incorporar otro conjunto de frecuencias recién adquiridas.

Sin embargo, al expandirse, la nueva red generó problemas de calidad evidenciados por un aumento en la tasa de llamadas interrumpidas del 23% sobre el rendimiento de la red madura. Las llamadas interrumpidas son un irritante considerable para los clientes y un factor importante para la deserción (cambiar a un proveedor diferente).

¿Cuáles fueron las causas fundamentales del aumento de llamadas interrumpidas y cómo podría ajustarse la red para solucionar el problema de las llamadas interrumpidas? Esta discusión sobre el alcance del problema se refiere a la etapa de definición del proyecto en el método Six Sigma definir, medir, analizar, mejorar y controlar (DMAIC).

La gestión de una red de telefonía móvil es una operación compleja que se basa en cantidades masivas de datos recopilados en tiempo real. La figura 1 es un esquema de la estructura de datos en una red celular típica. En particular, cada llamada realizada en una red genera cientos de datos correspondientes a la conexión a establecer, la llamada a mantener en el tiempo, la facturación de la llamada y la activación de varias alarmas y registros de llamadas. Estos datos se recopilan en varias bases de datos vinculadas a las distintas piezas de hardware que se utilizan para realizar una llamada.

Otra información relevante para el rendimiento de la red en sí o su configuración en un momento dado también se recopila a intervalos regulares y desempeña un papel en la solución del problema de la llamada interrumpida. Los esfuerzos involucrados en identificar, comprender, adquirir y ensamblar las bases de datos pueden verse como el componente de medida de DMAIC.

Antes de realizar cualquier análisis de minería de datos, las diversas fuentes de datos debían combinarse en una sola base de datos. La Figura 1 muestra que se aprovecharon 11 bases de datos que capturan la salud y el bienestar de la red relevantes para el problema en cuestión, y la Tabla 1 indica un total de 1,004 variables disponibles para el análisis.

Se lanzó un esfuerzo de minería de datos para buscar controladores clave en el rendimiento de la red para sugerir posibles soluciones. Se contrató a KXEN, un proveedor de motores de minería de datos cuyo software se adaptaba a esta situación crítica, para proporcionar las técnicas de minería de datos adecuadas para este problema de gran envergadura.

Con una cantidad tan grande de variables, la capacidad de KXEN para automatizar la preparación de datos se volvió valiosa. Usando las técnicas de minería de datos implementadas en KXEN, en cinco semanas, el equipo de minería de datos descubrió relaciones que antes requerían más de dos años de escrutinio intensivo y experto para identificar. Además, KXEN ha adoptado DMAIC como su propia metodología de gestión de proyectos genérica recomendada, por lo que la realización de este proyecto bajo la égida de un equipo Six Sigma ofreció una buena sinergia. La Figura 2 muestra la formulación KXEN de DMAIC seguida en este proyecto.

Definir: Se señaló anteriormente que el aumento en la tasa de llamadas interrumpidas del 23% en la nueva red era inaceptable (D1 en la Figura 2). El mandato era evidente: identificar los impulsores clave de las llamadas interrumpidas de la nueva red. La materia prima para este esfuerzo fue la consolidación de las 11 bases de datos.

Medir: Para aprovechar todos los datos relevantes recopilados en las 11 bases de datos —algunos basados en llamadas generadas, otros en alarmas que ocurren en la red, y otros usando una marca de tiempo como base para la entrada de datos— era necesario crear un conjunto de datos analíticos único (ADS) con una entidad común utilizada como referencia básica para recopilar, integrar o calcular todas las variables asociadas con esa entidad en todas las bases de datos.

Se utilizó una entidad de marca de tiempo de 30 minutos para crear el conjunto de datos analíticos para este problema, produciendo 48 observaciones por día por portador. La suma de 36 millones de registros estándar de interoperabilidad y 4,8 millones de registros del centro de operaciones y mantenimiento llevó al tamaño final de ADS de aproximadamente 500,000 filas y 1,000 columnas que se utilizó como el conjunto de datos de entrada para el paso de análisis de minería de datos.

Analizar: Se obtuvo un modelo robusto de tipo regresión basado en la minimización del riesgo estructural utilizando el software KXEN. El modelo final indicó rápidamente las variables más importantes como la calidad del enlace ascendente, fallas de configuración y alto volumen en la nueva red.

El esfuerzo del estudio de caso de optimización de la red estuvo inicialmente dominado por la consulta de varias bases de datos para construir el conjunto de datos analíticos (M4). En el lenguaje de la minería de datos, esta parte del esfuerzo se considera preparación de datos. El modelado analítico (A1-A4) procedió rápidamente porque el software podía acomodar una gran cantidad de variables con preparación automática de variables.

Mejorar: se realizaron ajustes en el sistema para abordar la calidad del enlace ascendente y las fallas de configuración, mientras que el alto volumen se solucionó mediante una mayor expansión de la nueva red.

Control: cuando originalmente consideraron el proyecto, los ingenieros de control ya habían pasado varios meses estudiando y ajustando el sistema para identificar los controladores potenciales en la red. Dentro de los 30 días posteriores al inicio del proyecto, y sin conocimiento de los resultados identificados por el equipo de ingeniería, el equipo de minería de datos encontró esencialmente los mismos resultados, confirmando que la minería de datos es una herramienta de ciclo rápido para diagnosticar redes celulares. La base de datos utilizada para construir la base de datos maestra (M4), se estableció (C3) para mantener el conjunto de herramientas para investigaciones y proyectos posteriores.

El ejemplo de optimización de la red ilustra dos características clave de la minería de datos: Primero, la oportunidad que presentan las bases de datos existentes, a menudo al combinar diferentes bases de datos, conduce a cantidades extremadamente grandes de datos que no se prestan fácilmente a los análisis estadísticos tradicionales sin algunos ajustes significativos.

La segunda característica se relaciona con el hecho de que la minería de datos no es el propósito principal para la creación y mantenimiento de las bases de datos. En general, es un proceso secundario que se lleva a cabo además de una finalidad operativa, como la facturación o las pruebas. Esto, a su vez, crea algunos desafíos en la extracción, agregación, información faltante y, en general, preparación del conjunto de datos final (ADS) que se utilizará en el paso de análisis.

Oportunidades de minería de datos

Las actividades de minería de datos se pueden clasificar en cinco tipos de tareas que es probable que un analista enfrente en diferentes proyectos:

1. Análisis de datos exploratorios.

2. Modelado descriptivo

3. Modelado predictivo.

4. Patrones / reglas.

5. Recuperación por contenido.

A su vez, estas tareas se realizan mejor mediante técnicas y algoritmos específicos. En diferentes grados, cada una de las cinco categorías puede contribuir a abordar diferentes tipos de problemas encontrados por la comunidad Six Sigma.

1. Análisis exploratorio de datos: esta categoría se refiere principalmente a técnicas de visualización gráfica e interactiva de los datos diseñadas para sacar a la luz sus relaciones o patrones desconocidos. Debido a que los BB a menudo buscan oportunidades de mejora, ganancias rápidas o la raíz de los problemas, estas técnicas son definitivamente parte de su bolsa de herramientas.

Pero las pantallas gráficas se vuelven desafiantes y requieren mucho tiempo a medida que aumenta la dimensión del conjunto de datos. En esa situación, las técnicas de reducción multivariante pueden ser útiles para permitir información visual, aprovechando los grupos, particiones o proyecciones de los datos en un espacio dimensional inferior.

2. Modelado descriptivo: en el contexto de la minería de datos, el modelado descriptivo incluye estimación de densidad, análisis y segmentación de conglomerados y modelado de dependencia (modelado de relaciones de variables). El enfoque en esta categoría está en las técnicas que proporcionan un modelo útil que resume adecuadamente los datos almacenados en bases de datos históricas, donde útil se refiere a la capacidad del modelo para ser interpretable y procesable.

Con el modelado descriptivo, los BB están acostumbrados a extraer modelos de los datos recopilados en condiciones controladas por el analista, como DoE. La estimación de la densidad, en el contexto de las pruebas de normalidad en particular, es una necesidad que a menudo encuentran los BB. Los BB suelen practicar el modelado de dependencias, como la ejecución de varios tipos de análisis de regresión.

Sin embargo, con las organizaciones aumentando su recopilación automática de datos, es probable que los BB se den cuenta de que una gran cantidad de variables potencialmente relevantes para la identificación de una solución ya se miden en algún lugar, con datos disponibles almacenados en almacenes, evitando así la necesidad de ir y recopilar nuevos datos. Una vez que se realiza esa realización y el analista decide utilizar los datos históricos para obtener una idea del problema en cuestión, ingresa al dominio de la minería de datos. Allí, se han desarrollado la agregación y manipulación de registros, la reducción de variables y técnicas analíticas robustas especiales para manejar modelos descriptivos en un contexto muy amplio.

Los BB probablemente encontrarán algunos ajustes básicos con modelos descriptivos dentro del campo de la minería de datos. Una de las primeras duras realidades es la existencia de datos faltantes. Al combinar algunas fuentes de datos, ciertas variables no se incluyen o los valores simplemente no están disponibles por razones relacionadas con la variable de respuesta de interés. Es probable que depender solo de los registros completos sea temerario.

La imputación que asume que los datos faltan al azar, una suposición común de los estadísticos, también es potencialmente catastrófica. Los patrones de los datos faltantes (combinaciones de variables con datos de componentes faltantes) pueden ser reveladores y pueden llegar a ser un excelente predictor en un modelo. Los métodos para manejar los datos faltantes, incluida la imputación, se incluyen en la preparación de datos, un esfuerzo que no debe subestimarse.

Para los datos de respuesta binaria, que se utilizan a menudo en problemas de clasificación, los modelos de regresión logística pueden ser apropiados. Aquí nuevamente, los datos faltantes pueden ser un problema, y es necesario un trabajo preliminar para prepararse para el modelo analítico, principalmente imputando los valores faltantes.

Un gran número de variables también puede crear un problema y puede requerir cierta personalización del paquete de regresión logística que se usa normalmente con un conjunto de datos de dimensiones más pequeñas. Por supuesto, el poder inferencial familiar de las estadísticas clásicas está disponible para los modelos de regresión logística, que se utilizan comúnmente en la comunidad médica, con la supervivencia como respuesta, por ejemplo.

Otro enfoque para el modelado descriptivo que se aparta de los métodos de regresión cargados de supuestos que acabamos de mencionar es el uso de árboles de decisión. Allí, las variables de respuesta pueden ser continuas o discretas, y los datos faltantes no plantean ningún problema en la etapa de preparación de datos. Sigues adelante con "faltante" como un nivel de variable explicativa adicional.

Los árboles de decisión en este contexto se propusieron y se denominaron CART para los árboles de clasificación y regresión con fines de modelización. Cualquier inestabilidad de los árboles de decisión se puede superar con técnicas recientes, como refuerzo y bosques aleatorios.

Por lo tanto, la afirmación aquí es que el modelado descriptivo es una categoría de tareas que es uno de los pilares de los profesionales de Six Sigma. Parece solo una cuestión de tiempo hasta que los BB usen regularmente técnicas de minería de datos diseñadas para manejar una gran cantidad de datos.

Para ilustrar ese punto, los paquetes estadísticos que ya utilizan comúnmente los profesionales de Six Sigma, como SAS JMP o Minitab, incluyen técnicas de árbol de decisiones y otras técnicas centradas en la minería de datos en sus versiones posteriores.

3. Modelado predictivo: el enfoque en esta categoría no está en el modelo como fue el caso en el modelado descriptivo, sino en las predicciones en sí mismas. Por ejemplo, puede ser de gran interés para una empresa de telecomunicaciones saber quién de sus clientes es probable que abandone en los próximos meses para poder llegar a ese cliente e intentar cambiar su probabilidad de abandono. El analista aquí no busca soluciones permanentes a las causas fundamentales que empujan a ese cliente a abandonar, sino acciones rápidas dirigidas a ese cliente específico.

El enfoque en las predicciones conduce a una mentalidad diferente en el proceso de modelado. Ese énfasis no es tan común en el mundo Six Sigma como el impulso para identificar y solucionar la causa raíz de un problema. En otras palabras, el énfasis en obtener un modelo que sea significativo y conduzca a acciones correctivas domina el mundo de la experiencia de Six Sigma.

Los tipos de acciones que se persiguen en la categoría de modelos predictivos son diferentes de los tipos de acciones que se buscan en el proceso de comprensión de la causa raíz. Ese énfasis diferente conduce a modelos que son más del tipo de caja negra, como las redes neuronales. Estos tipos de modelos tienden a ser más complejos y desafiantes computacionalmente, en parte porque un modelo más complejo tiende a ajustarse mejor a los datos y porque la interpretación del modelo no es particularmente relevante para el objetivo en cuestión.

Se debe tener cuidado con el sobreajuste, que a su vez ha llevado a varias técnicas, como la minimización de riesgos estructurados o la minimización de los criterios de información de Thomas Bayes o Hirotsugu Akaike. Una introducción legible al modelado de redes neuronales que incluye un JMP de SAS La ilustración del software se puede encontrar en Modelos estadísticos lineales aplicados.

El modelado descriptivo y predictivo en realidad puede ir de la mano, porque ofrecen diferentes conocimientos y apuntan hacia diferentes tipos de acciones y resultados por parte de la comunidad de BB.

4. Patrones / reglas: Los dos últimos tipos de tareas de minería de datos mencionados en Principios de minería de datos son patrones / reglas y recuperación por contenido.

El tipo de patrones / reglas trata con frecuencias de asociaciones particulares que podrían tener implicaciones rentables o de ahorro de costos. Por ejemplo, compras inusuales el mismo día (compras sucesivas de gasolina) podrían sugerir un uso fraudulento de una tarjeta de crédito robada.

En el mundo Six Sigma, análisis de “transacciones" relacionados con la fabricación de un producto o la prestación de servicios podría ser indicativo de modos de falla por causas especiales. Las reglas de asociación, en particular, pueden ser indicativas de interacciones potenciales y, por lo tanto, ser buenos indicadores de donde los BB pueden estar buscando las causas fundamentales de problemas complicados.

La fuente de datos comúnmente es texto que podría extraerse para obtener información sobre la calidad del producto o servicio. Por ejemplo, los centros de atención telefónica o de reparación suelen registrar varias descripciones de texto de las razones por las que un cliente llama o para la devolución de un producto, junto con las medidas tomadas. Un BB tiene que hacer mucho trabajo manual para incluir esa información de texto en un análisis. Las técnicas de minería de texto son enfoques prometedores para ayudar a los BB en ese tipo de esfuerzo para garantizar una detección más rápida de ciertos modos de falla o insatisfacción del cliente.

Hay muchas oportunidades para que los BB exploten las bases de datos existentes sí están capacitados para abordar los desafíos clave planteados principalmente por la magnitud del proceso de recopilación de datos.

Desafíos de grandes conjuntos de datos

El estudio de caso de optimización de red ilustra los principales desafíos que los BB probablemente encontrarán al abordar proyectos de minería de datos:

Reto 1: disponibilidad de datos e infraestructura de recuperación: pueden existir grandes cantidades de datos, pero configurar los datos en el archivo plano apropiado para un escrutinio detallado puede ser un desafío. La preparación de datos junto con la adquisición de datos es un esfuerzo que no debe subestimarse, dependiendo del software disponible.

Un Six Sigma BB puede optar por desarrollar la experiencia de TI relevante, incluida la facilidad con el software de lenguaje de consulta estructurado, o asociarse con aquellos que tienen dicha experiencia para enfrentar el desafío 1.

Reto 2: dominio de las herramientas de minería de datos: Gartner Inc. recientemente proporcionó una propuesta de valor de herramientas de software comercial disponibles para los profesionales. El software de minería de datos está diseñado para conjuntos de datos masivos y es más caro que el software que se usa normalmente en la capacitación Six Sigma.

Las herramientas en sí mismas pueden presentar una curva de aprendizaje sustancial. Cada vez hay más cursos de formación sobre minería de datos disponibles, aunque a menudo están vinculados a una herramienta de software en particular. Antes de determinar el paquete de software de minería de datos específico que se utilizará para un proyecto (si hay una opción), Six Sigma BB puede optar por un curso preliminar sobre análisis de rendimiento y minería de datos genéricos como primer paso para cumplir con el desafío 2.

Reto 3: experiencia: los BB no podrán depender únicamente de su experiencia estadística para desempeñarse de manera competente en el ámbito de la minería de datos. La gestión de bases de datos y la manipulación de conjuntos de datos muy grandes pueden hacer o deshacer un proyecto de minería de datos. La puntualidad de la generación de resultados por parte de BB a la luz de los esfuerzos de la base de datos de front-end puede ser abrumadora.

La experiencia estadística también requerirá algunos cambios de paradigma en el pensamiento, incluido, por ejemplo, un menor énfasis en los parámetros del modelo. Las habilidades en la gestión de proyectos y el reconocimiento de ser un agente de cambio servirán para abordar el desafío 3.

Aunque muchos profesionales de Six Sigma pueden tener poca o ninguna experiencia en el examen de conjuntos de datos masivos con técnicas de minería de datos con fines de calidad, parece evidente que el futuro los enfrentará con más y más conjuntos de datos de este tipo. La tecnología está evolucionando de modo que se puedan recopilar y se están recopilando cantidades masivas de datos que tienen verdadera relevancia para la calidad de los productos y servicios. Aunque seguirán existiendo situaciones en las que se puedan realizar especificaciones de los datos necesarios, los datos adquiridos, y el BB lanzado en un proyecto bien definido, las grandes bases de datos no examinadas pueden, al mismo tiempo, seguir careciendo de escrutinio. Esto ocurre cuando incluso un esfuerzo modesto podría producir resultados impresionantes.

Márgenes de beneficio

Para cerrar con una nota positiva, mencionamos que es probable que los BB reconozcan tipos de problemas familiares en las aplicaciones de minería de datos. Por ejemplo, las devoluciones de productos son iniciadores habituales de proyectos de BB. Incluso con una tasa de retorno baja, los márgenes de beneficio pueden verse seriamente afectados por estos defectos. Si un BB puede identificar indicadores de devoluciones, entonces se pueden tomar medidas correctivas para mitigar el problema, mientras que determinar la causa raíz real puede ser problemático o llevar demasiado tiempo, más allá del ciclo de vida del producto antes de su resolución.

De manera análoga, en las telecomunicaciones, un problema común involucra la rotación. Independientemente de las razones subyacentes, si un BB puede identificar a los clientes con una alta probabilidad de abandono, entonces se puede instituir una acción preventiva.

Para operar de manera efectiva en el mundo de la minería de datos, los BB probablemente necesiten aumentar sus equipos para incluir expertos en la materia de TI.

Esperamos que los BB Six Sigma encuentren cada vez más grandes conjuntos de datos, donde su enfoque básico para la resolución de problemas puede invocar DMAIC, mientras que las técnicas de solución específicas pueden obtenerse del campo de la minería de datos.

Por Michèle Boulanger, JISC Consulting y Mark E. Johnson, Universidad de Florida Central