Por qué fracasan los proyectos de IA antes de empezar
Antes de gastar en modelos y algoritmos, hay un problema más básico que nadie quiere ver: los datos no están listos. Te explicamos por qué y qué hacer.
Hay una estadística que se repite en todos los informes de industria: entre el 70% y el 85% de los proyectos de inteligencia artificial no llegan a producción. La cifra varía según quién la cite —Gartner, McKinsey, IBM dicen variantes del mismo número— pero la dirección es siempre la misma.
Lo curioso es que casi nadie habla de por qué.
La narrativa habitual apunta al algoritmo, al modelo elegido, a la falta de datos de entrenamiento, o a expectativas poco realistas. Todo eso puede ser cierto. Pero en la mayoría de los casos que vemos en empresas medianas, el problema es anterior a todo eso.
¿Por qué fracasan los proyectos de IA realmente?
El problema son los datos. Y no porque sean pocos, sino porque no están en condiciones de ser usados.
Esto es lo que suele encontrar un equipo de IA cuando llega a una empresa que nunca ordenó su infraestructura de datos:
- Datos duplicados: el mismo cliente con tres registros distintos en tres sistemas distintos, con nombres ligeramente distintos, sin un ID único que los conecte.
- Campos sin definición: una columna llamada
tipocon 14 valores posibles que nadie sabe exactamente qué significan. - Historial roto: datos que antes de 2023 están en un sistema viejo, y después en uno nuevo, sin migración coherente entre ambos.
- Información sensible sin anonimizar: números de documento, datos bancarios y correos electrónicos mezclados en tablas que se van a usar para entrenar modelos.
- Ausencia de documentación: nadie sabe qué hace cada tabla, por qué existe ese campo, ni de dónde viene ese número.
Con ese punto de partida, la IA no falla. Directamente no puede arrancar.
¿Por qué las empresas saltan este paso?
Porque hay presión por mostrar resultados rápido. El CEO vio una demo en una conferencia, alguien del equipo técnico reprodujo algo impresionante en un notebook de Jupyter, y ahora la pregunta es “¿cuándo podemos tener eso?”.
Nadie quiere ser el que diga “primero hay que pasar seis semanas ordenando datos”. Suena a excusa. Suena a que no se quiere avanzar. Pero es exactamente la respuesta correcta.
Los equipos de IA que trabajan sobre bases de datos ordenadas entregan resultados en semanas. Los que trabajan sobre datos caóticos tardan meses —o fracasan y le echan la culpa al algoritmo.
¿Cuál es el costo real de ignorar esto?
El patrón que se repite es siempre el mismo:
- La empresa decide “vamos a hacer un proyecto de IA”
- Se contrata a un equipo de data science (interno o externo)
- Los primeros meses se gastan en entender la estructura de los datos
- A los 6 meses, el proyecto lleva el triple de tiempo y no hay nada en producción
- Se culpa a los data scientists, al proveedor, o el proyecto se abandona
El equipo de IA no falló. Llegó a un edificio sin cimientos y trató de construir el piso 20.
En términos de plata: un equipo de data science de 3 personas a $80/hora trabajando 6 meses son ~$240.000. Si la mitad de ese tiempo se fue en arreglar datos que deberían haber estado listos antes, el costo de no haber ordenado la infraestructura fue $120.000. Y eso sin contar el costo de oportunidad de los resultados que no llegaron.
¿Qué significa tener datos “AI-Ready”?
No es un estándar formal ni una certificación. Es un conjunto de condiciones que hacen que los datos puedan ser usados por modelos de machine learning o por cualquier sistema que necesite información confiable:
1. Datos limpios y únicos Un registro por entidad. Sin duplicados. Sin valores nulos en campos críticos. Tipos de datos consistentes: una fecha es una fecha, no a veces texto y a veces número.
2. Historial completo y versionado La IA aprende de patrones en el tiempo. Si el historial está incompleto, roto o modificado sin registro, el modelo aprende mal o no aprende. Para la mayoría de los modelos de predicción, se necesita al menos 24 meses de historial limpio.
3. Información sensible separada o anonimizada Antes de usar datos para entrenar modelos, hay que asegurarse de que no se están exponiendo datos personales. En industrias reguladas (finanzas, salud), esto no es opcional: los reguladores son cada vez más estrictos en este punto.
4. Documentación de cada tabla y campo
El modelo necesita saber qué está procesando. Si no hay documentación, el equipo que desarrolla la IA tiene que inferir el significado de cada campo —y eso introduce errores desde el inicio. Un campo monto sin documentación puede ser bruto o neto, y esa diferencia cambia completamente los resultados.
5. Pipeline automatizado que mantiene todo actualizado Los datos de ayer no sirven si el modelo necesita datos de hoy. Tiene que existir un proceso automatizado que ingeste, limpie y actualice la base de forma continua. Un pipeline que se ejecuta manualmente o depende de que alguien acuerde exportar un CSV no es suficiente.
¿Cuánto tiempo lleva ordenar los datos?
Depende del estado inicial, pero en empresas medianas (50 a 500 empleados, 3 a 10 sistemas de datos) el proceso de ordenamiento suele tomar entre 4 y 12 semanas:
- Semanas 1-2: Diagnóstico completo (Data Audit). Relevamiento de fuentes, análisis de calidad, mapa de dependencias.
- Semanas 3-6: Construcción del pipeline Bronze → Silver. Conexión de fuentes, normalización, deduplicación.
- Semanas 7-10: Capa Gold y documentación. Modelado para casos de uso específicos, anonimización, documentación de cada tabla.
- Semanas 11-12: Validación con el equipo de IA. Prueba piloto con datos reales y criterios de aceptación claros.
Después de eso, el proyecto de IA puede arrancar sobre terreno firme.
¿Cómo se ven los proyectos que sí funcionan?
Los proyectos de IA que llegan a producción y generan valor tienen algo en común: la infraestructura de datos estaba ordenada antes de que empezara el trabajo de modelado.
En un proyecto de predicción de churn que implementamos para una empresa de SaaS B2B, el primer mes se dedicó completamente al data audit y a la construcción del pipeline. El segundo mes se modeló. En el tercer mes el modelo estaba en producción identificando cuentas en riesgo con una precisión del 78%. Ese resultado hubiera sido imposible sin el mes de preparación previa.
La secuencia correcta es siempre la misma:
Ordenar los datos → Validar que están en condiciones → Construir el modelo
No al revés.
La pregunta que hay que hacerse antes de contratar un equipo de IA
Antes de comprometer presupuesto y tiempo en un proyecto de inteligencia artificial, una sola pregunta honesta:
¿Alguien en tu empresa puede responder en 10 minutos de dónde viene cada número que aparece en los reportes de gestión?
Si la respuesta es “no del todo”, tienes un problema de infraestructura de datos. Y ese problema va a aparecer en cuanto el equipo de IA empiece a trabajar, solo que más caro y más tarde.
Puedes leer más sobre la relación entre datos e IA en por qué la IA hace al data engineer más necesario, no menos.
Preguntas frecuentes
¿Cuántos datos necesito para empezar un proyecto de IA?
Depende del caso de uso. Para modelos de predicción (churn, demanda, fraude) generalmente se necesitan al menos 2-3 años de historial limpio y completo. Para sistemas de recomendación, la cantidad depende del volumen de transacciones. Para modelos de lenguaje entrenados sobre documentos propios, puede alcanzar con cientos o miles de documentos. Más importante que la cantidad es la calidad: datos limpios, consistentes y bien documentados.
¿Es necesario tener un data lake antes de implementar IA?
No necesariamente un data lake formal, pero sí una capa de datos centralizada y limpia. La arquitectura específica depende del caso de uso, pero el requisito mínimo es que los datos de entrenamiento sean accesibles desde un solo lugar, estén limpios y estén documentados. La arquitectura medallion es el framework más común para lograr esto.
¿Un LLM como GPT resuelve el problema de datos desordenados?
No. Los LLMs (GPT, Claude, Gemini) son modelos de lenguaje que generan texto, no motores de datos. Cuando se conectan a datos empresariales mediante RAG o consultas a bases de datos, dependen completamente de la calidad de esos datos. Si los datos están desordenados, el LLM devuelve respuestas erróneas con mucha confianza, lo que puede ser peor que no tener la herramienta. Puedes leer el análisis completo en por qué la IA hace al data engineer más necesario.
¿Un Data Audit es lo mismo que una auditoría de seguridad de datos?
No. Un Data Audit analiza la calidad, consistencia y accesibilidad de los datos para uso analítico. Una auditoría de seguridad analiza controles de acceso, cumplimiento normativo y riesgo de exposición. Son complementarios pero distintos. Para proyectos de IA, el Data Audit de calidad es el punto de partida.
Pide tu Data Audit. En 2 semanas sabes exactamente en qué estado están tus datos y qué necesita ordenarse antes de iniciar cualquier proyecto de IA.
Si tus datos no están listos para IA, empieza por ordenarlos. Hablemos.
Agenda una llamada de 30 minutos sin compromiso. Te contamos cómo podemos ayudarte a ordenar tu infraestructura de datos.
Agenda una llamada →