Magazine_Relacion_cliente_109

es imposible. La respuesta natural es la que apuntábamos hace un año: que sea otro modelo el que evalúe. En la literatura técni- ca se habla de “LLM como juez”, y la técnica funciona. Pero el juez no es neutro. Sabemos hoy, por estudios que ya se acumulan, que los modelos evaluadores tienen sus propios sesgos: ● SESGO DE LONGITUD. Prefieren res- puestas largas a respuestas correctas. ● SESGO DE FAMILIA. Son más indul- gentes con respuestas generadas por mo- delos parecidos al suyo. ● SESGO DE POSICIÓN. Cuando se les piden comparar dos respuestas, suelen pre- ferir la primera que ven. ● INDULGENCIA GENERAL. Tienden a aprobar más que un humano. Mitigarlos no es complicado, pero hay que hacerlo. Rúbrica explícita y detallada. Conjunto de casos de referencia -un golden set propio del centro- que se evalúa perió- dicamente para detectar deriva. Calibración del juez contra evaluador humano una vez al mes. Y, en decisiones delicadas, dos jueces de modelos distintos votando. La idea importante es que el evaluador automático no sustituye al humano: lo apa- lanca. Lo que antes hacía un equipo de ca- lidad muestreando cinco llamadas, ahora puede hacerse sobre el cien por cien. Pero el humano sigue siendo el que define los cri- terios, calibra al juez y arbitra los casos lími- te. El juez también va a calidad.

ben respuestas distintas, hay un problema. La segunda, el cumplimiento normati- vo sube de categoría. Lo que antes era un “ojo, no olvides decir...” se convierte en un atributo medible automáticamente: ¿el bot dio el número de expediente? ¿Lo dio en el formato correcto? ¿Quedó registrado? ¿En las llamadas siguientes lo identificó? La Ley SAC hace estos puntos obligatorios y, para- dójicamente, el bot puede ser más auditable que el humano: deja l og de todo. La deriva- ción a un humano se vuelve un atributo de calidad por sí mismo. La Ley exige plazos máximos para que un cliente que lo exige acceda a un agente o a un supervisor huma- no, y eso obliga a medir y reportar el tiempo entre que el cliente dice “quiero hablar con una persona” y una persona contesta. Es una métrica nueva, ausente en la plantilla clásica, y fundamental. La tercera, el tamaño de muestra deja de ser un problema. La calidad pasa de ser es-

mal porque tocamos un párrafo del prompt para arreglar otra cosa. De ahí la importancia del golden se t. Cada despliegue, cada cambio, debe pasar por la batería de casos de referencia antes de salir a producción. Si tu equipo de calidad toda- vía no tiene un golden set propio del bot , ese es el sitio por donde empezar. El bot al lado del humano, el humano al final del bucle Cuando hablamos de IA en la atención al cliente solemos quedarnos en uno de dos extremos: el optimista, que cree que la IA va a sustituirnos a todos, y el pesimista, que cree que la IA es un sucedáneo barato del agente humano. Ninguno acierta. Lo que está pasando es más interesante y más exigente. La IA está dentro del centro, conversando con clientes, con la misma res- ponsabilidad que tu mejor agente. Y, como tu mejor agente, necesita un programa de

tadística a ser censal. Y eso cambia las preguntas que podemos hacer: ya no es “¿qué tal lo hace mi bot ?”, sino “¿en qué tipo de con- sultas falla y por qué?”. El bucle de mejora continua en el bot Detectar, diagnosticar, re- formular el prompt o reen- trenar, desplegar, medir. Lo nuevo es la velocidad: una mejora que en un equipo

La plantilla del bot no es la del humano

humano lleva semanas de coaching , en un bot puede ser un cambio de prompt desple- gado a las dos horas. Esto es bueno, pero abre una trampa nueva. Cada cambio puede introducir regresiones. Ese caso difícil que el bot resolvía bien hasta ayer, hoy lo resuelve

calidad. Más exigente y exhaustivo, no me- nos. Con sus propios atributos, sus propias métricas y, sí, sus propias herramientas, incluida la propia IA en el papel de juez, sa- biendo que el juez también va a calidad. Al final del bucle, como siempre, sigue ha-

Si nos limitamos a coger la plantilla de ca- lidad de toda la vida y aplicarla al bot , nos vamos a frustrar. Algunos atributos siguen valiendo. Otros ya no significan nada. Y fal-

tan unos cuantos que no estaban en la del humano y son aquí im- prescindibles. Conviene mirarlos uno al lado del otro, (para este análisis comparativo, ver el re- cuadro).

biendo un humano. No escuchando lla- madas, sino orques- tando una operación de calidad mucho más grande que la de hace tres años: hu- manos auditando hu- manos, IA auditando IA, humanos auditan- do IA y, cuando hace falta, IA ayudando a humanos a auditar a otros humanos. Es un cambio importan- te de oficio. Y es de los buenos. Santiago Muñoz-Chápuli, presidente ejecutivo de ON Soluciones.

PLANTILLA DEL AGENTE HUMANO

PLANTILLA DEL BOT

ATRIBUTO

Empatía y cordialidad.

Imprescindible.

Adherencia al tono de marca. Trazabilidad y fuente de la respuesta. Lo anterior, más identificarse como bot y ofrecer derivación a humano. Marginal: el bot apenas rebate. Crítico y registrable: número de expediente, plazos de derivación según la Ley SAC. Baja entre situaciones equivalentes; la inconsistencia es síntoma.

Conocimiento del producto. Cumplimiento del proceso.

Evaluable conversación a conversación. Apertura, despedida, recogida de datos.

Manejo de objeciones

Importante.

3 lecturas a destacar

Cumplimiento normativo.

Genérico.

La primera lectura a tener en cuenta es que la variabilidad funciona al revés. En el humano queremos cierta consis- tencia, pero asumimos que cada conversación es única. En el bot , si dos clientes hacen la misma pregunta y reci-

Variabilidad esperada.

Alta entre llamadas.

Muestra auditada.

5–10 llamadas por agente y mes. Estado anímico, formación, fatiga. Días o semanas ( coaching ).

Hasta el 100 % de las conversaciones.

Prompt , base de conocimiento, modelo, integración. Horas (cambio de prompt ), pero con riesgo de regresiones.

Origen del fallo.

Tiempo de mejora.