|
Reconocimiento
Automático de Habla
Introducción
Con frecuencia existe una percepción
incorrecta acerca de las tecnologías de habla cuando se dice que son una
gran promesa pero no han madurado aún lo suficiente. El impulso de los
últimos años ha cambiado esta perspectiva Los sistemas de reconocimiento
automático del habla con el diseño apropiado están marcando una nueva
tendencia hacia la automatización del centro de llamadas, de las centrales
de pequeñas empresas y en las industrias.
Se crean verdaderos operadores
virtuales que pueden cooperar con los agentes reales en el centro de
llamadas. Esto se traduce en objetivos como la reducción del tiempo de
espera de quien llama, la reducción de costos operacionales, la capacidad
de ofrecer nuevos servicios y garantizar una mejor experiencia a los
clientes.
Los sistemas de Respuesta de Voz
Interactiva (IVR) son una pieza fundamental en los centros de llamadas
actuales en cuanto a soluciones de autoservicio.
Sin sistemas de IVR para automatizar las llamadas, la mayoría de los
centros de contacto se vería abrumado por los costos de operación y por los
clientes enojados que enfrentan largos tiempos de espera.
Los IVR acompañados por reconocimiento automático de habla, mejoran la tasa de automatización global
de los sistemas de autoservicio. A diferencia de un IVR con opciones de
comandos de teclado, un sistema de autoservicio basado en el habla puede
manejar tareas más complejas, como la actualización de una dirección y a la
vez simplificar tareas de automatización existentes. El incremento
resultante en las tasas de automatización significa clientes más
satisfechos y reducir los costos para los centros de llamadas.
Hay varios factores que pueden limitar el reconocimiento de la tasa de
automatización de un sistema de voz. Entre ellos cabe mencionar, ambientes
ruidosos, las llamadas equivocadas, maneras de hablar que difieren con el
promedio y las respuestas sin una clara pronunciación puede hacer que sea
difícil para un sistema completar una llamada.
Con los sistemas de ASR se torna tan
fácil comunicarse como responder a la pregunta: ¿con quién desea
comunicarse? o ¿cuál es su inconveniente? , las cuales pueden responderse
con “me gustaría comunicarme con el departamento de ventas” o “tengo un
problema con la tarjeta de crédito”.
En ambos casos, el sistema es capaz de reconocer dichas frases y
asignarle un significado, de manera de dirigir el llamado a la persona o
sección apropiada.
A la satisfacción del cliente en cuanto
a la duración de la llamada y la facilidad en el uso, se suma la necesidad
de las empresas por atender un creciente número de llamadas y la necesidad
por contar con llamadas finalizadas.
Desde el punto de vista de los usuarios, también cabe
recordar que han ganado experiencia en el uso de la tecnología. Muchos de
ellos ya saben que pueden empezar a hablar antes de que finalice el prompt
de entrada a los portales de habla, que no es necesario hablar más fuerte
para que el sistema “entienda” o que se requiere hablar desde un lugar con
poco ruido. En aplicaciones donde es esperable la cooperación del usuario,
esto es importante.
Por último, mencionaremos que ante la
oferta de gran número de proveedores de sistemas de reconocimiento
automático de habla las entidades empresariales y públicas locales formulan
con frecuencia un conjunto de interrogantes que se desarrollan en último
apartado “Cuestiones a tener en cuenta …”.
Satisfacción del cliente con el
uso de ASR
Muchas empresas utilizan las aplicaciones de voz para
aumentar la satisfacción del cliente mediante la reducción de los tiempos
de espera, para hacer frente a horarios críticos y ante eventuales demoras
ante imprevistos.
A diferencia de los sistemas de IVR, en el cual los usuarios responden a
opciones de dígitos que deben presionar para contactar con departamentos
específicos de una empresa, los sistemas de reconocimiento de voz suelen
plantear una pregunta más abierta: "¿Cómo puedo ayudarlo?" Si la
persona que llama no sabe cómo responder a esta pregunta, el sistema de
reconocimiento de habla ofrece ejemplos de respuestas posibles, tales como
indicar si es necesario el apoyo técnico o quiere informarse de sus saldos
de cuenta.
Una nueva forma de usar el reconocimiento de habla para aumentar la
satisfacción del cliente es la integración de información sobre personas
que llaman en el contexto de su centro de gestión de relaciones con
clientes (CRM). A través de este enfoque, se puede permitir que el sistema
ASR lo salude por su nombre y habla su idioma preferido.
Además, su sistema de reconocimiento de habla es capaz de hacer un
seguimiento de los productos y servicios de personas que llaman, así como
recordar que los tipos de transacciones automatizadas que más a menudo
realizan por teléfono o en línea, y cuando esas operaciones se produjeron.
Mejoras
sustanciales en el diseño de las aplicaciones
Las empresas han trabajado para que las aplicaciones
sean más fáciles de usar para los usuarios. Por ejemplo, en vez de
preguntar en una aplicación de ventas de pasajes aéreos: ¿Cuál es su lugar
de origen?, ¿Hacia dónde quiere volar?, ¿Qué día quiere viajar?, en
diferentes intervenciones, pueden hacerse preguntas más amplias o reconocer
más información que la pedida, ya que el usuario puede responder “Me voy a
Santiago el miércoles que viene”, evitando de esta manera volver a
preguntar sobre lo que el usuario ya dijo. En este caso el sistema puede
detectar en qué día se está hablando, desde donde se está haciendo la
reserva, entre otras informaciones, además de poder interpretar la
información semántica que el usuario brinda. Estas nuevas herramientas con
tecnología del procesamiento del lenguaje natural, ayudan a los diseñadores
a crear aplicaciones que tratan con estos y otros escenarios comunes con
mayor fluidez comunicativa.
En el plano técnico pueden mencionarse mejoras en el plano de la detección
del fin de las emisiones, en el manejo de errores de interpretación, en el
motor de reconocimiento con estrategias de anticipación y técnicas de
adaptación de los modelos acústicos y de lenguaje.
Finalización de las llamadas
La tasa de terminación de llamada en aplicaciones de
reconocimiento de habla en operaciones como consultar tarifas y horarios,
realizar pagos y devolver los productos, es superior entre 14% a 43% a las
aplicaciones con IVR. Los sistemas con ASR también ofrecen otras ventajas,
como el hecho de que en los casos donde no es exitosa la comunicación, los
atendedores telefónicos pueden ver las transcripciones de los diálogos
automáticos que preceden al enrutamiento de las llamadas.
Otra razón para la alta aceptación de la tecnología es
que el número de llamadas que se pueden automatizar ha crecido de manera constante. Una aplicación reciente de buena acogida es
la encuesta de satisfacción del cliente. La aplicación sirve para
transcribir tanto una conversación en vivo o una transacción automatizada
por teléfono. Ambas son poseedoras de información valiosa para la empresa.
Dichos estudios no se realizarían si la recolección de datos fuera hecha en
forma manual, debido a los costos de la tarea. Otras aplicaciones de los
últimos años incluyen activaciones de servicios complementarios, por
ejemplo telefónicos o de televisión por cable y solución de problemas
técnicos sencillos.
A su vez, el interés en las aplicaciones para la salud,
servicios públicos y la automoción está alcanzando un punto máximo en las
empresas debido al objetivo de elevar las tasas de terminación de llamadas
para sus aplicaciones personalizadas.
Arquitectura: estándares e
integración
En los últimos años se ha consolidado el uso de VoiceXML,
un nuevo estándar esencial para la elaboración de contenido en Internet e
información accesible vía voz y teléfono, el cual aceleró la inclusión del
reconocimiento automático de habla. Al mismo tiempo que se ha adoptado el
CCXML, un estándar de XML diseñado para proporcionar soporte de
funcionalidades telefónicas a VoiceXML. VoiceXML y CCXML son importantes no
sólo porque permiten la interoperabilidad del software, sino porque se
mueven fuera de la lógica de negocio de hardware IVR propietario y es menos
costoso fuera de la plataforma de software.
A través de dicha arquitectura, las empresas pueden utilizar secuencias de
comandos Web de autoservicio desarrolladas en XML e incorporar estas
secuencias de comandos en las solicitudes de reconocimiento de habla.
Idealmente, un cliente que busca un balance de la cuenta bancaria recibe la
misma respuesta - ya sea desde un sitio Web, desde una Palm Pilot, en un
cajero automático o por teléfono.
MRCP
es un protocolo propuesto por la Internet Engineering Task Force (IETF).
Como protocolo de comunicación permite a servidores de voz proporcionar
varios servicios como reconocimiento de voz o síntesis de voz a sus
clientes. Típicamente, esto significa que en una computadora central estará
corriendo el software de voz y un cliente puede enviar mensajes MRCP a este
servidor sobre la red para ser procesado, usualmente sobre otro protocolo
como RSTP o TCP.
Convivencia de los agentes con
sistemas de reconocimiento automático
Cuando se quieren disminuir los tiempos
del servicio, los agentes que cuentan con ASR y CTI pueden atender llamadas
que ya tienen datos adquiridos a través del sistema automático de
reconocimiento y presentados en sus pantallas. Si el servicio requiere la introducción
de nombres (ciudades, personas, direcciones, títulos de películas, nombre
de productos) como también cantidades o tipo de moneda, la introducción del sistema de
reconocimiento automático de habla en primer término resulta mucho más
amigable para el cliente como también más eficiente para el agente humano.
Aplicaciones:
Entre las aplicaciones basadas en ASR
pueden mencionarse las siguientes:
Operadores de red fija y móvil:
Call center, Portal de voz, SMS a voz,
Directorio asistido, Lectura de correo a través de voz, Self care, CRM
Sector financiero:
Mesa central, Call center,
Instalaciones en cajeros automáticos,Verificación de la validez de un
cheque, Transacciones financieras (compra y venta de acciones, saldo de la
cuenta, información de cambio moneda, etc.)
Industrias, sector público y servicios:
Aerolíneas (información de horario de
vuelos, anuncios de los aeropuertos, etc.), Servicio de cobranza (llamadas
de salida), Automatización de IVR de empresas en todos los sectores,
Empresas de servicio público (call center), Universidades, Hospitales,
Sistemas de atención al consumidor, Logística y reposición en grandes
almacenes de mercadería, Digitalización de documentos, Transcripción de diagnósticos médicos y psicológicos,
Transcripción de juicios en ámbitos legales,
Transcripción de conferencias, clases y discursos en
general.
Cuestiones importantes a tener
en cuenta en un proyecto de ASR
·
¿Los
proveedores tienen representantes locales que ofrezcan soluciones para
problemas puntuales de implementación?
·
¿El
costo de las licencias superan los márgenes de ganancia del mercado local?
·
¿Los
sistemas están adecuados a la forma de hablar local, en sus modelos de
pronunciación o en sus modelos gramaticales?
·
¿Los
sistemas brindan la suficiente flexibilidad para adaptarse a cambios
surgidos durante el desarrollo?
·
¿Los
sistemas están pensados a la medida de la pymes locales?
·
¿El
ciclo de desarrollo de la aplicación se ajusta a tiempos razonables?
·
¿Se
está contrayendo una relación de dependencia por años con el proveedor
cuyas licencias deben renovarse año a año?
Estas suelen
ser algunas de las cuestiones que más se escuchan a menudo como
condicionantes para la adquisición de sistemas. En gran parte, el problema
reside en que se pretende vender una solución cerrada, como un paquete
“Office” que sirve para todos los mercados, empresas y situaciones. En
todos los casos se requiere estudiar el dominio, escuchar a las partes del
proyecto y adecuar los recursos al contexto. Contáctese con nosotros por
soluciones adecuadas a sus necesidades específicas.
Para
mayor información sobre nuestra estrategia, consulte a info@maysaconsultores.com.ar
Referencias:
· Xuedong Huang, Alex Acero,
Hsiao-Wuen Hon, “Spoken Language Processing: A Guide to Theory, Algorithm
and System Development”. Printice-Hall International.
· Lawrence Rabiner y Biing Hwang-Jang: “Fundamentals of Speech
Recognition”. Printice-Hall International.
· Hervé Boulard y Nelson Morgan: “Connectionist Speech
Recognition: An Hybrid Approach”. Kluwer
|