Los profesionales de TI vemos el mundo de forma diferente, hay que admitirlo. Esa rareza nos la han grabado a fuego durante años de estudio en los que una de las ideas fundamentales era la discretización de la realidad. La idea mágica era 'el mundo es demasiado complejo para ser metido en un ordenador, es preciso reducirlo a variables simples y discretas'.
Pensemos en el teclado de un ordenador y veremos que no es más que una forma bastante burda de convertir a variables discretas (102 teclas, más o menos) la variable continua que significa la escritura. Como no éramos capaces de reconocer la escritura manuscrita nos pusimos manos a la obra para convencer al mundo de que lo ideal no era eso (que es lo natural, lo innato) sino escribir con esas 102 teclas. Y lo hemos logrado porque son ya pocos los que se cuestionan por qué no pueden escribir a mano y que el ordenador se las ingenie para interpretarlo. Y del mismo modo, hemos repudiado la visión o la audición como métodos de entrada de los ordenadores, simplemente porque eran demasiado complejos.
Es más, a esos pocos usuarios de la resistencia civil que se han negado a aceptar nuestras premisas y siguen escribiendo de su puño y letra o dictando con complejos gadgets que leen e interpretan su escritura o su voz les consideramos usuarios 'raros'. Generan mucho trabajo de soporte por la simple razón de que no somos capaces de hacer las cosas como ellos quieren que, por otra parte, es lo natural.
Afortunadamente la ley de Moore, cierta desde su exposición en 1965, es implacable (Intel ha confirmado que el vaticinio de su cofundador Gordon Moore durará al menos hasta 2018). Con ello hemos llegado ya a una situación en la que podemos discretizar variables con un nivel de realismo muy cercano a lo que de verdad ocurre en la naturaleza. Es decir, el área que describe la versión discreta de la curva (la que generan los ordenadores) es ya muy similar a su área real.
A día de hoy, hay potencia de cálculo más que suficiente para disponer de bolígrafos con cámara de vídeo integrada que permiten grabar todo lo que se escribe para posteriormente, mediante un OCR, convertirlo en texto.
Tenemos también tecnología que permite convertir una señal de audio en texto identificando la voz y descartando los ruidos añadidos. Esto no es nada nuevo dado que lo tenemos accesible de serie en el sistema operativo desde hace varios años para utilizarlo como herramienta de dictado en ofimática o para dar órdenes al propio sistema operativo.
Del mismo modo, cualquier PC doméstico actual dispone de potencia de cálculo para realizar un procesamiento de imágenes en tiempo real suficiente para identificar caras, leer matrículas o identificar y seguir objetos en movimiento. Es realmente asombroso lo que se puede hacer con un software de identificación facial y una webcam de 15 euros o un software para la lectura de matrículas de vehículos en movimiento.
Incluso en la web están disponibles mecanismos de identificación facial que en menos de 5 segundos ponen nombre a cualquier rostro. Pruebe a enviar la foto de algún famoso a myheritage.es o incluso enviar una foto propia para que le sugiera a quien se parece. Cuidado, porque esto último puede tener resultados no previstos que afecten a la autoestima ;-).
Llega algo nuevo
En unos días estará en el mercado Kinect, la nueva versión de la consola XBox. La gran novedad de esta consola no es una mayor capacidad en la generación de polígonos ni un mejor procesamiento de audio (que supongo que tendrá). Lo realmente nuevo es que no precisa de mando a distancia porque el mando es el usuario. La máquina dispone de varias cámaras de vídeo que detectan la posición y el movimiento del usuario con un nivel de precisión y sutileza increíbles.
Quienes hemos tenido la oportunidad de probarla hemos sentido ya la libertad que da saber que es la máquina quien se adapta al usuario y no al revés. Esto es, en sí mismo, un punto de inflexión y seguro que Kinect y su tecnología de reconocimiento de audio y vídeo creará un antes y un después, no solo en el mercado del entretenimiento sino en la interface hombre-máquina en sentido amplio.
Pero aún falta algo
Toda esa potencia de cálculo no sirve de mucho si los sistemas no son inteligentes. De nada vale un potente sistema de reconocimiento de voz o movimientos si posteriormente solo se reconocen términos, palabras o acciones concretas. La gramática de las lenguas que usamos los humanos es realmente compleja y cuando quien está al otro lado de la conversación (el ordenador) no está al mismo nivel la frustración es inevitable. Es esta frustración la que sentimos cuando, por ejemplo, hablamos con una voz enlatada que no es capaz de poner contexto a lo que le estamos contando.
Pero resulta que también tenemos potencia de cálculo para entender y procesar esas gramáticas incluyendo el análisis semántico y el contexto de la conversación. Por ejemplo, es curioso lo que se puede sentir charlando con Ikerne en la web de IparKutxa. Ikerne no está programada en base a palabras o términos concretos sino que realmente entiende lo que le decimos. Podemos decirle 'quiero comprar una casa' o 'me gustaría tener un dinero extra cuando me jubile' y nos recomendará una hipoteca o un plan de pensiones respectivamente. Podemos hablarle del color de su chaqueta, preguntarle por algún personaje histórico, político o futbolista,... Y no seré yo quien sugiera que se le haga algún comentario soez pero es muy divertido ver la mano izquierda con la que responde.
Y ahora juntémoslo todo. Tenemos potentes sistemas de reconocimiento de voz y sistemas igualmente potentes de reconocimiento visual. Y tenemos también un potente sistema de reconocimiento de gramáticas que acerca a las máquinas al modo en que se comunican los humanos. Todo ello dará lugar a nuevos asistentes inteligentes que permitirán superar la frustración que supone tener que hablar con una voz enlatada en los centros de asistencia.
Sería increíble poder hablar en un sitio web de viajes diciéndole cosas como 'quiero un vuelo a la capital del mundo el próximo miércoles y volver dos días después y quiero que sea lo más barato posible'. La máquina nos propondría un viaje a Bilbao (siento el chiste) el miércoles siguiente en clase turista con viaje de vuelta para el viernes. Eso sería una experiencia radicalmente diferente a lo que hoy en día se hace en las webs de las compañías aéreas.
Esta capacidad para interpretar al usuario en su propio lenguaje y para poder mantener una conversación fluida serviría para, por fin, ser capaces de superar el Test de Turing, desierto desde su planteamiento en 1950.
Las aplicaciones prácticas de esta nueva forma de interactuar con las máquinas tiene un campo de actuación ilimitado. Por ejemplo, pensemos en un asistente personal para personas mayores que viven solas. Desde luego, no es un tema baladí en una sociedad que envejece a marchas forzadas. ¿Que puede parecer una locura? Tal vez, pero empresas como Intel llevan años preparándose para esta nueva realidad.
Toda la tecnología necesaria comienza a estar disponible; solo hace falta ponerse a integrar. Ya hay quien lo ha bautizado como Interfaces Naturales; yo prefiero pensar que por fin la tecnología devolverá algo que secuestró hace mucho tiempo...
El mundo vuelve a ser analógico
lunes, 8 de noviembre de 2010
Publicado por
Manu
Etiquetas:
analógico
,
asistente virtual
,
Intel
,
Kinect
Saludos desde
Bilbao, España
Muy bueno!! en tu linea (curioso lo de los bolis;)
ResponderEliminarLa verdad es que desde mi humilde punto de vista tenemos los ingredientes adecuados (casi perfectos) para centrarnos en crear lo que se nos ocurra y aportar verdadero valor diseñando soluciones necesarias (cual pizza a la carta) en vez de perder tiempo e ilusiones dirigiendo ordas de desarrolladores hacia la reinvención de la rueda, copiando al vecino o haciendo para deshacer en el siguiente contrato/pliego/outsourcing/subvencion
Aninmo!
Estoy de acuerdo con la posibilidad de automatizar procesos para tratarlos de una manera más cercana a la humana, sobre todo (como jugón empedernido desde que conocí la maquinita del "space invaders") si se trata de temas de ocio. Y como mencionas, existen infinidad de campos en los que la tecnología nos podría ayudar de esa manera y cada día estamos más cerca.
ResponderEliminarLo que me preocupa (aunque eso sería otro debate) son las aplicaciones no tan altruistas a las que también se les puede dar esa tecnología. Por mencionar una, la militar. Tenemos un claro ejemplo y son los UAV, que a fecha de hoy todavía están guiados por seres humanos, al menos que sepamos los mortales de a pie. No quiero ni pensar qué pasaría cuando estén automatizados y programados por alguien poco adecuado....
Pero sobre todo me preocupa la posibilidad de delegar decisiones en autómatas sobre temas en los que hoy en día, ni siquiera nosotros mismos somos capaces de ponernos de acuerdo. Y eso que teóricamente somos los únicos seres racionales.
Por resumir y parafraseando parte del diálogo de la película "Jurasic Park 1":
"Ante la posibilidad de lograrlo, no se plantearon si debían hacerlo"
Alberto, lo que planteas es, más o menos, el dilema moral que expone Asimov en su Yo robot, por cierto, libro imprescindible para cualquier tecnólogo.
ResponderEliminarUn robot con algo de 'alma' podría dudar respecto a hacer caer una bomba cerca de donde está él (suponiendo que esa fuera la orden) o mejor cambiar un 'poquito' el objetivo para auto-protegerse. Deberá elegir entre ser fiel a la segunda ley (la de obedecer a los humanos), a la tercera (la de auto-protección) o a la primera (la de no hacer daño a los humanos).
Creo que en el caso de los robots bélicos es imposible cumplir las reglas de Asimov porque a fin de cuentas el objetivo de un arma es infringir un daño a otros (o disuadir, según se mire). Pero también creo que estamos aún muy lejos de que los robots tengan alma porque para eso tendríamos que saber que es el alma. ;-)
De momento que sepan hacer las cosas terrenales que ya llegarán las divinas... ;-))
Es cierto que Isaac ha influido en un montón de películas y en las moralejas que se aplican, que es con lo que me suelo quedar después de verlas. Lástima que no lo haya logrado en el resto de ámbitos.
ResponderEliminarPrecisamente, a eso me refiero. Si debemos los seres humanos permitir decisiones a "entes" que se rigen por premisas "programadas-troqueladas" y que si los factores que rodean el problema, se salen de unas directrices preestablecidas, nadie sabría cómo respondería dicha máquina. En una emergencia ¿a quién salvarían antes, a una persona mayor millonaria o a una niña pobre? Si no existiera la variable "rico-pobre" establecida en su programación, desgraciadamente, sufrirían un "overflow".... ;-PPPP
Pero atribuir alma (que yo prefiero definir como raciocinio) a algo programado, me parece un poco atrevido, ya que a una máquina siempre le faltarán las sensaciones que vive (y ahora soy yo el atrevido al afirmar) desde antes de ser engendrado.
Así que me quedo con tu última frase, no demos ideas a las máquinas no vaya a ser....