Machine Learning probabilístico en Big Data con el toolbox Amidst

Andres Masegosa

Andres Masegosa

24/03/2017
12:00 – 13:30
ESIDE – 310 (Aula Ingenio). Avenida de las Universidades 24 48007 Bilbao
 
El Machine Learning está teniendo un gran impacto en muchas empresas hoy en día. Abarca una amplia variedad de técnicas diferentes donde los llamados métodos de Deep Learning, basados en redes neuronales de gran tamaño, están disfrutando de una gran repercusión en los medios de comunicación. Los métodos de Deep Learning son una herramienta muy potente para tareas de predicción, es decir para aprender asignaciones complejas entre un conjunto de entradas y un conjunto de salidas (por ejemplo, etiquetado de imágenes, traducción automática, etc.). Sin embargo, necesitan un gran volumen de datos, se comportan como modelos de caja negra y apenas se pueden utilizar para extraer conocimiento de los datos.

La visión probabilística del Machine Learning basado en la estadística bayesiana sigue el método científico. En un primer paso, el conjunto de hipótesis se define de forma explícita con la ayuda de un lenguaje gráfico que permite introducir fácilmente la asunción de relación de causalidad (e.g, este virus causa este síntoma), siendo también posible modelar mecanismos no observables (e.g., la presencia de un virus). Después, se asigna una probabilidad a priori a cada una de las hipótesis. Finalmente, las hipótesis se testean en base a la evidencia empírica (es decir, a los datos) calculando su probabilidad posterior (dados los datos).Así, utilizando esta probabilidad posterior podemos calcular cuál es la hipótesis que mejor explica los datos. Este enfoque está teniendo un gran impacto en muchos otros campos científicos como la genómica, la investigación del cáncer, la ecología, las finanzas, etc.

En esta charla vamos a hablar de Amidst Toolbox, un paquete de software que permite definir modelos probabilísticos generales de Machine Learning y aplicarlos a conjuntos de datos tanto pequeños como grandes mediante la explotación de diferentes arquitecturas de hardware que van desde CPUs multi-core (dependiendo de Java 8) a clusters de computadoras con cientos de nodos (basándose en Apache Flink, Apache Spark y Amazon Web Services). Además ilustraremos este enfoque en el contexto de un caso de uso real en el ámbito financiero donde se analizan los perfiles de millones de clientes. También se discutirán aplicaciones en el ámbito de la conducción autónoma.

Organizado por DeustoTech Mobility

 
  • Comparte este contenido:
  • E-mail
  • Linkedin
  • X
  • Agregar evento al calendario:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>