Machine Learning probabilístico en Big Data con el toolbox Amidst
La visión probabilística del Machine Learning basado en la estadística bayesiana sigue el método científico. En un primer paso, el conjunto de hipótesis se define de forma explícita con la ayuda de un lenguaje gráfico que permite introducir fácilmente la asunción de relación de causalidad (e.g, este virus causa este síntoma), siendo también posible modelar mecanismos no observables (e.g., la presencia de un virus). Después, se asigna una probabilidad a priori a cada una de las hipótesis. Finalmente, las hipótesis se testean en base a la evidencia empírica (es decir, a los datos) calculando su probabilidad posterior (dados los datos).Así, utilizando esta probabilidad posterior podemos calcular cuál es la hipótesis que mejor explica los datos. Este enfoque está teniendo un gran impacto en muchos otros campos científicos como la genómica, la investigación del cáncer, la ecología, las finanzas, etc.
En esta charla vamos a hablar de Amidst Toolbox, un paquete de software que permite definir modelos probabilísticos generales de Machine Learning y aplicarlos a conjuntos de datos tanto pequeños como grandes mediante la explotación de diferentes arquitecturas de hardware que van desde CPUs multi-core (dependiendo de Java 8) a clusters de computadoras con cientos de nodos (basándose en Apache Flink, Apache Spark y Amazon Web Services). Además ilustraremos este enfoque en el contexto de un caso de uso real en el ámbito financiero donde se analizan los perfiles de millones de clientes. También se discutirán aplicaciones en el ámbito de la conducción autónoma.
Organizado por DeustoTech Mobility