Aprendizaje robótico basado en la incorporación de conocimientos previos

Introducción

La búsqueda del aprendizaje robótico tiene como objetivo crear robots que puedan adaptarse y mejorar su rendimiento a lo largo del tiempo mediante el uso de algoritmos de aprendizaje automático. Estos algoritmos dependen de datos para aprender y entrenar modelos que puedan hacer predicciones y tomar decisiones en escenarios del mundo real. Sin embargo, si no se tiene en cuenta la encarnación del sistema de aprendizaje automático, estos modelos pueden tener dificultades para funcionar eficazmente en situaciones del mundo real o generalizar a nuevos entornos.

La importancia de la encarnación

La encarnación (o embodiement) se refiere a la forma y estructura física del sistema de aprendizaje automático y su interacción con el entorno. En el caso de los robots, esto incluye factores como la forma corporal del robot, sus capacidades de movimiento y su entrada sensorial. Estos elementos pueden afectar en gran medida la capacidad del robot para realizar tareas e interactuar con su entorno. Para optimizar el aprendizaje automático en el campo de la robótica, es fundamental considerar conjuntamente el aprendizaje y la encarnación.

Estamos abordando este desafío mediante el descubrimiento de conocimientos previos específicos para la robótica e incorporándolos en nuestros algoritmos de aprendizaje. Como ejemplo, nuestra investigación ha demostrado que los robots pueden aprender eficientemente habilidades versátiles de manipulación a partir de una sola demostración humana, aprovechando las ventajas de la encarnación para generar información complementaria. Además, la incorporación de conocimientos sobre las leyes físicas nos ayuda a aprender representaciones de estado desde los datos de manera más eficiente, ya que los robots interactúan con el mundo físico a través de sus cuerpos.

Hacia una comprensión del "estado"

Queremos capacitar a los robots para que aprendan una amplia gama de tareas. El aprendizaje implica generalizar conocimientos desde situaciones experimentadas hacia nuevas situaciones. Pero para hacerlo, los robots deben conocer previamente qué hace que las situaciones sean similares o diferentes con respecto a su tarea actual. Deben ser capaces de extraer la información correcta de su entrada sensorial que caracterice estas situaciones. Esta información es lo que denominamos "estado".

La información que debe incluirse en el estado varía según la tarea. Para conducir un automóvil, por ejemplo, la representación del estado del entorno debe incluir la carretera, otros vehículos, semáforos, etc. Para cocinar la cena en una cocina, debe centrarse en aspectos completamente diferentes del entorno.

En lugar de depender de una percepción definida por humanos (mapeo de observaciones al estado actual) para una tarea específica, los robots deben ser capaces de aprender autónomamente qué patrones en su entrada sensorial son importantes. Creemos que pueden aprender esto interactuando con el mundo: realizando acciones, observando cómo cambia la entrada sensorial y cuáles situaciones son recompensantes. A partir de tal experiencia, los robots pueden aprender representaciones de estado específicas para la tarea, haciéndolas consistentes con conocimientos previos sobre el mundo físico, por ejemplo, que los cambios en el mundo son proporcionales a la magnitud de las acciones del robot, o que el estado y la acción juntos determinan la recompensa.

Aprendizaje de representaciones de estado

Para aprender representaciones de estado adecuadas, el robot requiere un conjunto de acciones relevantes para la tarea y debe saber cómo ejecutarlas. Pero también podemos abordar el problema ortogonal: ¿cómo puede el robot aprender acciones adecuadas?

En nuestro trabajo, estudiamos cómo utilizar el conocimiento sobre el estado para aprender mejores acciones. Esto motiva nuestro enfoque de aprendizaje acoplado de parámetros y efectos de acciones (CAPEL, por sus siglas en inglés): aprendemos conjuntamente las parametrizaciones de las acciones y un modelo predictivo para cada acción. Estos modelos predictivos (forward models) pronostican los efectos de cada acción, dado el estado del mundo, y permiten al robot seleccionar la acción correcta para una tarea.

¿Por qué integrar estos dos problemas complejos?

¿Por qué intentamos resolver estos dos complejos problemas de aprendizaje juntos? Argumentamos que están estrechamente relacionados: dado un modelo predictivo, el modelo solo es válido si la parametrización subyacente de la acción evoca de manera confiable los efectos que predice el modelo. Por otro lado, una acción solo es relevante si el robot puede predecir sus efectos con alta certeza. Por lo tanto, los dos problemas de aprendizaje están intrínsecamente acoplados y deben resolverse conjuntamente.

Conocimiento lateral en el aprendizaje robótico

Estos enfoques para aprender representaciones de estado y acción siguen todos un tema común: explotan información que es relevante para la tarea, pero que no es entrada ni salida de la función que se aprende (por ejemplo, las acciones se utilizan para aprender un mapeo de observación a estados, pero no son necesarias para estimar el estado). Este tipo de información se denomina información lateral o "side information".

Nuestro trabajo muestra que el aprendizaje con información lateral engloba una variedad de enfoques relacionados, por ejemplo, el aprendizaje multitarea, el aprendizaje multivista y el aprendizaje con información privilegiada. Esto nos proporciona:

Una nueva perspectiva que conecta estos enfoques previamente aislados
Comprensión sobre cómo estos métodos incorporan diferentes tipos de conocimiento previo, y por lo tanto implementan diferentes patrones
Facilita la aplicación de estos métodos en tareas novedosas

Recursos y financiación

Código disponible

Hemos hecho público nuestro código para el aprendizaje con información lateral: github.com/tu-rbo/concarne

Financiación

Excelencia Estratégica Alemana: Deutsche Forschungsgemeinschaft (DFG) bajo la Excelencia Estratégica de Alemania - EXC 2002/1 "Science of Intelligence" - número de proyecto 390523135
Aprendizaje automático robótico (R-ML) financiado por la Deutsche Forschungsgemeinschaft (DFG), número de concesión: 329426068, abril 2017 - abril 2020
Cátedra Alexander von Humboldt - otorgada por la Fundación Alexander von Humboldt y financiada a través del Ministerio de Educación y Investigación (BMBF), julio 2009 - junio 2014

El aprendizaje de robots basado en la incorporación de conocimientos previos