tesis doctoral - archivo digital upmoa.upm.es/22579/1/juanpablo_fuentes_brea.pdfjuan pablo uenftes...

UNIVERSIDAD POLITÉCNICA DE MADRID

FACULTAD DE INFORMÁTICA

DEPARTAMENTO DE INTELIGENCIA ARTIFICIAL

TESIS DOCTORAL

Arquitectura cognitiva híbrida para lanavegación autónoma de UAVs

mediante mapas topológicos visuales

Juan Pablo Fuentes Brea

Directores: Darío Maravall, Javier de Lope

Arquitectura cognitiva híbrida para la

navegación autónoma de UAVs

mediante mapas topológicos visuales

Autor: Juan Pablo Fuentes Brea

Directores: Darío Maravall, Javier de Lope

Madrid, 2013

Ésta tesis se la dedico:

... a todas las estrellas que por la noche alumbran mi camino,

... a mi príncipe que es un Sol en la Tierra,

... a mi pequeña Miss de fresa,

... y a mi gran Amor.

Agradecimientos

Quiero agradecer a Darío Maravall y Javier de Lope todo el apoyo y amistad que me handado durante la realización de ésta tesis, guiándome en todo momento por aquellos caminos queme permitieron alcanzar buenas ideas.

Tendré siempre en mente los debates abiertos a través del correo electrónico, así como denuestras reuniones de trabajo �el mismo día, a la misma hora y en el mismo lugar �, ... heaprendido mucho de vosotros, aportándome en todo momento lo que mi mente eternamenteinquieta necesitaba.

Por ello os quiero dar las gracias, ya que sabéis lo importante que es todo esto para mí.

Juan Pablo Fuentes Brea

Madrid, 2013

7

Resumen

El objetivo fundamental de la presente tesis doctoral es el diseño de una arquitectura cog-nitiva, que pueda ser empleada para la navegación autónoma de vehículos aéreos no tripuladosconocidos como UAV (Unmanned Aerial Vehicle). Dicha arquitectura cognitiva se apoya en lade�nición de una librería de comportamientos, que aportarán la inteligencia necesaria al UAVpara alcanzar los objetivos establecidos, en base a la información sensorial recopilada del entornode operación.

La navegación autónoma del UAV se apoyará en la utilización de un mapa topológico visual,consistente en la de�nición de un grafo que engloba mediante nodos los diferentes landmarksubicados en el entorno, y que le servirán al UAV de guía para alcanzar su objetivo. Los arcosestablecidos entre los nodos del mapa topológico, le proporcionarán de la información necesariapara establecer el rumbo más adecuado para alcanzar el siguiente landmark a visitar, siguiendosiempre una secuencia lógica de navegación, basada en la distancia de un determinado landmarkcon respecto al objetivo �nal ó landmark destino.

La información sensorial que la arquitectura utilizará es principalmente visual, y mediante elempleo de técnicas de visión computacional y machine learning, se procederá a la clasi�caciónde las imágenes capturadas del entorno para el reconocimiento de landmarks, y poder contribuira la toma de decisiones en la activación de los comportamientos de�nidos.

Se procederá al cálculo de las señales de control más adecuadas, dependiendo del estado endonde esté ubicado el UAV dentro de su entorno. Para ello, la arquitectura de�ne un mecanismohíbrido de control, el cual puede conmutar entre dos diferentes modos de navegación. El primeroes el denominado como Search Mode, el cual se activará cuando el UAV se encuentre en unestado desconocido dentro del entorno, para lo cual hará uso de cálculos basado en la entropíapara la búsqueda de posibles landmarks. Se empleará como estrategia novedosa la idea de que laentropía de una imagen tiene una correlación directa con respecto a la probabilidad de que dichaimagen contenga uno ó varios landmarks. De esta forma, la estrategia para la búsqueda de nuevoslandmarks en el entorno, se basará en un proceso continuo de maximización de la entropía. Si porel contrario el UAV identi�ca la existencia de un posible landmark entre los de�nidos en su mapatopológico, se considerará que está sobre un estado conocido, por lo que se conmutará al segundomodo de navegación denominado como Homing Mode, el cual se encargará de calcular señalesde control para la aproximación del UAV al landmark localizado. Éste último modo implementaun control dual basado en dos tipos de controladores que mediante su combinación, aportarán alUAV señales de control cada vez más óptimas; dichos tipos de controladores son los siguientes:controlador FeedForward ó anticipativo, basado en el conocimiento adquirido por parte del UAVdurante su navegación, y por otro lado, se de�ne el denominado controlador FeedBack ó reactivo,que partiendo del error devuelto en la clasi�cación de landmarks, generará la señal de control

9

10

más adecuada en cada momento, además de llevar a cabo un entrenamiento continuo y en tiemporeal del controlador FeedForward.

Para cumplir con los requisitos de ejecución y aprendizaje en tiempo real de la arquitectura,se han tomado como principales referencias dos paradigmas empleados en diferentes estudiosdentro del área de la robótica, como son el paradigma de robots de desarrollo (developmentalrobots) basado en un aprendizaje del robot en tiempo real y de forma adaptativa con su entorno,así como del paradigma de modelos internos (internal models) basado en los resultados obtenidosa partir de estudios neurocientí�cos del cerebelo humano; dicho modelo interno sirve de base parala construcción del control dual de la arquitectura.

Se presentarán los detalles de diseño e implementación de los diferentes módulos que compo-nen la arquitectura cognitiva híbrida, así como de la librería de comportamientos inteligentes queserán utilizados por el UAV. Posteriormente, se presentarán los diferentes resultados obtenidos apartir de las pruebas experimentales ejecutadas; para dichas pruebas, se ha empleado como UAVla plataforma robótica aérea de AR.Drone. El objetivo de dicho plan de pruebas es veri�car elcumplimiento de los diferentes requisitos especi�cados para cada uno de los módulos de la arqui-tectura, así como del correcto funcionamiento de la librería de comportamientos; como resultado�nal se ha obtenido una validación completa de la arquitectura cognitiva híbrida objetivo de latesis, cumplimento con la totalidad de requisitos especi�cados y garantizando su viabilidad comoaplicación operativa en el mundo real.

Finalmente, se muestran las distintas conclusiones a las cuales se ha llegado a partir de losresultados experimentales, y se presentan las diferentes líneas de investigación futuras que podránser ejecutadas.

Summary

The main objective of this thesis is the design of a cognitive architecture, that can be usedfor autonomous navigation of Unmanned Aerial Vehicles (UAV). This cognitive architectureis based on the de�nition of a library of behaviors, that provide the necessary intelligence toUAV to achieve the objectives set, based on sensory information gathered from the operatingenvironment.

UAV autonomous navigation will rely on the use of visual topological map, namely thede�nition of a graph that includes nodes with di�erent landmarks located in the environment, andthat will help guide the UAV to reach their goal. The arcs between nodes established topologicalmap, will provide the information necessary to establish the most appropriate course to reachthe next landmark to visit, always following a logical sequence of navigation, based on a givendistance between a speci�c landmark and the target landmark.

Sensory information architecture is primarily visual use, and by using computer vision tech-niques and machine learning, we will proceed to the classi�cation of images captured from theenvironment to recognize landmarks, and to contribute to decision -making in activation of de-�ned behaviors .

It shall be calculated by the most appropriate control signals, depending on the state wherethe UAV is located within its environment. To do this, the architecture de�nes a hybrid controlmechanism, which can switch between two di�erent modes of navigation. The �rst is known asSearch Mode, which is activated when the UAV is in an unknown state in the environment,for which make use of entropy-based calculations for �nding potential landmarks. Be used as anovel strategy the idea that the entropy of an image has a direct correlation with respect to thelikelihood that the image contains one or more landmarks. Thus, the strategy for �nding newlandmarks in the environment, will be based on a continuous process of entropy maximization.If instead the UAV identi�es the existence of a possible landmark from those de�ned in thetopological map, be deemed to be on a known state, so it will switch to the second mode ofnavigation known as Homing Mode, which is responsible for calculating control signals for theapproximation of the UAV to landmark located.

The latter implements a dual control based on two types of controllers through their combi-nation, provide control signals to the UAV increasingly optimal, these types of controllers are:FeedForward controller based on the knowledge acquired by the UAV during browsing, and onthe other hand, is de�ned called FeedBack or reactive controller, which based on the error retur-ned in the classi�cation of landmarks, generate the most suitable control signal at all times, inaddition to carrying out continuous training in real time of the FeedForward controller.

To meet the performance requirements and real-time learning of architecture, have beentaken as main references two paradigms used in di�erent studies within the area of robotics,

11

12

such as the developmental robots paradigm based on a learning real-time robot adaptively toits environment as well as the paradigm of internal models based on the results obtained fromhuman cerebellum neuroscienti�c studies; this internal model is the basis for building the dualcontrol of the architecture.

Will present the design and implementation details of the di�erent modules of the hybridcognitive architecture, as well as the library of intelligent behaviors to be used by the UAV.Subsequently, we present the di�erent results obtained from experimental tests carried out, usingas UAV aerial robotics platform AR.Drone. The purpose of this test plan is to verify compliancewith the various requirements speci�ed for each of the modules of the architecture, as well as theproper functioning of the library of behaviors. As the �nal result we have obtained a completevalidation of this hybrid cognitive architecture aim of the thesis, compliance with all speci�edrequirements and ensuring its viability as operational implementation in the real world .

Finally, we show the di�erent conclusions that have been reached from the experimentalresults, and shows the various lines of future research that may be implemented.

Índice general

I INTRODUCCIÓN 25

1. Introducción 27

1.1. Arquitectura cognitiva híbrida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.2. Paradigmas de robótica empleados . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.2.1. Robots de desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.2.2. Modelos internos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.3. Plan de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2. Estado del arte 33

2.1. Developmental Robots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2. Internal Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3. Vehículos aéreos no tripulados (UAV) 41

3.1. Clasi�cación de un UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2. Sensores de un UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.3. Actuadores de un UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4. Navegación de un UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4. AR.Drone 47

4.1. Descripción del AR.Drone 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2. Sensores y Actuadores del AR.Drone 2.0 . . . . . . . . . . . . . . . . . . . . . . . 494.3. Maniobras del AR.Drone 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

II ARQUITECTURA COGNITIVA HÍBRIDA 53

5. Arquitectura general del sistema 55

5.1. Módulos de la arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.2. Ejecución concurrente de módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.3. Interconexión de módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.4. Bucle de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.5. Mecanismo híbrido de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.6. Librerías empleadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

13

14 ÍNDICE GENERAL

6. Navegación mediante mapas topológicos visuales 65

6.1. Construcción de un mapa topológico visual . . . . . . . . . . . . . . . . . . . . . 656.2. Identi�cación de landmarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7. Módulo sensorial 69

7.1. Captura de imágenes en tiempo real . . . . . . . . . . . . . . . . . . . . . . . . . 697.2. Procesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717.3. Preparación de dataset de landmarks . . . . . . . . . . . . . . . . . . . . . . . . . 717.4. Reconocimiento de landmarks mediante K-NN . . . . . . . . . . . . . . . . . . . . 757.5. Datos de navegación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8. Módulo cognitivo 79

8.1. Cálculo de la entropía para la navegación . . . . . . . . . . . . . . . . . . . . . . 798.2. Búsqueda de landmarks en el entorno . . . . . . . . . . . . . . . . . . . . . . . . . 808.3. Detección de obstáculos en el entorno . . . . . . . . . . . . . . . . . . . . . . . . . 838.4. Implementación del módulo cognitivo . . . . . . . . . . . . . . . . . . . . . . . . . 85

9. Módulo de control dual 87

9.1. Mecanismo de control dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2. Controlador FeedBack . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

9.2.1. Implementación del controlador FeedBack . . . . . . . . . . . . . . . . . . 909.3. Controlador FeedForward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

9.3.1. Implementación de la red neuronal del controlador FeedForward . . . . . . 929.4. Combinación Feedforward & Feedback . . . . . . . . . . . . . . . . . . . . . . . . 93

10.Módulo de aprendizaje 97

10.1. Feedback-error Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9710.2. Teachable robots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

11.Módulo actuador 101

11.1. Tratamiento de señales de control en tiempo real . . . . . . . . . . . . . . . . . . 10111.2. Envío de señales de control al UAV . . . . . . . . . . . . . . . . . . . . . . . . . . 103

III LIBRERÍA DE COMPORTAMIENTOS 105

12.Modelo de comportamientos del UAV 107

12.1. Diseño de comportamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10812.2. Coordinación de comportamientos . . . . . . . . . . . . . . . . . . . . . . . . . . 109

13.Librería de comportamientos del UAV 111

13.1. Comportamiento de exploración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11213.2. Comportamiento de aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . . 11313.3. Comportamiento de identi�cación . . . . . . . . . . . . . . . . . . . . . . . . . . . 11413.4. Comportamiento para evitar obstáculos . . . . . . . . . . . . . . . . . . . . . . . 11513.5. Comportamiento de control de altitud . . . . . . . . . . . . . . . . . . . . . . . . 116

ÍNDICE GENERAL 15

IV PRUEBAS EXPERIMENTALES 119

14.Preparación y con�guración del entorno experimental 121

14.1. Con�guración del nodo operativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 12214.2. Cuadro de Mando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

14.2.1. Cuadrante visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12414.2.2. Cuadrante de trazabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

14.3. Montaje del entorno experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 12514.4. Con�guración del AR.Drone 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

15.Pruebas y Resultados Experimentales 127

15.1. Experimentos sobre el reconocimiento de landmarks . . . . . . . . . . . . . . . . 12815.1.1. Ejecución del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 12815.1.2. Resultados del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . 12915.1.3. Conclusiones del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 130

15.2. Experimentos sobre maniobras de exploración y evitación de obstáculos . . . . . 13015.2.1. Ejecución del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 13015.2.2. Resultados del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . 13115.2.3. Conclusiones del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 135

15.3. Experimentos sobre maniobras de aproximación e identi�cación de landmarks . . 13615.3.1. Ejecución del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 13615.3.2. Resultados del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . 13715.3.3. Conclusiones del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 139

15.4. Experimentos sobre el aprendizaje adaptativo del UAV . . . . . . . . . . . . . . . 13915.4.1. Ejecución del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 13915.4.2. Resultados del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . 14015.4.3. Conclusiones del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 143

15.5. Experimentos sobre navegación autónoma del UAV . . . . . . . . . . . . . . . . . 14315.5.1. Ejecución del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 14415.5.2. Resultados del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . 14415.5.3. Conclusiones del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 147

V CONCLUSIONES 149

16.Conclusiones 151

16.1. Ventajas de la arquitectura cognitiva híbrida . . . . . . . . . . . . . . . . . . . . . 15216.2. Inconvenientes de la presente arquitectura cognitiva híbrida . . . . . . . . . . . . 154

17.Futuras líneas de investigación 157

VI ANEXOS 159

18.Anexo A: Detalles de implementación 161

18.1. Detalles de implementación utilizando AR.Drone SDK . . . . . . . . . . . . . . . 162

16 ÍNDICE GENERAL

18.2. Detalles de implementación utilizando OpenCV . . . . . . . . . . . . . . . . . . . 16318.3. Detalles de implementación utilizando FANN . . . . . . . . . . . . . . . . . . . . 163

19.Anexo B: Con�guración del AR.Drone 2.0 165

Bibliografía 166

Índice de �guras

1.1. Mecanismo híbrido de control mediante la conmutación de modos de navegacióndel UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.2. Correlación directa entre el valor de la entropía de una imagen con el número delandmarks que aparecen en la misma . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1. Paradigma de desarrollo manual de robots . . . . . . . . . . . . . . . . . . . . . . 342.2. Paradigma de desarrollo autónomo de robots . . . . . . . . . . . . . . . . . . . . 342.3. El proyecto SAIL (izquierda) y el proyecto Dav (derecha) como ejemplos de robots

de desarrollo[63] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.4. Comparativa entre modelo directo y modelo inverso . . . . . . . . . . . . . . . . . 372.5. Sección de un cerebro humano, especi�cando la relación entre los mecanismos de

control con el cerebro y cerebelo. Figura basada en la referencia:[3] . . . . . . . . 382.6. Implementación del modelo interno de control[64] . . . . . . . . . . . . . . . . . . 39

3.1. Modelos de UAV (de izquierda a derecha: MQ-9 Reaper, micro UAV y quadcopter) 413.2. Maniobras de rotación sobre los 3 ejes del UAV . . . . . . . . . . . . . . . . . . . 44

4.1. AR.Drone 2.0 empleado en las pruebas experimentales . . . . . . . . . . . . . . . 484.2. Niveles de abstracción de la librería AR.Drone SDK[52] . . . . . . . . . . . . . . 484.3. Ejes de rotación del AR.Drone[52] . . . . . . . . . . . . . . . . . . . . . . . . . . 494.4. Sensores y actuadores del AR.Drone 2.0 (http://ardrone2.parrot.com/) . . . . 504.5. Modo de navegación indoor y exterior . . . . . . . . . . . . . . . . . . . . . . . . 504.6. Ángulos de rotación del AR.Drone sobre sus ejes (x, y, z) . . . . . . . . . . . . . . 514.7. Velocidades de rotación sobre los ejes del AR.Drone[52] . . . . . . . . . . . . . . . 52

5.1. Estructura general de la Arquitectura Cognitiva Híbrida . . . . . . . . . . . . . . 565.2. Hilos de ejecución y módulos de la arquitectura . . . . . . . . . . . . . . . . . . . 585.3. Conmutación de modos de navegación visual . . . . . . . . . . . . . . . . . . . . . 62

6.1. Mapa topológico visual basado en landmarks . . . . . . . . . . . . . . . . . . . . 666.2. Especi�cación de maniobras del UAV sobre los arcos del mapa topológico . . . . 67

7.1. Procesos de entrenamiento inicial y operativo del UAV . . . . . . . . . . . . . . . 707.2. Preparación del dataset para el entrenamiento inicial del UAV . . . . . . . . . . . 727.3. Dataset del landmark 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737.4. Dataset del landmark 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

17

18 ÍNDICE DE FIGURAS

7.5. Dataset del landmark 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.6. Dataset del landmark 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.7. Ejemplo del clasi�cador K-NN: cuando K = 3 la clase de la imagen será el land-

mark 3; por el contrario cuando K = 5 será el landmark 2 la clase más similar conrespecto al dataset utilizado por el clasi�cador . . . . . . . . . . . . . . . . . . . . 76

8.1. Cálculo de la entropía en marcos dentro del campo visual del UAV . . . . . . . . 808.2. Búsqueda basada en la maximización de la entropía de las imágenes, para la

localización de posibles landmarks en el entorno de navegación . . . . . . . . . . 828.3. Evita el obstáculo mediante giro a la derecha . . . . . . . . . . . . . . . . . . . . 838.4. Evita el obstáculo mediante giro a la izquierda . . . . . . . . . . . . . . . . . . . 848.5. Evita el obstáculo situado enfrente del UAV mediante giro a la derecha ó izquierda 84

9.1. Mecanismo de control dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889.2. Red neuronal del controlador FeedForward . . . . . . . . . . . . . . . . . . . . . . 919.3. Grá�co que muestra la distancia entre uff y ufb con respecto al grado de madurez

del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939.4. Grá�co que muestra la evolución de los pesos wfb y wff a lo largo del tiempo de

desarrollo del UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

10.1. Feedback-error learning[28] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

12.1. Modelo de comportamientos del UAV . . . . . . . . . . . . . . . . . . . . . . . . . 10712.2. Diseño del modelo de comportamientos del UAV . . . . . . . . . . . . . . . . . . 10812.3. Diseño de comportamiento para la navegación autónoma del UAV . . . . . . . . . 109

13.1. Librería de comportamientos del UAV . . . . . . . . . . . . . . . . . . . . . . . . 11113.2. Comportamiento de exploración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11213.3. Comportamiento de aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . . 11313.4. Comportamiento de identi�cación . . . . . . . . . . . . . . . . . . . . . . . . . . . 11413.5. Comportamiento para evitar obstáculos . . . . . . . . . . . . . . . . . . . . . . . 11513.6. Comportamiento de control de altitud . . . . . . . . . . . . . . . . . . . . . . . . 116

14.1. Esquema del entorno experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 12114.2. Cuadro de mando del UAV: cuadrante visual y de trazabilidad . . . . . . . . . . 12314.3. Mapa topológico utilizado durante las pruebas experimentales . . . . . . . . . . . 125

15.1. Proceso de evaluación del clasi�cador basado en la técnica Leave-one-out . . . . . 12815.2. Matriz de confusión como resultado del Leave-one-out . . . . . . . . . . . . . . . 12915.3. Secuencia de imágenes en la maniobra de exploración del UAV . . . . . . . . . . 13115.4. Valores de navegación para la maniobra de exploración . . . . . . . . . . . . . . . 13215.5. Secuencia de imágenes en la maniobra para evitar obstáculos del UAV . . . . . . 13315.6. Valores de navegación para la maniobra de evitación de obstáculos . . . . . . . . 13515.7. Secuencia de imágenes de la maniobra de aproximación (1.x), y de la posterior

maniobra de identi�cación (2.x) del UAV. Se indica en la imagen (2.a) la iteración kexacta en donde el UAV alcanza el radio de aproximación Lra asociado al lanmarkL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

ÍNDICE DE FIGURAS 19

15.8. Grá�co que muestra la reducción del valor del error ε durante la maniobra de apro-ximación del UAV hacia el landmark L, y la posterior maniobra de identi�cacióndel mismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

15.9. Grá�co de las señales de control {pitch, gaz, yaw} generadas en cada iteración kdurante las maniobras de aproximación e identi�cación del UAV . . . . . . . . . . 138

15.10.Grá�cos relativos a los trials experimentales ejecutados, que demuestran mediantelas diferencias entre las señales ufb y uff durante la ejecución de una mismamaniobra, la evolución favorable del aprendizaje del UAV. . . . . . . . . . . . . . 141

15.11.Grá�co que demuestra la mejora continua del grado de madurez del UAV, a lolargo de los diferentes trials experimentales ejecutados. . . . . . . . . . . . . . . . 142

15.12.Tabla que muestra diferentes con�guraciones de wfby wff , junto con la iteraciónk correspondiente al momento en el cual el UAV alcanza el objetivo establecido. . 142

15.13.Navegación autónoma indoor del UAV mediante mapas topológicos visuales . . . 14415.14.Grá�cos de evolución de los cálculos entrópicos {Hi, Hc, Hd} y del error ε obtenidos

durante la navegación autónoma del UAV . . . . . . . . . . . . . . . . . . . . . . 14515.15.Grá�co de las señales de control {pitch, gaz, yaw} generadas en cada iteración k

durante la navegación autónoma del UAV . . . . . . . . . . . . . . . . . . . . . . 146

20 ÍNDICE DE FIGURAS

Índice de algoritmos

5.1. Pseudocódigo del Bucle de control de lazo cerrado (Hilo de Control) para el UAV 615.2. Pseudocódigo de la conmutación de los modos de navegación visual . . . . . . . . 637.1. Pseudocódgio de carga inicial del dataset de landmarks en el UAV . . . . . . . . 757.2. Pseudocódigo del algoritmo de clasi�cación K-NN . . . . . . . . . . . . . . . . . . 778.1. Pseudocódigo del cálculo de la entropía para un histograma de la imagen capturada

por el UAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828.2. Pseudocódigo de los cálculos realizados dentro del módulo cognitivo . . . . . . . . 859.1. Pseudocódigo de los cálculos realizados por el controlador FeedBack . . . . . . . 909.2. Pseudocódigo de los cálculos realizados por el controlador FeedForward . . . . . . 9210.1. Pseudocódigo del algoritmo de aprendizaje basado en el modelo Feedback-error

learning[28] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9910.2. Algoritmo aprendizaje basado en el paradigma Teachable Robots[57] . . . . . . . 10011.1. Pseudocódigo de la validación y envio de señales de control al UAV . . . . . . . . 10215.1. Pseudocódigo del algoritmo de prueba Leave-one-out . . . . . . . . . . . . . . . . 12918.1. Referencias a librerías utilizadas por la arquitectura . . . . . . . . . . . . . . . . . 16118.2. Declaración de un hilo de ejecución empleando la librería AR.Drone SDK . . . . 16218.3. Protección de código mediante regiones críticas, empleando la librería AR.Drone

SDK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16218.4. Funciones del AR.Drone SDK utilizadas . . . . . . . . . . . . . . . . . . . . . . . 16218.5. Función para pausar el hilo de ejecución, empleando la librería AR.Drone SDK . 16318.6. Funciones para el procesamiento y tratamiento de imágenes mediante OpenCV[6] 16318.7. Implementación del dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16318.8. Funciones FANN utilizadas en el control FeedForward . . . . . . . . . . . . . . . 16318.9. Parametrización e inicialización mediante FANN de la red neuronal del control

FeedForward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

21

22 ÍNDICE DE ALGORITMOS

Nomenclatura

Developmental Robots Robots de desarrollo

FANN Fast Arti�cial Neural Network Library

FeedBack Controlador reactivo

FeedForward Controlador anticipativo

Gaz Señal de control utilizada para realizar el control de altitud

K-NN K Nearest Neighbours

OpenCV Open source Computer Vision

Pitch Señal de control utilizada para realizar una maniobra de cabeceo

ra radio de aproximación

RGB Red Green Blue

Roll Señal de control utilizada para realizar una maniobra de alabeo

UAV Unmanned Aerial Vehicle

Yaw Señal de control utilizada para realizar una maniobra de guiñada

23

24 ÍNDICE DE ALGORITMOS

Parte I

INTRODUCCIÓN

25

Capítulo 1

Introducción

La investigación sobre navegación de robots autónomos está enmarcada dentro de una delas ramas de la robótica que mayor número de aportaciones realiza, para la creación de nuevassoluciones funcionales que �nalmente puedan ser llevadas al mundo real.

La mayoría de dichas líneas de investigación están enfocadas a resolver problemas de nave-gación en donde el robot se desenvuelve en un entorno de dos dimensiones, utilizando para suejecución un sistema de coordenadas (x, y) que determinarán su posición en cada uno de losestados a lo largo de su navegación. Siguiendo este enfoque y para dar respuesta a sistemas demayor complejidad, se requiere de una arquitectura que aporte la inteligencia necesaria al robotque necesite operar dentro de un entorno de tres dimensiones, en donde se requieran tener encuenta el control de las coordenadas (x, y, z) durante su navegación.

En base a dicho planteamiento, la presente tesis centrará sus objetivos en dar una soluciónpara la navegación autónoma de un robot aéreo dentro de un entorno complejo de tres dimensio-nes, basándose en técnicas de inteligencia arti�cial para el estudio de sus capacidades sensorialesy la construcción de comportamientos inteligentes que le permitan dicha operabilidad. La infor-mación sensorial recopilada dentro de dicho entorno será principalmente visual, a partir de lacual se desencadenarán diferentes maniobras de navegación en base a los comportamientos quese activen en cada momento para alcanzar los objetivos establecidos.

La plataforma robótica empleada en la presente tesis está basada en los conocidos comovehículos aéreos no tripulados (UAV), los cuales necesitan de un controlador con la su�cientecapacidad como para dotar a dichos robots de una navegación con un alto grado de estabilidaddentro de un entorno tan complejo como el aéreo; dicha complejidad viene determinada porlos numerosos parámetros que maneja el modelo para su ejecución, así como de los diferentesfenómenos ambientales que puedan afectarle.

1.1. Arquitectura cognitiva híbrida

Como solución a los antecedentes planteados, la presente tesis recoge una estrategia novedosapara la navegación autónoma de UAVs, basada en la construcción de una arquitectura cognitivahíbrida que mediante la utilización de mapas topológicos visuales[43], proporcione al robot lacapacidad de alcanzar objetivos previamente establecidos dentro de un determinado entorno.

Los mapas topológicos visuales están basados en un conjunto de landmarks interconectadosen forma de grado, en donde cada nodo representará un landmark existente dentro del entorno

27

28 CAPÍTULO 1. INTRODUCCIÓN

de navegación, y los arcos entre nodos las maniobras especí�cas que el UAV deberá ejecutar paraalcanzar el siguiente landmark y poder cumplir con sus objetivos.

Durante la navegación autónoma del UAV, puede darse el caso de que éste se encuentre enestados desconocidos en donde no es capaz de localizar ninguno de los landmarks especi�cadosen el mapa topológico empleado, o por el contrario, que si sea capaz de identi�car alguno de losmismos.

Para contemplar la totalidad de los posibles escenarios, en la presente tesis se ha diseñado unmecanismo híbrido de control, en donde dependiendo del conocimiento que se tenga del escenario,que el UAV pueda conmutar entre diferentes modalidades de navegación.

Figura 1.1: Mecanismo híbrido de control mediante la conmutación de modos de navegación delUAV

En el caso de que el UAV sea incapaz de localizar ningún landmark de los establecidos dentrodel mapa topológico, se considera que se encuentra dentro de un estado desconocido, por lo quela arquitectura conmutará a un modo de navegación denominado Search Mode. Dicho modoutiliza como técnica cognitiva la entropía de la imagen visual capturada; la idea principal detrásde dicha búsqueda basada en la entropía, es la existencia de una correlación directa entre laentropía de una imagen y la probabilidad de que contenga uno ó varios objetos en la misma [20].De esta forma, cuando el valor de la entropía de la imagen capturada es baja, la probabilidad deque ésta contenga un landmark es baja; por el contrario, a medida que la entropía de la imagencrece, la probabilidad de que ésta contenga uno ó varios landmarks también crecerá.

A partir de dichos cálculos entrópicos, el UAV podrá redirigir su navegación hacia nuevosestados que puedan contener posibles landmarks candidatos, a través de un proceso de maximi-zación de la entropía.

Existen estudios en donde dicho modo de navegación es sustituido mediante una búsquedaaleatoria de landmarks, en donde el robot explora el entorno para la detección de nuevos land-marks siguiendo una estrategia puramente aleatoria, la cual es menos e�ciente que la estrategiade maximización de la entropía para la búsqueda de nuevos landmarks planteada en la presentetesis.

Cuando el UAV se aproxima hacia estados que contienen posibles landmarks candidatos,la arquitectura conmutará al modo denominado Homing Mode, basado en un control dual queimplementa un controlador FeedFoward/FeedBack. Dicho modo es el encargado de redirigir lanavegación del UAV hacia el landmark localizado, proporcionando las señales de control más

1.2. PARADIGMAS DE ROBÓTICA EMPLEADOS 29

Figura 1.2: Correlación directa entre el valor de la entropía de una imagen con el número delandmarks que aparecen en la misma

adecuadas, y que permitan una reducción continua del error existente entre la imagen capturadaen cada momento, con respecto a la imagen objetivo asociada al landmark en cuestión dentrodel mapa topológico.

La presente arquitectura cognitiva híbrida necesita responder a un serie de requisitos deobligado cumplimiento, como son el proporcionar un control y aprendizaje del UAV en tiemporeal, obteniendo de ésta forma un aumento de su grado de madurez, necesario para llevar a cabo suoperativa de forma cada vez más optimizada dentro de un determinado entorno. Adicionalmente,se debe garantizar la robustez del sistema en todo momento, estableciendo las salvaguardas quesean necesarias para proteger la seguridad e integridad del entorno de ejecución, así como la delpropio UAV.

1.2. Paradigmas de robótica empleados

Las directrices de diseño utilizadas sobre la arquitectura, están basadas en un conjunto deparadigmas que ya han sido previamente utilizados en diferentes estudios y trabajos dentro delárea de la robótica. En este caso, se han agrupado sus diferentes aportaciones con el objetivode responder principalmente a los requisitos demandados por la solución planteada, como son elcontrol y aprendizaje en tiempo real del UAV.

En los siguientes apartados se presentan los principales paradigmas de robótica empleadosen la presente tesis.

1.2.1. Robots de desarrollo

El paradigma de robots de desarrollo (Developmental Robots[63, 59, 60]) se basa en la de�ni-ción de un proceso de aprendizaje en tiempo real y que de forma adaptativa con su entorno, dotaal robot de la capacidad para la adquisición de nuevo conocimiento proveniente de su entorno deoperación. Este paradigma di�ere de otros de sistemas robóticos, en donde se ejecuta una faseprevia de programación del robot para proporcionarle la totalidad del conocimiento, que deberá


emplear durante su posterior fase de operación, durante la cual el robot hará uso del conocimien-to previamente programado. Éste planteamiento de programación previa ó manual del robot noencaja con los requisitos exigidos por la arquitectura cognitiva, ya que al tratarse de un sistemaen tiempo real, necesita de la autonomía y de la adaptabilidad al entorno que proporciona elparadigma de robots de desarrollo.

De esta forma, en la presente tesis se considera al UAV como un robot de desarrollo, im-plementando para ello de un aprendizaje continuo durante su tiempo operativo, y adaptable adiferentes entornos lo que le proporcionará un alto grado de escalabilidad y adaptación al medio.

1.2.2. Modelos internos

La navegación autónoma de un UAV necesita de un sistema de control capaz de guiarlo através de un entorno que inicialmente es completamente desconocido, y que requiere por tantode un aprendizaje continuo para reducir de forma progresiva el error ε existente entre el estadoactual en donde está ubicado con respecto a su objetivo �nal. Dicho proceso requerirá de unaimplementación que en base a dicho error, proceda al cálculo de las señales de control adecuadaspara proporcionárselas al UAV y alcanzar sus objetivos. Dado que inicialmente el sistema decontrol será inmaduro, será necesario un control de tipo reactivo que emplee únicamente comoentrada el error ε, y que posteriormente pueda ser complementado mediante un control de tipopreventivo a través del conocimiento que ha sido adquirido durante su operativa.

De esta forma, el paradigma de modelos internos [29] encaja con los requisitos demandadospor la arquitectura para la implementación de un control dual, ya que permite llevar a cabouna optimización de las señales de control generadas en el tiempo, así como de proporcionar unmecanismo adaptativo en la adquisición de nuevo conocimiento [28] con respecto a su entornode ejecución. Adicionalmente le dota al UAV de la robustez necesaria, al combinarse un controlreactivo con un control preventivo dentro del control dual, garantizando la disponibilidad delsistema en todo momento.

El paradigma de modelos internos está basado en estudios de neurociencia relacionados conla actividad cerebelar [3], en donde se estudia como el sistema nervioso central es capaz deinicialmente adquirir nuevo conocimiento de forma reactiva, para su posterior consolidación sobreel cerebelo, generando de ésta forma automatismos. Dicho planteamiento, cubre perfectamentelas necesidades de la arquitectura cognitiva, ya que responde con los requisitos especi�cados querequieren de un aprendizaje en tiempo real del UAV durante su navegación autónoma.

1.3. Plan de trabajo

El plan de trabajo de�nido para alcanzar los objetivos especi�cados en la tesis, está estruc-turado en la ejecución de las siguientes fases principales:

1. Especi�cación de los antecedentes, objetivos, requisitos y restricciones del problema a re-solver, para establecer la trazabilidad adecuada con la solución a implementar.

2. Recopilación y análisis de información existente relativa al problema planteado, revisandopara ello el estado del arte de la navegación autónoma de robots, los diferentes paradigmasque son de aplicación, así como los trabajos relacionados con plataformas robóticas deUAVs.

1.4. ESTRUCTURA DE LA TESIS 31

3. Diseño de la solución al problema mediante una arquitectura cognitiva híbrida basada enla entropía y en un control dual para la navegación de UAVs, utilizando como herramientamapas topológicos visuales que le son proporcionados de forma previa al robot.

4. Diseño de una librería de comportamientos que tomando como entrada la informaciónsensorial proveniente del entorno de operación, proporcionará como salida las señales decontrol más adecuadas para su envío al UAV. Se establecerán las relaciones combinatoriasmás adecuadas en la activación de los diferentes comportamientos.

5. Implantación de la arquitectura en base al diseño realizado se llevará a cabo la implemen-tación de la arquitectura utilizando librerías de procesamiento y tratamiento de imágenes,machine learning y de comunicación con la plataforma robótica utilizada (AR.Drone).

6. Pruebas experimentales para veri�car la trazabilidad establecida y validar la arquitecturacognitiva para su aplicación en el mundo real, recopilando todas aquellas evidencias y datosque sean necesarios.

7. Análisis de los resultados experimentales obtenidos, con el objetivo de extraer conclusionesy poder trazar líneas futuras de investigación de la tesis.

1.4. Estructura de la tesis

La tesis está estructurada en una serie de partes diferenciadas, a lo largo de las cuales se de-tallan exhaustivamente los diferentes objetivos, diseño, implementación, pruebas experimentalesy conclusiones �nales de la arquitectura cognitiva híbrida.

La primera parte (Parte I), engloba la presente parte introductoria de la tesis, en donde sepresentan los diferentes objetivos y requisitos a cumplir por la arquitectura cognitiva híbrida, losparadigmas que serán empleados durante el diseño de la solución, así como de las plataformasrobóticas de UAV que serán utilizadas.

Posteriormente se detallará la arquitectura cognitiva híbrida (Parte II) como solución fun-cional a los problemas planteados, en donde se mostrará el detalle exhaustivo de los diferentesmódulos que componen la arquitectura y la interrelación entre los mismos.

La parte relativa a la librería de comportamientos (Parte III), presenta el esquema completode los comportamientos que utilizará el UAV para su navegación autónoma.

Una vez presentada la arquitectura y la librería de comportamientos, se procederá a presentarlas pruebas experimentales ejecutadas, asi como los resultados obtenidos de las mismas (ParteIV), que demostrarán la viabilidad de la arquitectura para su aplicación en situaciones reales.

A continuación se mostrarán las conclusiones (Parte V) extraídas de la realización de lapresente tesis, además de las futuras líneas de investigación que podrán llevarse a cabo a partirdel trabajo aquí presentado.

Finalmente, la última parte (Parte VI) de la tesis engloba a modo de anexo, los detalles deimplementación de la arquitectura cognitiva híbrida.

Capítulo 2

Estado del arte

En el presente capítulo se detallará el estado del arte relacionado con la navegación autónomade UAVs, objetivo de la arquitectura cognitiva híbrida de ésta tesis; para ello, se presentan losdiferentes paradigmas robóticos sobre los cuales se basa el diseño de la misma, procediendoa extraer directrices relacionadas con mecanismos de control y aprendizaje en tiempo real aconsiderar durante su diseño e implementación.

Se presenta el paradigma para la construcción de robots de desarrollo (developmental robots),basado en una adaptación constante del robot con el entorno en donde opera. Como técnica deimplementación para el proceso de aprendizaje adaptativo y en tiempo real, se presenta unasolución basada en el comportamiento cerebelar a través de los denominados modelos internos(internal models), en donde se de�ne una serie de controles que de forma combinada proporciona-rán al robot de las señales de control más adecuadas en cada momento, además de proporcionarintrínsecamente un autoaprendizaje del sistema.

2.1. Developmental Robots

El paradigma Developmental Robots [39] tiene como objetivo la construcción de robots in-teligentes mediante una adaptación de los mismos con respecto al entorno en donde operan,llevando a cabo un proceso de aprendizaje autónomo, en tiempo real y de forma adaptativasegún la información sensorial que es capaz de recopilar. Entre los estudios y de�niciones delpresente paradigma para la construcción de robots de desarrollo, destacan los trabajos de Weng[63], en donde se presentan los requisitos y directrices a cumplir para su diseño, así como deejemplos concretos de implementaciones llevadas a cabo.

Basado en el mismo proceso de aprendizaje que un humano lleva a cabo desde su infanciahasta su vida adulta, la teoría relacionada con el presente paradigma, especi�ca los mecanismosde cómo construir (desarrollar) la mente de un robot de forma autónoma y en tiempo real,mediante una interacción continua y adaptativa con el entorno que lo rodea.

Existe un proceso clásico de construcción de robots (Figura 2.1) en donde de forma manual,un diseñador realiza la programación del robot en una primera fase de forma completa (fase dedesarrollo manual), en base al conocimiento que tiene él mismo sobre el entorno en donde operaráel robot.

33

34 CAPÍTULO 2. ESTADO DEL ARTE

Figura 2.1: Paradigma de desarrollo manual de robots

En dicho proceso clásico, el robot adquirirá exclusivamente el conocimiento aportado de for-ma previa por el diseñador, acorde con el conocimiento que tenga para la resolución del problema,características del entorno, y parametrización necesaria de los algoritmos implementados; todoel proceso dependerá exclusivamente de la programación implementada en dicha fase. Posterior-mente en la fase operativa (fase automática de ejecución), el robot utilizará exclusivamente lasreglas preestablecidas para explotar el conocimiento que le ha sido facilitado previamente porel diseñador, llevando a cabo un proceso continuo en el tiempo basado en recopilar informaciónsensorial y aplicar las señales motoras establecidas. En el caso de que sea necesaria modi�carla parametrización del mismo, el diseñador detendría la ejecución del robot, y procedería a sureprogramación, como paso necesario antes de su vuelta a la ejecución.

Este enfoque manual de programación de robots se encuentra con multitud de di�cultades,principalmente en aquellos casos complejos en donde se necesiten habilidades ó conocimientosespeciales que únicamente se pueden adquirir durante la operativa del robot, y que el diseñadordesconoce durante la fase previa; el entorno, los elementos que lo componen, las condicionesambientales, etc, pueden variar a lo largo del tiempo, por lo que para la construcción de unrobot robusto se necesita de un aprendizaje más adaptativo con respecto a dichas situacionescambiantes que puede encontrar en su entorno operativo.

Figura 2.2: Paradigma de desarrollo autónomo de robots

2.1. DEVELOPMENTAL ROBOTS 35

Dicho aprendizaje adaptativo (Figura 2.2) es la base del presente paradigma de robots dedesarrollo, ya que permite que el robot adquiera el conocimiento más conveniente en base suinteracción continua con el entorno. Inicialmente, el diseñador facilitará cierto conocimientoprevio (fase de construcción) que utilizará en las primeras iteraciones de ejecución, y que severá complementado durante la fase de ejecución (fase de desarrollo autónomo). Durante dichafase de desarrollo, el robot llevará a cabo un entrenamiento continuo, dependiendo de nuevassituaciones ó estados que pueda identi�car a lo largo de su operativa, y que de forma autónoma,irá adquiriendo nuevo conocimiento que le aportará de la experiencia necesaria para alcanzar unnivel alto de automatismo y optimización en el desarrollo de su actividad para lograr alcanzarsus objetivos.

Dichos conceptos se puede mapear con el aprendizaje humano: la fase inicial de construccióncon el nacimiento de un niño (t = 0), en donde se posee un conocimiento inicial muy básico;a medida que el niño interactúa con su entorno (t > 0), va adquiriendo nuevo conocimiento ymejorando el que inicialmente poseía.

Figura 2.3: El proyecto SAIL (izquierda) y el proyecto Dav (derecha) como ejemplos de robotsde desarrollo[63]

Existen algunas alternativas a dicho paradigma en donde interviene la �gura del supervisordurante la fase de desarrollo, ya que mediante un aprendizaje supervisado, intervendría en de-terminadas situaciones (generalmente críticas ó de mayor complejidad) para que a partir de unadeterminada información sensorial, proporcionar al robot las señales de control correspondientesque debiera ejecutar para llevar a cabo una tarea especí�ca. Llevado al caso del aprendizajehumano comentado anteriormente, inicialmente un niño pequeño está supervisado casi comple-tamente por sus padres, y a medida que va pasando el tiempo, estas tareas de supervisión vandisminuyendo, hasta valerse por sí mismo.


Una vez que el robot haya adquirido el conocimiento necesario para llevar a cabo dichastareas, el supervisor deja por tanto de intervenir dentro del bucle de ejecución, dejando al robotde desarrollo ejecutar las tareas adquiridas de forma completamente autónoma.

Existen diferentes ejemplos de implementación de dicho paradigma de robots de desarrollosobre plataformas robóticas reales, como son las diseñadas por Weng [63], mostradas en la Figura2.3. En dichos proyectos, se llevó a cabo un aprendizaje supervisado inicial, que fue disminuyendotras un número reducido de iteraciones del robot con su entorno, hasta alcanzar la autonomíanecesaria para su desarrollo autónomo. El paradigma de robots de desarrollo se ha empleadoen multitud de líneas de investigación [9, 44], considerándose como una opción válida para laconstrucción de robots inteligentes.

2.2. Internal Models

Cada día son más los estudios experimentales en donde se buscan sinergias entre la neuro-ciencia y las ciencias computacionales, obteniendo en muchos casos resultados positivos a travésdel estudio de las diferentes partes que componen el sistema nervioso central [30]. A su vez,dentro de la teoría de control existen diferentes modelos [27] que a partir de un conjunto de se-ñales sensoriales, se obtienen como respuesta resultados que pueden ser utilizados para controlarde forma efectiva un agente robótico. De esta forma, nace lo que se conoce como neurocienciacomputacional [25], en donde la funcionalidad del sistema nervioso central se puede implementarcomputacionalmente a través de uno de éstos modelos de control.

La presente tesis se enfocará concretamente en los estudios realizados sobre el cerebelo, yaque ha sido demostrada[65, 29] la posibilidad de que éste pueda basarse en un modelo internoimplementable computacionalmente [24, 23], y utilizado en aquellos sistemas regidos por la teoríade control. En base a dichos estudios se ha determinado, que el circuito del cerebelo implementaun modelo inverso de control, el cual tiene un carácter predictivo ante determinadas situacionesy/o escenarios.

Para comprender la funcionalidad de dicho modelo inverso, se comparará con un modelo másbásico como es el modelo directo (Figura 2.4).

El modelo directo utiliza como entradas I(k), que se corresponde con un determinado estadoen un determinado momento k, y u(k) como señal de control. De esta forma, si el robot está enun determinado estado y se le aplica una determinada señal motora, el controlador será capazde proporcionar como salida el estado destino que alcanzará I(k + 1). En el caso de un modeloinverso, el razonamiento cambia, ya que tiene el carácter predictivo demandado por el modelointerno implementado en el cerebelo.

Por su parte, el modelo inverso parte del estado actual I(k) en un momento dado k, así comodel estado objetivo que el robot quiere alcanzar I(k + 1), por lo que de forma predictiva, sucontrolador es capaz de proporcionar como salida la señal motora u(k) que debe aplicar en esemomento k el robot para alcanzar el objetivo establecido.

2.2. INTERNAL MODELS 37

Figura 2.4: Comparativa entre modelo directo y modelo inverso

De esta forma, es necesario que el modelo interno del sistema de control, implemente el mode-lo inverso detallado para la parte cerebelar del sistema. Por otro lado, para que el modelo inversopueda ser útil, el modelo interno a implementar deberá estar compuesto por un elemento adicio-nal, capaz de proporcionarle el conocimiento necesario para su adaptabilidad a un determinadoentorno, actividad que lleva a cabo el cerebro de forma reactiva con respecto a la informaciónsensorial recopilada I(k).

Cuando el cerebro recibe una señal sensorial I(k), se activan las regiones ó recursos neuronalesmás adecuadas para su tratamiento, con el objetivo de reducir el error existente entre dichaentrada sensorial I(k), con respecto al objetivo a alcanzar I(k + 1); como salida se obtendráslas señales motoras u(k) más adecuadas en cada momento k. Dichas señales motoras podránser consolidadas de forma gradual a lo largo del tiempo sobre el modelo inverso del cerebelo,adquiriendo éste un conjunto de automatismos que podrá utilizar posteriormente cuando revisitelos mismos estados de forma predictiva [22, 21], obteniendo de ésta forma un modelo internopara la generación de señales de control combinadas.

La implementación computacional de dichos modelos internos estará compuesta por amboscontroladores, el predictivo ó anticipativo, y el controlador de tipo reactivo. Existen estudios lle-vados a cabo por Kawato [28, 65] en donde se denominan dichos controladores como FeedForwardy FeedBack respectivamente, los cuales proporcionan una señal de control combinada a partir desus señales de control individuales. Cuando se necesita controlar un sistema complejo en tiemporeal, un controlador puramente feedback puede incurrir en pequeños retardos que afecten a lapropia operativa del sistema, por lo que se tiene que buscar un punto de equilibrio dentro delmodelo interno, en donde la señal combinada (predictiva y reactiva) aporte la robustez necesariaal robot, aprovechándose para ello de las ventajas aportadas por ambos tipos de controladores.

Como principales características a mencionar para cada uno de los controladores, cabe des-tacar las enumeradas a continuación:


Figura 2.5: Sección de un cerebro humano, especi�cando la relación entre los mecanismos decontrol con el cerebro y cerebelo. Figura basada en la referencia:[3]

Controlador Feedforward:

� Predictivo

� Adaptativo

� Rápido

� Grano grueso

Control FeedBack:

� Reactivo

� Adaptativo

� Lento

� Grano �no

2.2. INTERNAL MODELS 39

Figura 2.6: Implementación del modelo interno de control[64]

La implementación computacional del modelo interno se llevará a cabo mediante la construc-ción de ambos controladores (FeedForward y FeedBack), estableciendo las conexiones necesariaspara llevar a cabo la consolidación del conocimiento adquirido durante su ejecución. Se estable-cerá un objetivo deseado a alcanzar por el sistema, el cual se comparará con el estado actualdel robot en cada una de las iteraciones del bucle de control. A partir de dicha comparación seobtendrá un error que será empleado por parte del controlador FeedBack para el cálculo reactivode la señal motora feedback más adecuada que será utilizada por el sistema. De forma paralela, seobtiene mediante el controlador FeedForward la señal correspondiente mediante el modelo inversoimplementado, utilizando como entrada el estado deseado que haya sido establecido inicialmente.

Finalmente, el modelo interno combinará ambas señales de control generadas por separado,en una única señal motora que será aplicada sobre el objeto a controlar.

Capítulo 3

Vehículos aéreos no tripulados (UAV)

Un vehículo aéreo no tripulado ó UAV (Unmanned Aerial Vehicle) es un sistema de vuelo decarácter autónomo, por la particularidad de que no es necesario ningún tipo de supervisor ó pilotodurante su navegación. El UAV se puede considerar igualmente como un robot autónomo, el cualnecesitará de una arquitectura de control para a partir de la información sensorial recopilada desu entorno, generar las señales de control más adecuadas en cada momento durante su navegación.

Figura 3.1: Modelos de UAV (de izquierda a derecha: MQ-9 Reaper, micro UAV y quadcopter)

Todo UAV deberá llevar a bordo un conjunto de sensores y actuadores para poder interactuarcon el entorno en donde desencadenará su funcionamiento, los cuales facilitarán su capacidad depercepción así como de los mecanismos para desenvolverse por el mismo. La particularidad enel control de un UAV con respecto a otros tipos de robots autónomos, es la consideración de lastres coordinadas (x, y, z) dentro del entorno, y por consiguiente, el control de una navegaciónautónoma en 3 dimensiones del robot.

Son muchas las aplicaciones de UAV, siendo mayoritariamente empleados en acciones queimpliquen un riesgo para el piloto y la posible tripulación. Históricamente los UAV han sidoaeronaves controladas remotamente, los cuales carecían del carácter de autonomía que más re-cientemente están tomando; es éste último tipo sobre el cual se enfocará la presente tesis. Otrasaplicaciones de un UAV son labores de seguridad civil, reconocimiento, acciones militares, accesoa lugares complicados, etc.

Los UAV pueden tomar diferentes morfologías, desde aviones de diferente fuselaje, helicóp-teros / multicópteros, hasta pequeños micro UAV basados en el vuelo de diferentes pájaros y/oinsectos.

41

42 CAPÍTULO 3. VEHÍCULOS AÉREOS NO TRIPULADOS (UAV)

3.1. Clasi�cación de un UAV

Los UAV pueden clasi�carse en base a las diferentes misiones para las cuales se les ha diseñado,entre las que se encuentran los siguientes tipos:

UAV de prueba: son empleados para simular terceros aviones dentro de un sistema dedefensa controlado.

UAV de reconocimiento: se encargan de recopilar información detallada relativa a un áreageográ�ca concreta ó sobre un objetivo previamente establecido.

UAV militares: son utilizados en con�ictos militares y acciones bélicas, llevando a cabomisiones muy peligrosas y de alto secreto.

UAV de rescate: su misión será la de ayudar, socorrer y rescatar a personas sobre zonas dedifícil acceso.

UAV de logística: se encargan del transporte de mercancías, en muchos casos en situacionesextremas.

UAV de uso comercial y civil: se utilizan para �nes comerciales, ocio y propósitos civiles.

UAV para la investigación: son utilizados para �nes de investigación y pruebas experimen-tales. Este último tipo es el empleado en la presente tesis.

3.2. Sensores de un UAV

Para poder controlar de forma autónoma un UAV, el modelo que lo implementa deberá pro-porcionar una serie de sensores, para poder llevar a cabo el proceso de captura de la informaciónsensorial necesaria, con respecto al entorno en donde se desenvuelve. Los sensores de un UAVestán generalmente relacionados con aspectos típicos de la instrumentalización de una aerona-ve, pudiendo recopilar datos relativos a su posición, aceleración, ángulos de giro, velocidad ycualquier otra componente dinámica que intervenga en su navegación.

De forma genérica, los principales sensores son los siguientes:

Longitud: valor en grados que indica su longitud sobre la Tierra.

Latitud: valor en grados que indica su latitud sobre la Tierra.

Altitud: valor métrico de la aeronave sobre la super�cie de su entorno.

Grados de giro: valores en grados sobre los giros realizados por el UAV sobre cada uno desus ejes (x, y, z).

Velocidad: indicador de la velocidad en cada momento del UAV.

Todos estos sensores pueden ser proporcionados por dispositivos de posicionamiento implemen-tados en el UAV, como pueden ser dispositivos GPS ó brújulas electrónicas, instalados a bordocomo parte de la instrumentalización. Lógicamente, a medida que el modelo del UAV se hace

3.3. ACTUADORES DE UN UAV 43

más complejo, pueden existir otros sensores más especí�cos, como pueden ser los sensores deproximidad, visión y análisis físico/químico del entorno.

El conjunto de sensores implantados en el UAV serán utilizados para la recopilación de lainformación sensorial del entorno, y cuyos valores servirán como entrada al controlador quese implemente, para �nalmente proceder al control del sistema robótico autónomo, y poderproporcionarle los valores relativos a las señales de control más adecuados.

3.3. Actuadores de un UAV

El controlador que proporciona la autonomía al UAV necesita como entrada los valores pro-porcionados por los sensores, siendo éstos recopilados, analizados y empleados para el cálculode los nuevas señales de control que se proporcionarán a los actuadores de los que dispone elUAV. Los actuadores que un UAV lleve a bordo, podrán variar dependiendo principalmente desu morfología; por ejemplo, los UAV basados en helicópteros poseen una estructura de motoresque hacen girar un conjunto de hélices, permitiendo despegar desde un punto �jo, volar, y trazarsu rumbo en base a una serie de ángulos de giro. Por otra parte, los UAVs basados en avionesemplean para ello alerones y timón como mecanismos para su navegación y cambios de rumbo.

Entre los actuadores genéricos de que dispone un UAV cabe destacar los siguientes:

Alerones: están situados en las alas de la aeronave, proporcionándole la capacidad de giro deizquierda a derecha de forma rápida. Los UAV basados en helicópteros no los implementan.

Timón: está situado en la parte trasera ó cola de la aeronave, encargándose de dotarle lacapacidad de variar su rumbo de forma suave. Los UAV basados en helicópteros no losimplementan.

Elevador: es el encargado de proporcionar la capacidad de aumentar ó disminuir la posiciónde altitud del UAV, variando para ello la potencia de los motores implementados.

Propulsor: es el control encargado de proporcionar potencia a los motores del UAV, exis-tiendo generalmente uno por cada motor del UAV.

Frenos: son los dispositivos encargados de reducir la potencia de la aeronave. En el casohelicópteros como UAV, podrán dotar de estabilidad al aparato sobre una misma posiciónen el aire.

Modelos más complejos de UAV pueden poseer actuadores más so�sticados, dependiendo muchodel tipo de misión que lleven a cabo y de la morfología para lo cual fueron diseñados.

3.4. Navegación de un UAV

Los mandos de vuelo que permiten la navegación de un UAV, son todos aquellos mecanismosintegrados en la aeronave (sensores y actuadores) cuyo objetivo es variar su orientación y posiciónen el entorno. En el presente apartado, se de�nen las distintas maniobras que un UAV es capazde realizar, para cual se presentan los diferentes ángulos de giro sobre sus ejes principales, enun especio de 3 dimensiones como es la navegación aérea. Todo UAV es capaz de realizar 3


posibles giros básicos alrededor de sus 3 ejes perpendiculares entre sí, cuyo punto de intersecciónó coordenada (0, 0, 0) está situado sobre el centro de gravedad de la aeronave.

Figura 3.2: Maniobras de rotación sobre los 3 ejes del UAV

Para identi�car de forma correcta cada una de las maniobras que el UAV puede llevar acabo, se denominará los 3 ejes de la siguiente forma: el eje transversal (Pitch), el eje longitudinal(Roll) y el eje vertical (Y aw); de esta forma, el UAV podrá realizar a lo largo de los mismos, lossiguientes tipos de maniobras posibles:

Cabeceo: Se trata del movimiento que realiza el UAV alrededor del eje transversal (Pitch).Dicho eje se extiende de punta a punta de los extremos de las alas de la aeronave,capacitando a ésta de poder modi�car la orientación, elevando ó bajando el morro delavión, produciendo en consecuencia, una variación de la altitud en el aire. El actuadorque se emplea para producir el cabeceo es el elevador, permitiendo un control de losgrados de inclinación durante la maniobra de cabeceo.

Alabeo: Cuando se produce una variación alrededor del eje longitudinal (Roll) del UAV sedesencadena un movimiento conocido como alabeo. El eje longitudinal se extiendedesde el morro hasta la cola del UAV, produciendo un movimiento de inclinación dela aeronave hacia la izquierda ó hacia la derecha. El actuador que se emplea parael alabeo son los alerones situados en las alas; cuando el alerón de una de las alassube, el alerón del otro ala baja para producir el giro lateral del UAV. De esta forma,cuando el alerón se ha �exionado hacia abajo produce un aumento de sustentaciónen su ala correspondiente, provocando el ascenso de la misma, mientras que el alerón

3.4. NAVEGACIÓN DE UN UAV 45

que es �exionado hacia arriba, produce en su ala una disminución de sustentación,motivando el descenso de la misma.

Guiñada: Los giros alrededor del eje vertical (Y aw) del UAV son conocidos como movimientosde guiñada. Se trata de un eje que pasa por el centro de gravedad del avión, siendoperpendicular a los ejes transversal y longitudinal. Dicho movimiento permite corregirel rumbo de la aeronave girando alrededor del mismo de izquierda a derecha. Elactuador que se emplea para conseguir la guiñada del UAV es el timón de direcciónó de cola, situado en la parte trasera de la aeronave.

Capítulo 4

AR.Drone

La plataforma robótica aérea que se utiliza durante la fase experimental de la presente tesiscomo UAV, es el nuevo quadricóptero de Parrot llamado AR.Drone. Se trata de un productocomercial orientado al ámbito profesional y de ocio, aunque cada vez son más los trabajo deinvestigación que lo utilizan como plataforma robótica experimental [34, 7], dada su capacidad deprogramación, así como de la integración con diferentes librerías relacionadas con la inteligenciaarti�cial y la visión por computadora, como puede ser OpenCV.

El AR.Drone es capaz de llevar a cabo una navegación supervisada por parte de un usuario,ó autónoma empleando un sistema de control como el diseñado en la presente tesis; en amboscasos la navegación se efectúa a través de los sensores de visión y altitud que lleva a bordo,ejecutando determinadas maniobras de movimiento a lo largo de sus 3 ejes (x, y, z), así como delcontrol de su altitud. Los actuadores que lleva implementados se corresponden con 4 motores detipo hélice, que dependiendo de su velocidad de rotación individual, consiguen llevar a cabo lasdiferentes maniobras y capacidades de despegar y aterrizar el UAV.

4.1. Descripción del AR.Drone 2.0

Se ha utilizado la última versión del producto a la fecha, el AR.Drone 2.0 dotado con capa-cidades visuales en alta de�nición a través de su cámara a bordo situada en la parte frontal delmismo, así como de un sistema de estabilización basado en la captura de imágenes que realizaotra segunda cámara de baja de�nición situada en la parte inferior del robot. Mediante dichossensores, el AR.Drone es capaz de mostrar al usuario de forma remota lo que en cada momentoestá visualizando, pudiendo el supervisor enviar determinadas operaciones de movimiento que se-rán asignadas a los 4 motores de tipo hélice que tiene implantados sobre una plataforma metálicaen forma de cruz.

El AR.Drone dispone de un conjunto de librerías (AR.Drone SDK) que permiten su pro-gramación, tanto para capturar las imágenes del entorno en donde está situado y obtenciónde datos de navegación internos, así como de las operaciones de envío de señales motoras pararealizar diferentes maniobras complejas. La presente arquitectura cognitiva hace uso de dichaslibrerías desde su módulo sensorial, control y actuador, invocando a las diferentes funciones queson necesarias en cada caso. La librería AR.Drone SDK está formada por una serie de nivelesinterrelacionados, en donde existe una capa encargada de gestionar a bajo nivel el hardware queconstituye el UAV, y sobre la cual se implementan de forma apilada otra serie de capas de alto

47

48 CAPÍTULO 4. AR.DRONE

Figura 4.1: AR.Drone 2.0 empleado en las pruebas experimentales

nivel que mediante abstracción, son las que �nalmente proporcionan el API necesario a las apli-caciones para que puedan invocar las funciones, que �nalmente se comunicarán con el hardware(sensores y actuadores) del AR.Drone.

Figura 4.2: Niveles de abstracción de la librería AR.Drone SDK[52]

De esta forma, dicha plataforma robótica encaja con las necesidades planteadas por la ar-quitectura cognitiva híbrida, siendo capaz de controlar un vehículo aéreo no tripulado para sunavegación de forma autónoma, y todo ello a través de una librería de programación especí�ca.Dicha librería se puede integrar con el conjunto de módulos que constituyen la arquitectura,con la tecnología de desarrollo empleada para la implantación de los mismos, y dotarles de lacapacidad de comunicación necesaria para establecer conexiones en tiempo real con el AR.Dronedurante su navegación.

4.2. SENSORES Y ACTUADORES DEL AR.DRONE 2.0 49

4.2. Sensores y Actuadores del AR.Drone 2.0

El AR.Drone 2.0 dispone de varios sensores a bordo para obtener y capturar informaciónsensorial del entorno en donde desarrolla su operativa. Los principales sensores están basados envisión, llevando a cabo una captura de imágenes en tiempo real a través de dos cámaras que llevaimplantadas:

Cámara frontal: se trata de la cámara principal del UAV a través de la cual se capturanlas imágenes del entorno, empleando las mismas para la navegación a través de los mapastopológicos de�nidos. Tiene la capacidad de tomar imágenes en alta de�nición (720 HD),con una dimensión de 640x360 pixeles de tamaño en formato panorámico, y utilizandocolor RGB. Está ubicada en la parte frontal del UAV, comunicándose con el procesadorde a bordo a través de un cable de comunicaciones. Se trata por tanto, de un sistema demono vision [53, 55], en donde se emplea una única cámara para adquirir el campo visualcompleto del UAV.

Cámara inferior: está ubicada en la parte inferior del cuerpo del UAV, siendo utilizadaprincipalmente para lograr una estabilidad al aparato cuando se encuentra en el aire sinrealizar ningún tipo de maniobra, ó cuando �naliza la realización de alguna en concreto.La calidad de las imágenes capturadas por dicha cámara es inferior a la frontal, aunque elcolor sigue siendo RGB.

Para determinar la altitud a la cual se encuentra el UAV en cada momento, éste lleva implantadoa bordo en la parte inferior un sensor de ultrasonidos, los cuales son emitidos de forma constanteen dirección hacia la super�cie del suelo, y dependiendo de la latencia con la cual son recibidaslas señales en forma de eco, se realiza una estimación de la altitud a la cual se encuentra elAR.Drone con respecto a la super�cie del entorno.

Figura 4.3: Ejes de rotación del AR.Drone[52]

A través de un modelo dinámico de movimiento implementado en el AR.Drone, se puedenobtener los valores exactos asociados con sus ejes de rotación (x, y, z) dentro de las 3 dimensionesdel espacio, conocidos generalmente como ángulos de inclinación ó giro sobre cada uno de los ejes.Así mismo, se puede obtener información relativa a la altitud del UAV en cada momento y lavelocidad a la que se desplaza, utilizando para éstos dos valores un algoritmo de estimación basadoen las imágenes capturadas por la cámara situada en su parte inferior. Por último, proporcionael porcentaje relativo al nivel de carga de batería de la que dispone en cada instante. Toda lainformación relacionada con su modelo dinámico y de instrumentalización, es proporcionada porel AR.Drone SDK a través de una estructura conocida como navdata.


Figura 4.4: Sensores y actuadores del AR.Drone 2.0 (http://ardrone2.parrot.com/)

Los actuadores del AR.Drone coinciden con las 4 hélices motoras instaladas sobre una crucetacentral de material metálico, y que dependiendo de la velocidad de rotación de cada una de lasmismas, permiten desarrollar diferentes maniobras al UAV. De igual forma, se pueden enviardeterminadas instrucciones de navegación prede�nidas para que sean ejecutadas de forma directa,como son el despegue del aparato hasta una determinada altitud prede�nida, y del aterrizaje delmismo sobre la super�cie del entorno.

Dispone de dos modos de navegación diferentes, uno orientado a una navegación indoor,en cuyo caso es recomendable la instalación sobre la cruceta del AR.Drone de un elemento deprotección, para prevenir posibles daños a los motores en caso de colisión con algún objetocercano, y por otro lado, un modo de pilotaje para el exterior sobre espacios abiertos, en cuyocaso no es obligatorio la utilización del elemento protector, siendo más viable la ejecución demaniobras en donde el UAV alcance velocidades más altas.

Figura 4.5: Modo de navegación indoor y exterior

4.3. MANIOBRAS DEL AR.DRONE 2.0 51

4.3. Maniobras del AR.Drone 2.0

Para el control del AR.Drone se empleará un conjunto de señales de control correspondientesa cada una de las dimensiones de�nidas en su modelo dinámico, y que permitirán la ejecución demaniobras complejas modi�cando los ángulos de giro a lo largo de sus ejes (x, y, z), además dela velocidad relativa de cada uno de sus motores. Dichas variables de control son las siguientes:

Figura 4.6: Ángulos de rotación del AR.Drone sobre sus ejes (x, y, z)

roll: se corresponde con el ángulo de giro que realiza el UAV sobre el eje x, llevando a cabodesplazamientos laterales del UAV de izquierda a derecha y viceversa. También es conocidocomo maniobra de alabeo.

� Valores negativos (-): el UAV se desplaza lateralmente a la izquierda.

� Valores positivos (+): el UAV se desplaza lateralmente a la derecha.

pitch: se corresponde con el ángulo de giro que realiza el UAV sobre el eje y, produciendodesplazamientos de avance y retroceso del UAV. Se conoce igualmente como maniobra decabeceo.

� Valores negativos (-): el UAV se desplaza hacia adelante.

� Valores positivos (+): el UAV se desplaza hacia atrás.

gaz: se corresponde con el desplazamiento vertical que realiza el UAV para realizar movi-miento de arriba y/o abajo relacionados directamente con su altitud.


� Valores negativos (-): el UAV desciende su altitud.

� Valores positivos (+): el UAV eleva su altitud.

yaw: se corresponde con el ángulo de giro que realiza el UAV sobre el eje vertical z,produciendo cambios en la orientación del UAV de izquierda y/o derecha sin modi�carpara ello su posición. Se conoce también como maniobra de guiñada.

� Valores negativos (-): el UAV gira a la izquierda.

� Valores positivos (+): el UAV gira a la derecha.

El dominio de valores utilizado para la totalidad de señales de control (roll, pitch, gaz, yaw),está de�nido dentro del rango [−1, 1], como valores extremos en los recorridos realizados paracada una de las maniobras.

Figura 4.7: Velocidades de rotación sobre los ejes del AR.Drone[52]

Mediante las velocidades de rotación aplicadas a cada uno de los motores del AR.Drone, seconseguirá que éste se mueva a lo largo de su entorno mediante diferentes maniobras, ya que encada caso se producirán variaciones de sus ángulos sobre cada uno de los ejes, produciendo de estaforma desplazamientos sobre las 3 dimensiones del espacio, objetivo principal de la navegaciónautónoma presentada en esta tesis.

Es importante poner especial atención en los valores que adquieren cada una de las señales decontrol del AR.Drone, siendo necesario un proceso previo de validación antes de proporcionárselasa los motores; dicha validación debe garantizar que los valores de éstas se encuentran dentro delrango establecido ([−1, 1]), ya que en caso contrario, el robot podría incurrir en comportamientoserróneos que afectaran a la seguridad del entorno, además de a la propia integridad del robot.

Parte II

ARQUITECTURA COGNITIVAHÍBRIDA

53

Capítulo 5

Arquitectura general del sistema

La arquitectura cognitiva híbrida diseñada para la navegación visual del UAV está compuestade un conjunto de módulos interconectados, cuyas funciones generales son las de recopilar entiempo real las imágenes que son capturadas por el UAV para su procesamiento y tratamiento,y en base a las mismas, llevar a cabo los cálculos necesarios para asignar al UAV las señales decontrol más adecuadas en cada momento, permitiéndole alcanzar de forma autónoma el objetivoque previamente se haya establecido.

La recopilación y tratamiento de la información sensorial captada a través de los sensoresimplantados a bordo del UAV, serán llevadas a cabo por el denominado módulo sensorial; me-diante los sensores del UAV (concretamente a través de la cámara de alta de�nición), se realizarála captura de las imágenes reales procedentes de su entorno de operación, para posteriormenterealizar su envío hacia dicho módulo sensorial, procediendo a su procesamiento y clasi�cación.En base a dicho proceso de clasi�cación de imágenes digitales, se perseguirá la identi�cación deciertos landmark ubicados dentro del entorno, los cuales son especi�cados mediante la utilizaciónde un mapa topológico del mismo; posteriormente, y utilizando los resultados obtenidos de dichaclasi�cación, el UAV tendrá la capacidad para poder guiarse de forma autónoma a través delentorno y alcanzar su objetivo �nal.

Las señales de control serán calculadas a través del módulo cognitivo y de control de�nidos enla arquitectura, y que permitirán obtener las señales de control que mejor se adapten al entornoen donde se desenvuelve el UAV, pudiéndose encontrar en estados conocidos ó desconocidos parael mismo, dependiendo de si es capaz de localizar alguno de los landmarks especi�cados en elmapa topológico utilizado; �nalmente, dichas señales de control serán enviadas al UAV a travésdel módulo actuador de�nido.

A continuación se muestran de forma esquemática, la estructura que engloba a la totalidadde los módulos funcionales de la arquitectura cognitiva híbrida de la presente tesis, asi como dela relación entre los diferentes módulos:

55

56 CAPÍTULO 5. ARQUITECTURA GENERAL DEL SISTEMA

Figura 5.1: Estructura general de la Arquitectura Cognitiva Híbrida

La arquitectura está basada en la implantación de un bucle de lazo cerrado que ejecutará losprocesos relativos a la captura de imágenes del entorno, generación de señales de control y suenvío al UAV. En tiempo real, dicho bucle ejecuta para cada una de sus iteraciones la siguientesecuencia de instrucciones:

(1) captura de imagen del entorno(2) clasi�cación de la imagen(3) conmutación del modo de navegación(4) cálculos entrópicos y/o biomiméticos(5) cálculo de señales de control(6) aprendizaje on-line del UAV(7) envío de las señales al UAVEn el siguiente apartado, se describen de forma genérica las funcionalidades de todos éstos

módulos que componen la arquitectura cognitiva híbrida, mostrando su grado de responsabilidaden la implementación de la secuencia de ejecución descrita dentro del bucle de lazo cerrado.

5.1. Módulos de la arquitectura

En el presente apartado se describen de forma genérica las funcionalidades de los diferentesmódulos que componen la arquitectura cognitiva híbrida:

El módulo sensorial será el encargado de recopilar la información sensorial provenientedel entorno de navegación a través de los sensores implementados a bordo en el UAV,

5.2. EJECUCIÓN CONCURRENTE DE MÓDULOS 57

capturando en cada iteración k del bucle de control la imagen que está visualizando y losdatos de navegación asociados. En base a dicha imagen, el módulo ejecuta un algoritmode clasi�cación visual sobre la misma, con respecto a un dataset de imágenes previamenteestablecido de los diferentes landmarks especi�cados en el mapa topológico del entorno.Como resultado �nal, el módulo sensorial dará como resultado un error de clasi�cación εcorrespondiente a la diferencia existente entre dicha imagen capturada, con respecto a losdiferentes landmarks establecidos dentro del dataset. Adicionalmente, el módulo sensorialimplementa un mecanismo de aprendizaje basado en el paradigma de Teachable Robots[57],utilizando para ello un cuadro de mando que mostrará los valores de cada una de lasvariables compartidas de la arquitectura.

El módulo cognitivo establece una estrategia basada en el cálculo de la entropía de lasimágenes capturadas a través del módulo sensorial, que permita realizar una navegaciónóptima del UAV cuando se encuentra dentro de determinados estados desconocidos parael mismo, ó sea incapaz de identi�car alguno de los landmarks especi�cados en el mapatopológico. Como resultado se obtendrán las señales de control más adecuadas para que elUAV abandone dichos estados desconocidos, en busca de potenciales landmarks ubicadosdentro del entorno operativo, aplicando una estrategia de maximización de la entropía.

El módulo de control tiene como objetivo calcular las señales de control más óptimas parael UAV en base al error de clasi�cación ε devuelto por parte del módulo sensorial. Para ello,se utilizará un mecanismo de control dual basado en el paradigma de modelos internos,siendo este completamente adaptativo al entorno en donde navega el UAV. El control dualcombinará su capacidad anticipativa y reactiva para el cálculo de dichas señales de control, através de la implementación de los controladores FeedForward y FeedBack respectivamente.En su interior, se encuentra la implementación del módulo de aprendizaje, encargado dellevar a cabo el entrenamiento en tiempo real necesario, para la consolidación del nuevoconocimiento que es adquirido, y que se empleará posteriormente de forma anticipativapara el cálculo de las señales de control.

La librería de comportamientos implementa el catálogo completo de comportamientos denavegación requeridos para dotar de la inteligencia necesaria al UAV, y que éste logrealcanzar los objetivos establecidos dentro del mapa topológico. Se de�ne un mecanismo decoordinación para permitir la activación de todos aquellos comportamientos, que mejor seadapten con cada uno de los estados ó situaciones por los que navegará el UAV en cadamomento.

El módulo actuador se encarga de recopilar y validar las diferentes señales de control pro-porcionadas por el módulo cognitivo y módulo de control, para posteriormente establecer lacomunicación con el UAV y proceder al envío de dichas señales de control para su ejecucióndurante su navegación autónoma..

5.2. Ejecución concurrente de módulos

Con el objetivo de que la ejecución de los diferentes módulos que componen la arquitecturacognitiva sea lo más óptima posible, y teniendo en cuenta de que se trata de un sistema de


control en tiempo real, se ha diseñado una implantación de los mismos en base a que el requisitocorrespondiente al tiempo de respuesta de las llamadas realizadas entre los módulos sea mínimo,debiendo garantizar en todo momento la disponibilidad del UAV, y evitando las posibles pausasen la ejecución de los diferentes módulos. De esta forma, para cumplir con dicho requisito deminimizar el tiempo de respuesta entre los diferentes módulos, éstos se deben ejecutar de formaconcurrente y atendiendo en cada momento a un número reducido de parámetros de entrada,proporcionados por el propio módulo en cuestión ó provenientes de otro módulo origen; pos-teriormente serán proporcionadas como resultado las salidas que hayan sido calculadas para suentrega al resto de módulos de la arquitectura. El mecanismo de implantación se basará por tantoen la utilización de hilos de ejecución, en donde la funcionalidad de cada módulo se ejecutará através de uno ó varios hilos de ejecución especí�cos, consiguiendo de ésta forma la concurrenciay exclusividad requeridas.

Figura 5.2: Hilos de ejecución y módulos de la arquitectura

Concretamente, la relación entre hilos de ejecución y los módulos de la arquitectura (verFigura 5.2) es la siguiente:

Hilo sensorial: ejecuta el módulo sensorial.

5.3. INTERCONEXIÓN DE MÓDULOS 59

Hilo de control: ejecuta el módulo sensorial, cognitivo, de control y el módulo de aprendi-zaje.

Hilo actuador: ejecuta el módulo actuador.

La Figura 5.2 muestra adicionalmente la relación entre los diferentes hilos de ejecución imple-mentados dentro de la arquitectura cognitiva híbrida, mostrando las variables compartidas entrelos mismos como parámetros de entrada y/o salida.

Cada hilo estará compuesto por una serie de actividades que se ejecutarán de forma cíclicaen el tiempo, con independencia y exclusividad con respecto de las actividades que ejecute encada momento de forma concurrente el resto de hilos de ejecución.

La ejecución del hilo sensorial se corresponderá básicamente con la captura de imágenesen tiempo real a través de la cámara implantada como sensor en el UAV, además de mostrarlos datos de navegación del UAV en un cuadro de mando para su visualización por parte delsupervisor. De igual forma, éste podrá llevar a cabo acciones de Teaching[57] sobre las señalesde control calculadas siempre que considere oportuno, proporcionando de ésta forma un procesode aprendizaje supervisado por un humano.

Mediante una estructura de datos basada en variables compartidas, el hilo sensorial se co-munica con el hilo de control, el cual implementa el bucle de control principal de lazo cerradopara el cálculo de las señales de control a lo largo de las k iteraciones, en base a lo establecidoen el módulo cognitivo y de control; implementa igualmente el módulo de aprendizaje continuobasado en el paradigma FeedBack-Error Learning [28], utilizando para ello el error de clasi�ca-ción ε calculado durante la clasi�cación de las imágenes recopiladas por el UAV. Con las señalesde control calculadas, y de nuevo empleando variables compartidas, éstas son proporcionadas alhilo actuador de ejecución para el envío de las mismas al UAV.

En el siguiente apartado se detallarán más en profundidad los mecanismos de interconexiónentre los hilos de ejecución, detallando cada una de las variables compartidas empleadas por laarquitectura.

5.3. Interconexión de módulos

Dado que cada una de las estructuras de datos manejadas dentro de un determinado hiloson privadas para el mismo (el resto de hilos no pueden acceder a las mismas), se han declaradouna serie de variables compartidas entre los hilos que son empleadas para poder enviar y recibirlos resultados calculados, empleando para ello únicamente llamadas entre los hilos de ejecución.Dichas variables compartidas se protegerán mediante la utilización de regiones críticas, garan-tizando de ésta forma que en cada paso de cómputo sólo un determinado hilo está accediendode forma exclusiva a una determinada variable compartida, y solo uno, ya que en caso de nocontrolar el acceso exclusivo a las mismas, los datos que contienen podrían verse vulnerados ycomprometidos.

Las variables compartidas empleadas entre los diferentes hilos de ejecución (Figura 5.2) quese han declarado en la presente arquitectura, son las enumeradas a continuación:

Ik: se corresponde con la imagen en escala de grises capturada en cada iteración k porparte del UAV. Dicha variable es proporcionada por parte del hilo sensorial a través dela cámara de visión que lleva incorporada el UAV, siendo posteriormente consumida


por parte del hilo de control como entrada para realizar los cálculos correspondientesy obtener a las señales de control.

navdata: se corresponde con la información de navegación proporcionada en cada momentopor el UAV; dicha información está compuesta principalmente por la altitud a la cualse encuentra en cada momento con respecto al suelo, así como información relativaal% de carga de la batería que le sirve como fuente de energía. De igual forma quelas imágenes, los datos de dicha variable compartida serán consumidos por el hilo decontrol para el cálculo de las señales de control.

ann_FF : se corresponde con la red neuronal arti�cial implementada en el controlador FeedFor-ward del modelo interno dentro del hilo de control. A partir del proceso de aprendizajeimplantado, se llevará a cabo un entrenamiento online de dicha red neuronal, y porconsiguiente, se producirá una actualización de la presente variable compartida queserá posteriormente invocada desde el propio hilo de control, para calcular las señalesde control de tipo anticipativo. Adicionalmente, dicha variable podrá ser objeto de unaprendizaje supervisado de tipo Teaching por parte de un tutor humano, utilizandopara ello el cuadro de mando implementado dentro del hilo sensorial.

control_data: dicha variable almacenará la señal de control ut �nal que en cada iteración k seráenviada al UAV. Englobará de esta forma, las señales de control roll, pitch, gaz yyaw calculadas durante cada iteración de ejecución, siendo ésta proporcionada porparte del hilo de control al hilo actuador para su tratamiento, validación y procedera su posterior envío al UAV.

5.4. Bucle de control

La ejecución de la arquitectura cognitiva híbrida descansa en la implementación de un buclede control principal ó de lazo cerrado a través de la ejecución del hilo de control, a partir delcual se lleva a cabo la instanciación inicial del resto de hilos de ejecución presentados (sensorial yactuador), procediendo a su intercomunicación a través de las variables compartidas previamenteestablecidas, y protegidas mediante regiones críticas. El pseudocódigo 5.1, muestra la estructurade dicho bucle de control, y de las diferentes instrucciones que son ejecutadas en cada una de susiteraciones k, detallando las llamadas entre los módulos implementados por los hilos de ejecución.

En cada una de las iteraciones del bucle de control, se captura una nueva imagen Ik proporcio-nada por el UAV a través de la cámara frontal que lleva a bordo, para proceder al procesamientoy tratamiento de la misma. Dicha imagen Ik y la información de navegación navdata se obten-drán mediante el acceso del hilo de control a las variables compartidas correspondientes. A partirde dicha imagen Ik, desde el hilo de control se realizarán un conjunto de llamadas al módulosensorial para la transformación de dicha imagen en escala de grises, obtener el cálculo del histo-grama asociado, y como última llamada, llevar a cabo la ejecución del algoritmo K-NN para laobtención del error ε de clasi�cación que se manejará posteriormente. Como última tarea antesde llevar el cálculo de las señales de control, se llevarán a cabo los cálculos entrópicos asociadoscon el campo visual del UAV, realizando para ello un conjunto de llamadas al módulo cognitivode la arquitectura.

5.4. BUCLE DE CONTROL 61

Algoritmo 5.1 Pseudocódigo del Bucle de control de lazo cerrado (Hilo de Control) para elUAV

// Pseudocódigo d e l Hi lo de Contro l

Ejecuc ión i n i c i a l de l h i l o s e n s o r i a l ;Ejecuc ión i n i c i a l de l h i l o actuador ;

I n i c i a l i z a c i ó n de v a r i a b l e s ;

Mientras ( e r r o r > 0) Hacer

I t e r a c i ó n k = I t e r a c i ó n k + 1 ;

// Acceso a v a r i a b l e compartida d e l h i l o s e n s o r i a lCaptura I ( k ) ;Captura navdata ;

// Llamadas a l módulo s e n s o r i a l :Transformación de I ( k ) en e s c a l a de g r i s e s ;Calcu lo de l histograma Hist ( I ( k ) ) ;Ejecuc ión de K−NN con e l histograma Hist ( I ( k ) ) ;Obtención de l e r r o r en base a l o s r e s u l t ado s de l K−NN;

// Llamadas a l módulo c o gn i t i v oCalculo de l a ent rop ía H de l histograma Hist ( I ( k ) ) ;Calcu lo de l a ent rop ía Hi de l marco i z qu i e rdo de l a zona v i s u a l ;Calcu lo de l a ent rop ía Hc de l marco c en t r a l de l a zona v i s u a l ;Calcu lo de l a ent rop ía Hd de l marco derecho de l a zona v i s u a l ;

S i ( e r ro r>umbral_conmutacion ) EntoncesEjecuc ión de Search Mode ;

S i no EntoncesEjecuc ión de Homing Mode ;

Fin S i

Calculo de l a s eña l de c on t r o l ufb ;Calculo de l a s eña l de c on t r o l u f f ;Entrenamiento de l s i s tema para e l ap r end i za j e adaptat ivo (FB−e r r o r

l e a rn i ng ) ;

Calcu lo de l o s pesos para l a s s e ñ a l e s de c on t r o l ufb y u f f ;Calcu lo de l a s eña l de c on t r o l f i n a l ut a p a r t i r de ufb y u f f ;

// Acceso a v a r i a b l e compartida contro l_data para as i gnar utEnvío de l a s eña l ut a l UAV;Tiempo de espera de l cont ro l ador ;

Fin Mientras


Para el cálculo de las señales de control, se implementa una estructura de control híbrida quepermite la conmutación para la ejecución de diferentes modos de navegación, dependiendo delerror ε obtenido de la clasi�cación. Ambos modos de navegación (Search Mode y Homing Mode,que serán detallados más adelante), engloban la implementación de una serie de comportamientosque darán como resultado las señales de control más adecuadas en cada momento, dependiendosi el UAV se encuentra en un estado conocido ó desconocido para el mismo dentro del entornode navegación.

Finalmente, una vez obtenidas las señales de control dentro de cada iteración (ufby uff ),se llevará a cabo un proceso de ponderación de las mismas en base a unos pesos establecidos,para posteriormente obtener como resultado la señal de control �nal ut que será enviada al UAVpara su ejecución. El hilo de control accederá a la variable compartida control_data para suactualización, con el valor obtenido para la señal de control ut. En dicho punto de la ejecución delbucle de control, se llevará a cabo una pausa en la ejecución del mismo, para que el UAV sea capazde completar la maniobra de forma correcta, y evitando de esta forma posibles solapamientos enla ejecución de los diferentes hilos de la arquitectura. El bucle de control se repetirá de formainde�nida hasta que el UAV alcance su objetivo, momento en el cual el error ε tendrá como valor0 de forma aproximada.

5.5. Mecanismo híbrido de control

La presente arquitectura implementa un mecanismo híbrido de control para la navegaciónautónoma de un UAV, consistente en el establecimiento de una estrategia basada en la utiliza-ción del error ε calculado en el módulo sensorial, para dependiendo de su valor, proceder a laconmutación entre diferentes modos de navegación (Figura 5.3).

Figura 5.3: Conmutación de modos de navegación visual

5.6. LIBRERÍAS EMPLEADAS 63

Puede darse el caso de que el UAV se encuentre en un estado desconocido en donde no escapaz de reconocer ninguno de los landmarks de�nidos dentro de su mapa topológico, ó por elcontrario, dicho error ε le indique que está próximo a un landmark de los especi�cados en el mapa,y por consiguiente está situado en un estado conocido. Para ello se consultará en cada iteracióndel bucle de control, el valor de dicho error, y procediendo a la activación de los diferentes modode navegación asociados.

Si el error ε es mayor a un determinado umbral de conmutación prede�nido θ, se conmutará aun modo de navegación denominado Search Mode, el cual se encuentra implementado dentro delmódulo cognitivo de la arquitectura. Dicho módulo cognitivo hará uso de un proceso continuode maximización de la entropía, calculada con respecto a las imágenes capturadas por parte delUAV, para el cálculo de las señales de control más óptimas de navegación cuando se encuentraen estados desconocidos para el mismo.

Algoritmo 5.2 Pseudocódigo de la conmutación de los modos de navegación visual

. . .

S i ( e r ro r>umbral_conmutacion ) EntoncesEjecuc ión de Search Mode ;

S i no EntoncesEjecuc ión de Homing Mode ;

Fin S i

. . .

Por el contrario, si el error ε es menor ó igual al umbral prede�nido, el sistema conmutaráal denominado Homing Mode, situación que se produce cuando el UAV está dentro de un radiode aproximación conocido con respecto a un determinado landmark de�nido dentro del mapatopológico, y por consiguiente, ser procede al cálculo de las señales de control mediante el controldual FeedForward/FeedBack implementados en el módulo de control.

Los valores para el umbral θ se pueden obtener y �jar mediante experimentación, siendoválidos aquellos que están próximos a los obtenidos mediante la siguiente expresión:

θ ≈ max(εsensorial)

2(5.1)

Según dicha expresión y a partir de los resultados obtenidos de forma experimental, se hacomprobado que los valores de θ cercanos al 50% del valor máximo de εsensorial que se obtener apartir del módulo sensorial, son perfectamente válidos para el correcto funcionamiento del meca-nismo híbrido de control, y por consiguiente, que la conmutación entre los modos de navegaciónse realice de forma satisfactoria durante la navegación del UAV.

5.6. Librerías empleadas

Como parte de la implementación de la presente arquitectura cognitiva híbrida, se hace uso delas funciones proporcionadas por un conjunto de librerías estandarizadas, entre las que destacan


principalmente la librería para la comunicación con el AR.Drone 2.0 (AR.Drone SDK [52]), y lautilizada para el procesamiento y tratamiento de imágenes digitales a través de OpenCV[6]. Deesta forma, es necesario que se declaren las referencias oportunas para hacer uso de las mismasen cada uno de los hilos de ejecución, tal y como se muestra a través del código 18.1.

La declaración de dichas referencias a las librerías, deberá realizarse de forma previa a lautilización de cualquier función implementada en las mismas, y en todos aquellos módulos de laarquitectura en donde sean ejecutadas.

Capítulo 6

Navegación mediante mapastopológicos visuales

Durante la navegación autónoma del UAV por su entorno, éste pasará a lo largo de unconjunto de estados que inicialmente son desconocidos para el mismo ya que no han sido visitadosnunca anteriormente, existiendo por tanto una alta incertidumbre intrínseca de las maniobras quedebe realizar en cada momento para alcanzar su objetivo. En un escenario como éste, la soluciónpropuesta en esta tesis es la utilización de mapas topológicos visuales, que el UAV utilizará comoherramienta durante su navegación, y en donde sin emplear referencias métricas de ningún tipo,se con�ará únicamente en el proceso de reconocimiento de imágenes visuales proporcionado porel módulo sensorial [61]. De esta forma, el UAV iniciará su navegación en busca de los landmarksespeci�cados en el mapa topológico asociado, y que dependiendo de la secuencia de�nida dentrodel mapa topológico, facilitará las maniobras necesarias al UAV para alcanzar su objetivo �nal.

6.1. Construcción de un mapa topológico visual

El mapa topológico utilizado para la navegación autónoma del UAV [58], está basado en ungrafo constituido por un conjunto de nodos que se corresponden con los diferentes landmarkssituados a lo largo del entorno operacional, y que el UAV deberá de reconocer durante su travesía,partiendo de un landmark inicial hasta alcanzar el denominado como landmark �nal [54]. Cadauno de los landmarks será etiquetado de tal forma, que formen la secuencia correcta de navegaciónque el UAV deberá visitar para alcanzar sus objetivos. Cada nodo estará relacionado con elsiguiente nodo a visitar a través de arcos, que inicialmente serán igualmente etiquetados mediantela especi�cación de las señales de control más adecuadas, relacionadas con la maniobra a ejecutarpor el UAV una vez haya alcanzado cada nodo.

El mapa topológico será presentado al UAV inicialmente de forma supervisada cumpliendocon lo establecido por el paradigma de robots de desarrollo en su fase de construcción (ver Figura2.2), de�niendo dentro del mapa cual será el landmark inicial, la secuenciación de visitas queel UAV debería cumplir para los landmarks intermedios, y por último el objetivo a alcanzar ólandmark �nal.

Para controlar el grado de aproximación del UAV hacia un determinado landmark, se em-pleará la variable de error ε proporcionada por parte del módulo sensorial, que representa el

65

66 CAPÍTULO 6. NAVEGACIÓN MEDIANTE MAPAS TOPOLÓGICOS VISUALES

Figura 6.1: Mapa topológico visual basado en landmarks

grado de reconocimiento obtenido de un determinado landmark dentro del entorno de navega-ción, con respecto a los de�nidos en el mapa topológico. De esta forma, durante la navegacióndel UAV puede ocurrir que éste se encuentre en estados que le sean desconocidos (ε alto), y porconsiguiente, no tenga a su disposición ningún tipo de referencia a la hora de llevar a cabo lanavegación; por el contrario, el UAV puede encontrarse dentro de estados conocidos, dada laexistencia de un landmark de�nido en el mapa topológico (ε bajo). En posteriores apartadosdentro del presente capítulo, se presenta el esquema de control híbrido de�nido en la presentetesis, que permite la conmutación entre ambos modos de navegación visual, dependiendo si elestado en donde se encuentra el UAV es conocido ó desconocido.

Para la construcción del mapa topológico visual, se requiere de una correcta de�nición detodos aquellos landmarks que lo componen, y permitan facilitar la navegación autónoma delUAV a lo largo de un determinado entorno. Para ello, todo landmark seleccionado debe cumplirlas siguientes directrices:

El landmark seleccionado deberá tener una componente diferenciadora con respecto alresto de elementos existentes dentro del entorno de navegación. Se deberán tener en cuentacaracterísticas como su morfología, color, ó tamaño.

El landmark seleccionado deberá estar situado en una ubicación dentro del entorno, quepermita mediante su visita por parte del UAV alcanzar el landmark �nal.

El landmark seleccionado deberá poder ser visitado por el UAV, por lo que habrá queasegurarse que no existan barreras ó elementos físico/ambientales que impidan su visitadentro del entorno.

Los arcos del mapa topológico especi�carán las diferentes maniobras que ayudarán al UAV, paraque pueda establecer un rumbo adecuado desde un determinado nodo al siguiente nodo a visitar

6.2. IDENTIFICACIÓN DE LANDMARKS 67

dentro del mapa topológico. Las maniobras de�nidas en cada arco, especi�can los valores exactosque deberán tener las señales de control (roll, pitch, gaz, yaw) que el UAV deberá ejecutar paraorientar su navegación entre un nodo etiquetado η, hacia un nodo etiquetado η−1 (véase Figura6.2).

Figura 6.2: Especi�cación de maniobras del UAV sobre los arcos del mapa topológico

Entre las aplicaciones y escenarios en los cuales se pueden diseñar y emplear mapas topológicosvisuales, están los casos de navegación autónoma dentro de entornos indoor [35] (como las pruebasexperimentales realizadas en la presente tesis), ó caos en donde la navegación se efectua sobreentornos exteriores [10, 55].

6.2. Identi�cación de landmarks

Los nodos del mapa topológico visual coincidirán con los diferentes landmarks de�nidos en elmismo y ubicados físicamente dentro del entorno. Para que cada landmark pueda ser identi�cadopor el UAV durante su navegación, éstos deberán ser etiquetados mediante la asignación de unanumeración de mayor a menor con respecto a su proximidad al objetivo �nal que deberá alcanzar.De esta forma si el mapa topológico está compuesto de N landmaks, el más alejado del objetivo aalcanzar se denominará landmark inicial y será etiquetado con el numeral N , y así sucesivamentehasta llegar al objetivo �nal de la navegación denominado landmark �nal, el cual será etiquetadocon el numeral 1.

Dicho proceso de etiquetado de los landmarks para su identi�cación por parte del UAV servirádurante la navegación de éste para conseguir alcanzar el landmark �nal empleando un métodobasado en la técnica de optimización matemática conocida como hill climbing, consistente enencontrar la mejor solución dentro de una búsqueda local de forma incremental, y en el caso de queun cambio de estado mejore la solución anterior, éste se tomará como la nueva solución, procesoque se repetirá hasta la condición de parada que en el caso de la navegación del UAV, será alcanzarel landmark �nal. Éste proceso iterativo e incremental se llevará a cabo mediante la utilizaciónde las etiquetas asignadas a los landmarks del mapa topológico, en donde la identi�cación deun landmak etiquetado con un numeral menor que el actual, supondrá el haber encontrado unamejor solución al problema que ocupa, y por consiguiente, que el UAV esté más cerca de cumplir

68 CAPÍTULO 6. NAVEGACIÓN MEDIANTE MAPAS TOPOLÓGICOS VISUALES

con su objetivo.El valor del error ε que �nalmente se proporcionará al módulo cognitivo y de control para

llevar a cabo el cálculo de las señales de control, se obtiene a partir del valor de la etiqueta ηasignada al próximo landmark a visitar por parte del UAV, además del error εsensorial resultantecon respecto al reconocimiento de landmaks realizado por el clasi�cador que tiene implementadoel módulo sensorial.

ε = η + εsensorial , η = 1 . . . N (6.1)

De esta forma, el dominio de valores reales que tomará el error resultante entre landmaksserá el comprendido entre las etiquetas asignadas a dichos landmarks; por ejemplo si el UAVha visitado e identi�cado el landmark con etiqueta 3 y se encuentra en busca del landmark conetiqueta 2, el error ε que manejará durante dichas iteraciones estará comprendido dentro deldominio [2.,3), alcanzando el valor ε = 2 cuando logre reconocer de forma efectiva el landmarkcon etiqueta=2. Cuando el UAV está próximo a un determinado landmark, se dice que éste estádentro del radio de aproximación (ra) asociado al landmark, situación que servirá para poderconmutar entre los diferentes modos de navegación visual, implementados por el mecanismo decontrol híbrido de la arquitectura.

El error ε irá por lo tanto decreciendo a medida de que el UAV se acerque hacia el landmark�nal especi�cado en el mapa topológico; �nalmente, cuando el UAV haya alcanzado el landmark�nal, el error será igual a cero (ε = 0), completándose de ésta forma con éxito la navegaciónautónoma.

Capítulo 7

Módulo sensorial

El módulo sensorial tiene como objetivo recopilar toda la información sensorial provenientedel entorno en donde desarrollará su actividad el UAV, utilizando para ello los sensores que llevaimplementados a bordo, y en especial, a través de su sensor de visión. Dicho sensor de visiónse compone de una cámara de video de alta resolución, con la capacidad de capturar en tiemporeal todas las imágenes que suceden en su entorno, para posteriormente proceder a su envío almódulo sensorial para su análisis.

Dicho análisis englobará un procesamiento de las imágenes capturadas para llevar a cabouna transformación de las mismas a una escala basada en 256 niveles de grises, y obtener acontinuación el histograma asociado con dicha conversión, que será utilizado por el clasi�cadorque hay implementado en el módulo sensorial [42]. A través de dicho proceso de clasi�cación, seidenti�cará si las imágenes capturadas se corresponden con alguno de los landmarks de�nidosdentro del mapa topológico utilizado durante la navegación, utilizando para ello un clasi�cadortipo K-NN optimizado, cumplimiento con los requisitos de tiempo real que el sistema necesita.

Como resultado �nal, el módulo sensorial proporcionará la clase a la cual pertenece la ima-gen capturada, así como del error de clasi�cación obtenido como resultado de la ejecución delclasi�cador K-NN.

De forma adicional a las imágenes digitales, el módulo sensorial será el encargado de recopilardiversos datos de navegación proporcionados por el UAV durante su operativa, que servirán comoentrada a diferentes comportamientos de�nidos dentro de la librería de la arquitectura cognitiva.

Finalmente, el presente módulo implementará un cuadro de mando para mostrar en consola,los valores de las diferentes variables compartidas de la arquitectura.

7.1. Captura de imágenes en tiempo real

Durante la ejecución del bucle cerrado de control del sistema, el UAV capturará una imagenIk por cada iteración k a través de su cámara implantada a bordo, la cual será directamenteenviada mediante protocolo de comunicaciones Wi� al módulo sensorial para su tratamiento.El formato de distribución de la imagen es mediante video-streaming, de forma que el módulosensorial recopila los datos de la imagen de forma continua y cuando se han descargado porcompleto, serán accesibles a través de la generación de un frame concreto, que se corresponderácon la imagen capturada en dicha iteración k y que se encuentra justo frente al UAV.

69

70 CAPÍTULO 7. MÓDULO SENSORIAL

El sistema de navegación requiere de un control en tiempo real del UAV, por lo que paragarantizar un correcto rendimiento del sistema, se aplicará un proceso de transformación a cadaimagen capturada, consistente en convertir la imagen original RGB a escala de grises, para queel posterior procesado de la misma se realice de forma más óptima y con un menor gasto compu-tacional. Una vez que el frame de la imagen capturada ha sido procesado, ésta será desechado yel módulo sensorial quedará a la espera de recibir la nueva imagen correspondiente a la iteraciónk + 1.

Para realizar la captura de las imágenes, se utilizará la librería AR.Drone SDK para larecepción del video-streaming, así como de la utilización de las librerías de OpenCV para lageneración del frame de la misma, y sobre el cual se trabajará en el procesamiento de imágenesposterior.

Figura 7.1: Procesos de entrenamiento inicial y operativo del UAV

7.2. PROCESAMIENTO DE IMÁGENES 71

7.2. Procesamiento de imágenes

El procesamiento a realizar sobre cada imagen capturada Ik consistirá en una transformaciónde la misma a escala de grises para que su tratamiento sea más óptimo; la imagen originalcapturada por el UAV tiene unas dimensiones de 640x360 pixeles en color RGB, y como resultadode dicha transformación se obtiene una nueva imagen con las mismas dimensiones y en escala degrises con 256 tonalidades. Como herramienta para realizar dichas operaciones de procesamientoy transformación de las imágenes digitales, el módulo sensorial utiliza las librerías de OpenCV[6],concretamente los siguientes módulos: core module y imgproc module.

Una vez realizada dicha transformación, el módulo sensorial procederá a calcular el histogra-ma HIk de la imagen Ik resultante, el cual conformará la información de entrada que se emplearásobre el clasi�cador del módulo sensorial para el reconocimiento de los landmarks del mapa topo-lógico visual utilizado para la navegación del UAV. Para el cálculo histográmico de cada imagen,se procederá a utilizar de nuevo las funciones proporcionadas por la librería OpenCV a través delos mismos módulos anteriormente comentados, utilizando como entrada Ik correspondiente a laimagen capturada y transformada en escala de grises.

El histograma obtenido de la imagen Ik será proporcionado al clasi�cador para tratar deidenti�car posibles landmarks dentro del entorno; de igual forma, dicho histograma se utilizaráen posteriores instrucciones de ejecución dentro del hilo de control: sobre el módulo cognitivopara llevar a cabo los cálculos entrópicos y sobre el módulo de control para su empleo por partedel mecanismo de control FeedFoward, interpretando dicho histograma como el estado actual endonde se encuentra en cada momento el UAV dentro de su entorno.

7.3. Preparación de dataset de landmarks

Como requisito previo para que el módulo sensorial pueda llevar a cabo un reconocimientode los diferentes landmark del entorno [26] a través del clasi�cador K-NN implementado, senecesita preparar un dataset de landmarks [18] que estará compuesto por el conjunto completode landmarks de�nido dentro del mapa topológico visual.

La metodología utilizada para la preparación del dataset de landmarks, consiste en capturarpor cada landmark una muestra representativa del mismo, englobando un número �jo de imágenes(en la presente tesis se han tomado N = 10 imágenes) tomadas desde diferentes grados deorientación de la cámara del UAV, con respecto a la ubicación en donde se encuentra físicamenteel landmark dentro del entorno.

Los grados de orientación desde donde se toman las N imágenes que constituyen el dataset,son los siguientes:

(0o − 90o) n = 4

90o n = 2

(90o − 180o) n = 4

(7.1)

De esta forma y para cada uno de los landmarks, cuando el ángulo formado entre la cámaradel UAV y el landmark es de 90 grados, se tomarán n = 2 imágenes para su incorporaciónal dataset; por otro lado, para la toma de imágenes referentes al ángulo visual izquierdo dellandmark visto desde la cámara (0-90 grados) se almacenarán n = 4 imágenes, correspondientes


a una imagen cada 18 grados (90/5 =18). Siguiendo el mismo procedimiento, para el ángulovisual derecho del landmark (90-180 grados) se almacenarán n = 4 imágenes.

Dichas cantidades son el número de landmarks tomados para la generación del dataset en lapresente tesis, el cual podría variar dependiendo de las necesidades del problema, así como delas condiciones del entorno.

En base a dicha metodología, el UAV tiene la capacidad de aproximarse a un determinadolandmark desde diferentes ángulos visuales con respecto al mismo, razón por la cual se ha de�nidoun dominio completo de su campo visual de aproximación en torno a los 180 grados para laconfección del dataset de landmarks.

Puede darse el caso de que el landmark en cuestión pudiese ser alcanzable por parte del UAVdesde un ángulo visual mayor ó menor, por lo que en dicho escenario tanto las N imágenes acapturar, como las subdivisiones a realizar sobre dicho ángulo visual se deberían adaptar a lasnuevas condiciones; podrían existir landmarks que fuesen abordables por parte del UAV sobretodas sus direcciones (360 grados) hasta landmarks que se encuentren esquinados dentro deun determinado entorno (90 grados), limitados en muchos casos por los diferentes elementosarquitectónicos existentes en el entorno.

Figura 7.2: Preparación del dataset para el entrenamiento inicial del UAV

La totalidad de imágenes que conformarán el dataset de landmarks, se capturarán utilizandopara ello la propia cámara de alta de�nición implantada a bordo del UAV; dicho proceso serealizará de forma supervisada por un humano, que controlará y modi�cará por cada una de lascapturas el grado de orientación correspondiente especi�cado según la metodología presentada.

Es importante seleccionar de forma correcta dichos landmarks, los cuales deberán ser losu�cientemente representativos del entorno de navegación, así como accesibles por parte del

7.3. PREPARACIÓN DE DATASET DE LANDMARKS 73

UAV para su identi�cación.

En el presente apartado se muestran los diferentes datasets de landmarks que han sido em-pleados durante las pruebas experimentales de la presente tesis, referentes a un entorno indoor[42], en donde se ubican landmarks como pueden ser cuadros, televisor y una puerta).

Figura 7.3: Dataset del landmark 1





Una vez tomadas las N imágenes que conformarán el dataset de landmarks, se procederáal cálculo de su histograma para cada una de ellas mediante la librería OpenCV tal y como seha descrito con anterioridad, y se procede a su almacenamiento de�nitivo en una estructura dedatos denominada dataset, cuya implementación se realizará mediante una matriz bidimensional(véase código 18.7).

Cada uno de los landmarks almacenados en dataset serán etiquetados con respecto a la clase ala cual pertenecen; de ésta forma, el landmark inicial dentro del mapa topológico será etiquetado

7.4. RECONOCIMIENTO DE LANDMARKS MEDIANTE K-NN 75

como N − 1, y por consiguiente, el landmark �nal que el UAV deberá alcanzará se etiquetarácomo 1.

Esta fase de preparación del dataset se considera la fase de entrenamiento inicial del UAV,cumpliendo con las directrices de diseño establecidas en la fase de construcción (véase Figura2.2) según el paradigma de robots de desarrollo. De esta forma, se almacenarán los diferentesvectores histográmicos de las imágenes, junto con las etiquetas de las clases (nodos dentro delmapa topológico) a las cuales pertenecen cada uno de los landmarks. Cada vez que el sistema sereinicia, se llevará a cabo un proceso de carga de dicho dataset de landmarks.

Algoritmo 7.1 Pseudocódgio de carga inicial del dataset de landmarks en el UAV

Mientras (NUM_DATASETS <= 4) Hacer

Carga de imagen en formato JPG;Transformación de l a imagen en e s c a l a de g r i s e s ;Calcu lo de l histograma de l a imagen ;Almacenamiento de l histograma de l a imagen en e l datase t ;

Fin Mientras

7.4. Reconocimiento de landmarks mediante K-NN

La principal funcionalidad del módulo sensorial, además de la captura y procesado de imá-genes digitales, será el reconocimiento de landmarks especí�cos mediante la utilización de unmecanismo de clasi�cación que proporcione al módulo cognitivo y de control, de una informaciónadecuada para que la ejecución de los comportamientos implementados en la arquitectura cog-nitiva híbrida sea lo más óptima posible. Para ello, se implementa un clasi�cador de tipo K-NNpara la clasi�cación de cada una de las imágenes Ik dado su bajo coste computacional, rapidez ycalidad en los resultados obtenidos, cumpliendo con el requisito demandado por la arquitecturade llevar todo a cabo en tiempo real.

Durante la navegación autónoma del UAV, se proporcionará como entrada al clasi�cador K-NN de tipo Lazy Learning, el histograma HIk que se obtuvo como resultado en el procesamientode la imagen Ik digital capturada en la iteración k; dicho histograma será cotejado con el datasetde landmarks que se proporcionó de forma previa al UAV para su conocimiento, con el objetivode identi�car a que clase pertenece la imagen Ik.

El clasi�cador K-NN es de tipo aprendizaje supervisado, por ello se proporciona como in-formación de entrada al mismo el dataset de landmarks generado inicialmente. Mediante elclasi�cador K-NN se estimará la probabilidad de que el histograma de Ik pertenezca a una de-terminada clase de las etiquetadas en el dataset, y que se corresponderá por tanto con uno delos nodos especi�cados dentro del mapa topológico visual.

Para la parametrización del clasi�cador se debe especi�car el valor de K (durante la faseexperimental, se han utilizado valores de 1, 3 y 5, todos ellos con resultados satisfactorios); paracomprobar la pertenencia de Ik a una determinada clase de los landmarks de�nidos, se calcularála distancia entre el histograma de Ik con respecto a la totalidad de los histogramas almacenadosen el dataset.


Entre los posibles tipo de distancias que se pueden utilizar ([11]), están la denominada D1

(Manhattan distance) ó D2 (Euclidean distance). En las siguientes expresiones se muestra comocalcular ambos tipos de distancias entre una imagen Ik capturada con respecto a un elemento Iedel dataset:

D1 =256∑i=1

| HIk [i]−HIe [i] | (7.2)

D2 =

√√√√ 256∑i=1

(HIk [i]−HIe [i])2 (7.3)

Dichos cálculos de distancias se deberán realizar entre el histograma HIkcon respecto a todoslos elementos HIe que conforman el dataset de landmarks completo. Una vez obtenidos todoséstos cálculos, se ordenarán de menor a mayor, y se seleccionarán los K elementos con menordistancia euclídea, ya que se corresponderán con los elementos del dataset de mayor similitudcon respeto a la imagen Ik capturada por el UAV.

Figura 7.7: Ejemplo del clasi�cador K-NN: cuando K = 3 la clase de la imagen será el landmark3; por el contrario cuando K = 5 será el landmark 2 la clase más similar con respecto al datasetutilizado por el clasi�cador

El valor asignado a K dependerá de los resultados experimentales obtenidos, dependiendode factores tales como los valores del histograma ó del número de elementos de cada una de lasclases. Como último paso del clasi�cador, se tomará como resultado la clase C para Ik que másse repite entre los K elementos seleccionados.

Los resultados (clase C y error ε) obtenidos de la clasi�cación de la imagen Ik en la iteraciónk, serán utilizados por el mecanismo de control híbrido para la conmutación entre los diferentes

7.5. DATOS DE NAVEGACIÓN 77

Algoritmo 7.2 Pseudocódigo del algoritmo de clasi�cación K-NN

Función K−NN

Mientras (NUM_DATASETS*NUM_IMG_DATASET < 40) Hacer

Et iquetar cada imagen de l datase t con su Landmarkco r r e spond i en t e ;

Fin Mientras


Calcula l a d i s t a n c i a de l histograma de cada imagen conr e spe c to a l datase t ;

Fin Mientras

Ordenación de l a s d i s t a n c i a s obten idas de menor a mayor ;Calcu lo de l nº de i n s t a n c i a s de cada c l a s e dentro de l o s K mejores ;S e l e c c i ona l a Clase con mayor nº de i n s t a n c i a s ;

Devuelve l a Clase s e l e c c i onada ;Devuelve e l e r r o r de c l a s i f i c a c i ó n co r r e spond i en t e a l a menor

d i s t a n c i a obtenida ;

Fin Funcion

modos de navegación del UAV. Posteriormente, dichos resultados serán empleados por el módulocognitivo y de control para el cálculo de las señales de control que se aplicarán al UAV.

Se proporcionará el error ε de clasi�cación ó pertenencia a la clase C, según lo especi�cadoen la siguiente expresión:

ε = C +

[min(dk)

numpixelx·numpixely

]k = 1..K (7.4)

El cálculo consiste en sumar al valor de la clase C, la relación que existe entre la menordistancia min(dk) calculada dentro de los K elementos seleccionados durante el proceso de cla-si�cación, con respecto al máximo error que se puede obtener en el caso de que la totalidad depíxeles que componen la imagen Ik (640numpixelx x 360numpixely) sean completamente dife-rentes, a las imágenes que componen el dataset utilizado por el clasi�cador (640x360 = 230400como error máximo).

7.5. Datos de navegación

Durante la navegación del UAV, éste enviará al módulo sensorial en tiempo real un conjuntode datos asociados con su estado interno a modo de caja negra, siendo éstos utilizados como en-


trada para diversos comportamientos de�nidos en la arquitectura cognitiva híbrida. Dichos datosde navegación serán recogidos y tratados por el módulo sensorial a través de la variable com-partida denominada navdata, cuya estructura está compuesta principalmente por los siguientesvalores:

navdata.altitude: proporciona la altitud en centímetros sobre la que navega el UAV con respectoa la super�cie inferior más próxima sobre su eje vertical, que generalmente es el suelodentro de su entorno. Dicho valor podrá ser empleado para llevar a cabo un controlde la altitud del UAV, evitando posibles colisiones con elementos que estén debajoó encima del mismo, así como su utilización durante las maniobras de despegue yaterrizaje.

navdata.vbat_flying_percentage: proporcionará el porcentaje de carga restante relativo a labatería que el UAV lleva a bordo, y que le proporciona la energía necesaria para sunavegación. Dicho valor es empleado para garantizar la seguridad del UAV, evitandola realización de determinadas maniobras costosas y procediendo a su próximo ate-rrizaje para salvaguardar la integridad del mismo, en el caso de que la carga de labatería sea baja.

Capítulo 8

Módulo cognitivo

Durante el diseño de la arquitectura y posteriormente en la ejecución de las pruebas experi-mentales, se detectó la necesidad de tratar en detalle todos aquellos estados desconocidos por losque el UAV navega a lo largo del entorno de operación.. Dichos estados engloban las diferentessituaciones durante las cuales no es capaz de identi�car ningún landmark de los especi�cados enel mapa topológico, o por otro lado, el error devuelto por el módulo sensorial es muy alto. Paraello, el mecanismo de control híbrido de la arquitectura conmutará en el denominado SearchMode, el cual implementa el presente módulo cognitivo para solventar dicha problemática.

Como solución planteada en la presente tesis, se ha decidido estudiar las diferentes posibili-dades que ofrecía el cálculo de la entropía de las imágenes del entorno como valor para medir laincertidumbre [20], que es precisamente lo que el UAV sufre cuando se sitúa sobre estados des-conocidos, como información proveniente del entorno que lo rodea. Dicho estudio se plasma enla construcción e incorporación a la arquitectura del presente nuevo módulo cognitivo, llevandoa cabo un proceso continuo de maximización de la entropía de las imágenes capturadas para lanavegación del UAV.

Existen estudios [48, 50, 47] que utilizan la entropía como técnica para dotar a un agente dela motivación intrínseca necesaria, para poder actuar sobre aquellos escenarios que poseen unalto grado de incertidumbre con respecto a la información sensorial, e interna que poseen paraalcanzar sus objetivos.

8.1. Cálculo de la entropía para la navegación

La entropía de la información (ó entropía de Shannon) es la magnitud que mide la incerti-dumbre de una fuente de información, que en este caso es la proveniente a través de los sensoresdel UAV. De esta forma dada una determinada información X, se denota la entropía de la mismaH(X) como el valor medio ponderado de la información proporcionada por los diferentes estadosque componen X según la siguiente ecuación:

H(X) = −∑

p(xi) log2 p(xi) (8.1)

La información proveniente a través del sensor de visión del UAV consiste en las diferentesimágenes capturadas en tiempo real, siendo éstas la fuente de información necesaria para calcular

79

80 CAPÍTULO 8. MÓDULO COGNITIVO

sobre ella el valor de la entropía, y poder utilizarlo como mecanismo de navegación según lassiguientes reglas cognitivas:{

La entropía aumenta cuando la imagen es compleja

La entropía disminuye cuando la imagen es sencilla

De esta forma, podemos entender como imagen compleja aquella que engloba diferentes ob-jetos, elementos, y en nuestro caso posibles landmarks dentro del entorno. Por el contrario, unaimagen es sencilla cuando se corresponde con espacios sin ningún landmark. Según dicho razona-miento, la presente tesis de�ne como estrategia novedosa para la búsqueda de landmarks dentrode un entorno de navegación, la idea de que existe una correlación directa entre la entropía deuna imagen digital, y la probabilidad de que contenta uno ó varios landmarks en la misma.

En base a dichas reglas, el presente módulo cognitivo llevará a cabo un cálculo entrópico delas imágenes con el objetivo de identi�car posibles landmarks dentro del entorno cuando el UAVse encuentra en un estado desconocido, y esto lo consigue mediante una búsqueda basada en unproceso continuo de maximización de la entropía de las imágenes capturadas, orientando de estaforma el UAV hacia ubicaciones dentro del entorno en donde se localicen potenciales landmarks.

8.2. Búsqueda de landmarks en el entorno

Empleando la estrategia cognitiva comentada anteriormente, cuando el UAV se encuentre enespacios desconocidos con un error muy alto con respecto a los landmarks especi�cados dentrodel mapa topológico visual del entorno, se procederá al cálculo de la entropía de las imágenescapturadas en tiempo real.

Figura 8.1: Cálculo de la entropía en marcos dentro del campo visual del UAV

8.2. BÚSQUEDA DE LANDMARKS EN EL ENTORNO 81

Para el control de la orientación del UAV, cada imagen capturada se dividirá en tres marcosdiferentes (Figura 8.1): marco izquierdo, marco central y marco derecho. De esta forma se cal-culará la entropía de todo el campo visual del UAV. Dado que cada imagen tiene un tamaño demarco de 640x360 pixels, se ha decidido en el diseño aplicar un subdivisión del mismo tomandocomo tamaño para cada marco 220x360 pixels, existiendo una pequeña solapación de los mismosque es intrascendente para el objetivo �nal.

Se procederá al cálculo del histograma normalizadoHistnorm(Mx) para cada uno de losmarcos Mx especi�cados sobre la imagen capturada, siendo éstos las tres fuentes de informaciónMi, Mc, Md sobre las cuales calcular la entropía:

Histnorm(Mi[k]) =Hist(Mi[k])∑Hist(Mi[k])

, k = 1 . . . 256 (8.2)

Histnorm(Mc[k]) =Hist(Mc[k])∑Hist(Mc[k])

, k = 1 . . . 256 (8.3)

Histnorm(Md[k]) =Hist(Md[k])∑Hist(Md[k])

, k = 1 . . . 256 (8.4)

Los cálculos entrópicos Hi, Hc, Hd obtenidos serán los siguientes:

Hi[Histnorm(Mi)] = −∑

Histnorm(Mi[k]) log2Histnorm(Mi[k]) (8.5)

Hc[Histnorm(Mc)] = −∑

Histnorm(Mc[k]) log2Histnorm(Mc[k]) (8.6)

Hd[Histnorm(Md)] = −∑

Histnorm(Md[k]) log2Histnorm(Md[k]) (8.7)

Siguiendo las reglas cognitivas anteriormente expuestas, se realizará una exploración [5] óbúsqueda de posibles landmarks dentro de estados desconocidos mediante la maximización de laentropía, por lo que según el valor obtenido en los cálculos anteriores, se llevará a cabo el controldel UAV de la siguiente forma:

Si max(Hx) = Hi entonces giro izquierda

Si max(Hx) = Hc entonces avanza adelante

Si max(Hx) = Hd entonces giro derecha

(8.8)

Cuando la entropía sea máxima dentro del marco de visión izquierdo, se llevará a cabo unamaniobra de giro dirigida hacia dicha zona del entorno por parte del UAV, y que en caso deque la entropía sea máxima dentro del marco de visión derecho, será hacia dicha zona dondese ejecutará la maniobra de giro; ambas maniobras actuarán sobre la señal de control yaw. Encaso de que sea el marco central el que posea el mayor valor de entropía, el UAV ejecutará unamaniobra de avance hacia adelante mediante la modi�cación de la señal de control pitch. Unavez calculada la señal de control en base a los cálculos entrópicos, se procederá al envío de lamisma al UAV a través del módulo actuador.


Algoritmo 8.1 Pseudocódigo del cálculo de la entropía para un histograma de la imagen cap-turada por el UAV

Funcion Entropia

Calculo de l histograma normalizado HN de l a imagen ;Mientras (TONOS_HISTOGRAMA < 256) Hacer

S i ( e l elemento i de l histograma normalizado HN es <> 0)Entonces

Calcula l a ent rop ía de l elemento i ;Entropía = ent rop ía acumulada + ent rop ía de l elemento i ;

Fin Mientras

Fin Funcion

Figura 8.2: Búsqueda basada en la maximización de la entropía de las imágenes, para la locali-zación de posibles landmarks en el entorno de navegación

De esta forma, se conseguirá optimizar el rendimiento del UAV a la hora de identi�car posibleslandmaks dentro del entorno, obteniendo una búsqueda más dirigida ante escenarios desconoci-

8.3. DETECCIÓN DE OBSTÁCULOS EN EL ENTORNO 83

dos ó que nunca han sido visitados con anterioridad. Existen estudios en donde se contemplanestrategias de tipo aleatorio para la navegación de robots dentro de estados desconocidos, lascuales son mucho menos e�cientes que el método de búsqueda basada en la maximización de laentropía presentada en esta tesis.

8.3. Detección de obstáculos en el entorno

El mecanismo cognitivo basado en el cálculo de la entropía de la imagen capturada por elUAV, también puede ser empleado para la detección de obstáculos dentro del entorno durantesu navegación autónoma. Cuando el UAV se sitúa justo delante de un determinado obstáculo,el valor de la entropía de las imágenes tiende a disminuir, así como los valores de Hi, Hc, y Hd

tienden a que sus magnitudes se igualen, dado que la totalidad del marco de la imagen capturadapor su campo de visión engloba casi por completo al obstáculo en cuestión, y por lo tanto, elhistograma normalizado en los diferentes marcos es semejante.

De esta forma, en el caso de que el UAV se sitúe delante de un determinado obstáculo dentrode su entorno, éste puede estar englobado dentro del marco Mi, Mc, ó Md, ó en varios de ellos;cuando esta situación se produce, mediante la maximización de la entropía descrita anteriormente,el UAV llevará a cabo una maniobra para tomar la decisión correcta que le sirva para conseguirevitar el obstáculo en cuestión, buscando el marco que posea el valor de la entropía más alto, ydejando atrás el marco cuya entropía es menor, y que por consiguiente, será el que engloba alobstáculo.

Figura 8.3: Evita el obstáculo mediante giro a la derecha

El UAV puede localizar el obstáculo en cualquiera de los marcos Mxdentro de su campode visión, y dependiendo de dónde sea localizado el obstáculo, llevará a cabo una maniobra degiro para evitar colisionar con el mismo; dicha maniobra de giro consiste en llevar a cabo una


maniobra de guiñada hacia la derecha cuando el obstáculo se encuentre a la izquierda ó viceversa,girar hacia la izquierda cuando el obstáculo se encuentra a su derecha dentro del campo de visión.

Figura 8.4: Evita el obstáculo mediante giro a la izquierda

En los casos en los cuales el obstáculo se encuentre justo delante del UAV, éste podrá llevara cabo un giro a derecha ó izquierda, siguiendo siempre la misma premisa de buscar la entropíamás alta, en este caso entre los valores de Hi, o Hd.

Figura 8.5: Evita el obstáculo situado enfrente del UAV mediante giro a la derecha ó izquierda

Como alternativa para evitar obstáculos en el entorno de navegación, puede darse el escenarioen donde las entropías de Mi, Mc, y Md tiendan a igualarse, siendo en este caso necesarioidenti�car experimentalmente un determinado umbral a partir del cual considerar que el UAV se

8.4. IMPLEMENTACIÓN DEL MÓDULO COGNITIVO 85

encuentra justo delante de un determinado obstáculo. Dicha alternativa se podrá considerar enaquellos casos en donde el obstáculo en cuestión esté muy cercano al UAV durante su navegación,englobando casi completamente su campo de visión.

8.4. Implementación del módulo cognitivo

La implementación del módulo cognitivo engloba la ejecución de los cálculos entrópicos reali-zados sobre cada una de las zonas que componen el campo visual del UAV, para posteriormente,y en base al mecanismo híbrido de control para la conmutación de los modos de navegación pre-viamente presentado, calcular los valores de las señales de control que se proporcionarán comosalida.

Algoritmo 8.2 Pseudocódigo de los cálculos realizados dentro del módulo cognitivo

. . .

I n i c i a l i z a c i ó n de v a r i a b l e s r o l l , p itch , gaz , yaw ;

S i ( e r ror>umbral_conmutacion ) // Ejecución de Search ModeCálculo en t róp i co de p i t ch ;Cálculo en t róp i co de yaw ;

S i no Entonces // Ejecución de Homing ModeCálcu los biomimét icos ;

Fin S i

Cálculo de l a s eña l de c on t r o l ufb [ ] ;

. . .

Se declarará una variable temporal para cada uno de los valores calculados de las señales decontrol (roll, pitch, gaz, yaw), asignándoles los valores que se han obtenido a partir de los cálculosentrópicos realizados; dichos valores se insertarán de forma secuencial en una estructura de tipovector denominada ufb[] (dicha estructura será reutilizada posteriormente por el controladorFeedBack dentro del módulo de control).

Capítulo 9

Módulo de control dual

El módulo de control de la arquitectura cognitiva híbrida empleado para la navegación visualdel UAV, está basado en el concepto de modelos internos basados en los resultados obtenidosdentro del dominio de conocimiento de la neurociencia, como es el estudio de la actividad cereberalen humanos, siendo éstos una aproximación para su implementación sobre un agente inteligente.La arquitectura utiliza un modelo interno de control dual, constituido por un control de tipoanticipativo ó preventivo (controlador FeedForward), combinado con un control de tipo reactivo(controlador FeedBack) que a partir de las imágenes capturadas como entrada desde el módulosensorial, generarán como resultado las señales de control más óptimas para su aplicación sobreel UAV, y que éste alcance en el menor número de iteraciones el objetivo establecido. Siguiendoel esquema de conmutación de�nido por parte del mecanismo híbrido de control, dicho módulode control implementa las directrices de diseño de�nidas para el denominado Homing Mode denavegación.

En el presente capítulo se detallará exhaustivamente la estructura utilizada para la implan-tación del control dual de la arquitectura cognitiva híbrida, los controladores FeedBack y Feed-Forward, así como del estudio realizado para el cálculo de la señal de control combinada que seenviará �nalmente al UAV para su ejecución.

9.1. Mecanismo de control dual

Siguiendo las directrices de diseño marcadas por parte del paradigma de robots de desarrollo(developmental robots[63]), la presente arquitectura cognitiva implementa un mecanismo de con-trol adaptativo con el entorno sobre el cual se desenvuelve e interactúa el UAV, consiguiendo deesta forma un proceso de aprendizaje continuo y en tiempo real. Partiendo de un conocimientoinicial (fase de construcción, véase Figura 2.2), el UAV será capaz de navegar desde un estadoinicial hacia un estado destino (que se corresponderá con el objetivo especi�cado), mediante lainteracción con los diferentes estados encontrados dentro de su entorno, aplicando las diferentesseñales de control calculadas en cada momento por dicho mecanismo de control dual. El controldual es capaz de optimizar de forma continua las señales de control para cada estado a medidaque avanza su navegación, proceso que tiende a minimizar el error existente entre el estado actualy el estado objetivo a alcanzar (fase de desarrollo autónomo, véase Figura 2.2).

El mecanismo de control dual está basado en una estructura de bucle cerrado, en dondepor cada una de las k iteraciones de ejecución se deberán calcular las nuevas señales de control

87

88 CAPÍTULO 9. MÓDULO DE CONTROL DUAL

necesarias que deberán ser aplicadas sobre el UAV.La Figura 9.1 muestra la estructura que posee el control dual, con los diferentes elementos

interconectados que lo soportan, además de las entradas y salidas empleadas.

Figura 9.1: Mecanismo de control dual

La variable utilizada para desencadenar las acciones y que dirigirá la ejecución del control duales el error ε proporcionado por el módulo sensorial: dicho error consiste en la diferencia existenteentre el histograma Hist(Ik) de nivel de grises de la imagen Ik capturada en la iteración k, conrespecto al histograma Hist(Ig) de nivel de grises de la imagen Ig que representa el próximolandmark a visitar por el UAV, con respecto a lo establecido en el mapa topológico visual.

El objetivo del mecanismo de control dual será el minimizar dicho error ε de forma continuaen el tiempo, a medida que se vayan ejecutando las iteraciones k del bucle de lazo cerrado quelo implementa.

Para conseguir que el error ε tienda a valor cero, la dualidad del mecanismo contempla doscontroladores cuyo funcionamiento y características son distintas, pero que comparten el mismoobjetivo de minimización del error a través de la combinación de las señales de control que deforma individual generan.

El controlador FeedBack calcula la señal de control ufb a partir del error proporcionado porel módulo sensorial; dicho error representará en cada iteración k la diferencia que existe paraalcanzar el landmark objetivo ó próximo landmark a visitar, en base a la secuencia especi�cadadentro del mapa topológico. De esta forma, el control FeedBack es de carácter reactivo y degrano �no en cuanto a la aproximación al objetivo a lograr, requiriendo generar de ésta formaseñales ufb con saltos suaves entre iteraciones sucesivas, implementando para ello un cálculobiomimético[41] consistente en determinar la señal ufb más optima en cada momento en base alas variaciones del error ε con respecto a las señales de control ufb previamente generadas.

Por otro lado, el controlador FeedForward es el encargado de calcular la señal de controluff a partir del histograma de nivel de grises Hist(Ik) de la imagen capturada, por lo que setrata de un control de tipo anticipativo, ya que el cálculo de la señal de control uff dependeráúnicamente del estado actual dentro del entorno, que se corresponde en este caso por dichohistograma Hist(Ik).

9.2. CONTROLADOR FEEDBACK 89

Para cumplir con lo establecido en el paradigma de robots de desarrollo en relación a laadquisición de nuevo conocimiento, el presente control dual intervendrá en la implementacióndel módulo de aprendizaje de la arquitectura cognitiva, consistente en un aprendizaje adaptativocontinuo en el tiempo del controlador FeedForward utilizando para ello todas aquellas señalesufb que sean capaces de reducir el error ε a lo largo de las iteraciones de ejecutadas por partedel bucle de control. De esta forma, se alcanzará una consolidación de toda la experiencia que elUAV va adquiriendo durante su ejecución. Este escenario tiene similitudes directas con respectoal comportamiento cerebelar, y cómo todas aquellas acciones generadas por el cerebro (ufb) quese van ejecutando y optimizando en el tiempo, son consolidadas en el cerebelo (uff ) para podergenerar automatismos de las mismas cuando el robot se encuentra posteriormente en un estadosimilar, y sin necesidad de actividad cerebral.

Finalmente, el mecanismo de control dual combinará ambas señales de control (ufby uff )en una única señal de control ut de salida, que se proporcionará al módulo actuador de laarquitectura cognitiva híbrida para su envío al UAV.

9.2. Controlador FeedBack

El controlador FeedBack es el encargado de generar la señal de control ufb dentro del módulode control de la arquitectura cognitiva híbrida para la navegación autónoma del UAV. Dichocontrolador es de carácter reactivo, ya que a partir del error ε calculado por el módulo sensorial,generará una señal de control adaptada a las necesidades concretas que requiere el UAV parasu correcto desempeño, reduciendo dicho error lo más rápidamente posible a lo largo de las kiteraciones del bucle cerrado. Como requisito para un correcto funcionamiento del controladorFeedBack, se implementará un mecanismo a través del cual el error convergerá hacia valor cero,interpretando dicha situación, como que la diferencia entre el estado actual del UAV y el objetivoa alcanzar están extremadamente próximos, y por consiguiente, considerando que el objetivopreviamente establecido se ha alcanzado.

Para reducir el error ε, se utilizará un mecanismo de cálculo de tipo biomimético[41], basadoen la idea de cómo se produce la variación de dicho error ε con respecto a las señales de controlu empleadas, según lo establecido en la siguiente ecuación 9.1.

˙ufb = −µ∂ε∂u

(9.1)

De esta forma, la nueva señal de control ufbcalculada dependerá de la variación del error conrespecto a la variación en la propia señal de control, a lo largo de las últimas iteraciones delbucle de control. Se utilizará un factor µ para suavizar los saltos entre las sucesivas señales decontrol obtenidas como resultado, factor que dependerá en muchos casos del comportamiento quedesempeñe el UAV en un momento dado; dicho factor podrá determinarse de forma experimentalpara cada una de las señales de control.

La señal de control FeedBack ufb se ha implementado como un vector compuesto por todosde valores de control (roll, pitch, gaz, yaw) necesarios para cada uno de los actuadores del UAV;para el cálculo discreto de la señal de control ufb, se utilizarán los valores del error de la últimay penúltima iteración del bucle (ε2 y ε1 respectivamente), asi como de la última y penúltimaseñales de control ufb que se generaron (ufb2y ufb1 respectivamente) según lo establecido en lassiguientes expresiones:


ufb[roll] = ufb2 [roll]− µroll[

ε2 − ε1ufb2 [roll]− ufb1 [roll]

](9.2)

ufb[pitch] = ufb2 [pitch]− µpitch[

ε2 − ε1ufb2 [pitch]− ufb1 [pitch]

](9.3)

ufb[gaz] = ufb2 [gaz]− µgaz[

ε2 − ε1ufb2 [gaz]− ufb1 [gaz]

](9.4)

ufb[yaw] = ufb2 [yaw]− µyaw[

ε2 − ε1ufb2 [yaw]− ufb1 [yaw]

](9.5)

Una vez calculada la nueva señal de control ufb, se utilizará para ser combinada con la señaluff calculada por el controlador FeedForward, siendo igualmente utilizada para consolidar laexperiencia del UAV sobre el propio control FeedForward a partir del módulo de aprendizaje.Dicha consolidación se efectúa en cada iteración k del sistema en lo que se ha denominadocomo método de aprendizaje Feedback-Error Learning [28], en donde se emplea la señal decontrol ufb para llevar a cabo un entrenamiento del propio controlador FeedForward, y portanto de aprendizaje continuo durante la fase de desarrollo del UAV. Se utilizará como patrónde entrenamiento la dupla {Hist(Ik), ufb}, consistente en el histograma a nivel de grises dela imagen Ik capturada en la iteración k, y por otro lado, el vector de señales de control ufbcalculado por el controlador FeedBack en base a la misma [32] y dentro de la misma iteración k.

9.2.1. Implementación del controlador FeedBack

La implementación del controlador FeedForward está basada en las expresiones discretizadasutilizadas para la obtención de nuevas señales de control ufb, en cada una de las k iteracionesde ejecución del bucle de control.

Algoritmo 9.1 Pseudocódigo de los cálculos realizados por el controlador FeedBack

. . .

I n i c i a l i z a c i ó n de v a r i a b l e s r o l l , p itch , gaz , yaw ;

S i ( e r ror>umbral_conmutacion ) // Ejecución de Search ModeCálcu los en t r óp i c o s ;

S i no Entonces // Ejecución de Homing ModeCálculo biomimético de p i t ch ;Cálculo biomimético de yaw ;

Fin S i

Cálculo de l a s eña l de c on t r o l ufb [ ] ;

. . .

Se declarará una variable temporal para cada uno de los valores calculados de las señalesde control (roll, pitch, gaz, yaw), y que se han obtenido a partir de los cálculos biomiméticos

9.3. CONTROLADOR FEEDFORWARD 91

realizados; dichos valores se insertarán de forma secuencial en una estructura de tipo vectordenominada ufb[].

9.3. Controlador FeedForward

Dentro del módulo de control, el controlador FeedForward tendrá como objetivo proporcionarla mejor señal de control uff posible en base al estado actual en donde se encuentre el UAV,correspondiéndose con el histograma Hist(Ik) de la imagen actualmente capturada dentro de laiteración k. Se trata de un control de carácter anticipativo, ya que hará uso de la experienciaque ha ido consolidando el UAV a lo largo de su desempeño, mediante el proceso de aprendizajerealizado a partir del control FeedBack.

Figura 9.2: Red neuronal del controlador FeedForward

Para la implementación del control FeedForward se ha utilizado una red neuronal [31] de tipoperceptrón multicapa, en donde el entrenamiento que se empleará será del tipo backpropagation.La red neuronal se ha con�gurado mediante una capa de entrada compuesta por 256 neuronas,que se corresponden con el tamaño del vector de un histograma de nivel de grises de cada imagen,


el cual representará en cada momento el estado [36, 37, 38] en donde se encuentra el UAV. De estaforma, se le proporcionará al control FeedForward a través de su capa de entrada, el histogramaHist(Ik) de la imagen que actualmente está visualizando el UAV.

Para conectar la capa de entrada y salida de la red, se de�ne una capa de neuronas ocultascuyo número variará dependiendo de los experimentos realizados. Dicha capa oculta estará di-rectamente conectada con la capa de salida, la cual estará compuesta por 4 neuronas de salidaque se corresponderán con el número de señales de control (roll, pitch, gaz, yaw) que constituyenel vector de la señal de control uff .

La razón por la cual se ha representado el estado actual a través del histograma en nivelesde grises de la imagen Ik, es para optimizar el rendimiento general del control FeedForward, yaque en lugar de utilizar como entrada la propia imagen Ik completa que se correspondería con640x360 píxeles = 230400 neuronas de entrada, se utiliza dicho histograma con un número másreducido de neuronas de entrada a la red; de esta forma, la capa de entrada de la red neuronalse simpli�ca enormemente, dado que serán 256 las neuronas de entrada en su lugar. Mediantedicho requisito de diseño, se consigue aumentar el rendimiento general del controlador, y porconsiguiente del control dual en general, factor clave ya que se trata de controlar un sistemaen tiempo real, asi como del proceso de entrenamiento de la red neuronal que está íntimamenterelacionado.

Una vez calculada la señal de control uff , se procederá a su combinación con la señal ufb delcontrolador FeedBack, proceso que se detallará más adelante.

9.3.1. Implementación de la red neuronal del controlador FeedForward

La implementación del controlador FeedForward está basada en la construcción de una redneuronal arti�cional empleando la librería denominada FANN [46] (Fast Arti�cial Neural NetworkLibrary), la cual está compuesta de un completo conjunto de funciones que permiten de una formasimple la creación, parametrización, entrenamiento y ejecución de redes neuronales.

Algoritmo 9.2 Pseudocódigo de los cálculos realizados por el controlador FeedForward

. . .

I n i c i a l i z a c i ó n de v a r i a b l e s r o l l , p itch , gaz , yaw ;I n i c i a l i z a c i ó n de ann_FF ;

Ejecuta l a red neuronal con e l histograma de l a imagen ac tua l ;

S i ( e r r o r disminuye ) EntoncesEntrenamiento de l a red neuronal para e l ap r end i za j e

adaptat ivo ;Fin S i

Cálculo de l a s eña l de c on t r o l u f f [ ] ;. . .

La variable sobre la cual se ha implementado dicha red neuronal para el controlador FeedFor-ward se ha denominado ann_FF . La parametrización que se ha utilizado para la con�guración

9.4. COMBINACIÓN FEEDFORWARD & FEEDBACK 93

de la red neuronal ann_FF utilizando dicha librería, se almacena en un �chero denominadoann_ff.net, además de almacenar de forma completa el conjunto de pesos y bias asociados concada una de las neuronas que conforman la red.

El pseudocódigo 9.2 muestra la secuencia de instrucciones que se ejecutan por cada una delas iteraciones k dentro del bucle de control para el entrenamiento de la red neuronal; dichoentrenamiento se llevará a cabo cuando el error ε de clasi�cación obtenido como resultado delmódulo sensorial, haya disminuido con respecto a la anterior iteración k − 1.

Se declarará una variable temporal para cada uno de los valores calculados de las señales decontrol (roll, pitch, gaz, yaw), y que se han obtenido a partir de la ejecución de la red neuronalimplementada; dichos valores se insertarán de forma secuencial en una estructura de tipo vectordenominada uff [].

9.4. Combinación Feedforward & Feedback

El módulo de control dual proporcionará como señal de salida total (ut) una señal combinadade las señales ufb y uff , asignando de forma posterior a su cálculo, un peso especí�co wfb parala señal ufb y un peso wff para la señal uff , tal y como se de�ne en la siguiente ecuación:

ut = wfbufb + wffuff , donde : wfb + wff = 1 (9.6)

Inicialmente, se asignará un peso máximo a la señal ufb (wfb = 1), ya que el conocimientoque posee el UAV durante la fase de construcción con respecto al entorno es mínimo, necesitandode ésta forma el comportamiento reactivo proporcionado a través del controlador FeedBack.Posteriormente, y dependiendo de las condiciones del entorno así como del grado de madurez enel aprendizaje del UAV, los pesos pueden variar, proporcionando ó quitando más protagonisto auna señal de control en concreto.

Figura 9.3: Grá�co que muestra la distancia entre uff y ufb con respecto al grado de madurezdel sistema


Para calcular dicho grado de madurez del sistema con respecto al nivel de aprendizaje ad-quirido por parte del UAV, se utilizarán los valores de las señales ufby uff generadas por amboscontroladores. De esta forma, se calculará la distancia D entre ambos valores, y obtener la di-ferencia entre las señales obtenidas de forma reactiva con respecto a las obtenidas de formaanticipada.

D = |uff − ufb| (9.7)

Cuando una de las componentes {roll, pitch, gaz, yaw} que componen ufbes exactamenteigual que la misma componente en uff , la diferencia obtenida será 0; por el contrario, cuandola diferencia es máxima, la diferencia máxima obtenida será 2 , ya que el dominio de valoresmanejado para cada una de las componentes está de�nido dentro del rango de valores [−1, 1].

El valor que determina el grado de madurez del sistema Υ se obtiene a partir de la ecuación9.12, la cual está basada en la media aritmética de los grados de madurez {Υroll,Υpitch,Υgaz,Υyaw}obtenidos para cada una de las componentes de las señales de control calculadas.

Υroll =

[− |uff [roll]− ufb[roll]|

2

]+ 1 (9.8)

Υpitch =

[− |uff [pitch]− ufb[pitch]|

2

]+ 1 (9.9)

Υgaz =

[− |uff [gaz]− ufb[gaz]|

2

]+ 1 (9.10)

Υyaw =

[− |uff [yaw]− ufb[yaw]|

2

]+ 1 (9.11)

Υ =

4∑

x=1Υx

4

=

(Υroll + Υpitch + Υgaz + Υyaw

4

)(9.12)

De esta forma, a medida que el grado de madurez Υ tiende hacia 1, el sistema será consideradocomo más maduro, y por lo tanto el peso wff tenderá hacia 1, cobrando protagonismo los valoresdel controlador FeedForward ya que existirá un alto contenido de conocimiento consolidado enel mismo; por el contrario, a medida que la diferencia es mayor entre ambas señales de control,se considerará un sistema más inmaduro con un Υ cercano a 0, dando más peso a wfb, y porconsiguiente, será el controlador FeedBack el que principalmente actúe sobre el UAV, siguiendopara ello una estrategia más reactiva de comportamientos.

9.4. COMBINACIÓN FEEDFORWARD & FEEDBACK 95

Figura 9.4: Grá�co que muestra la evolución de los pesos wfb y wff a lo largo del tiempo dedesarrollo del UAV

El control dual combina las señales de control ufby uff calculadas por separado, para obteneruna señal de control ut adaptativa y lo más óptima posible para su ejecución por parte del UAV;será el grado de madurez del sistema el que determinará la combinación exacta entre ambasseñales de control.

Capítulo 10

Módulo de aprendizaje

Una de las premisas del paradigma de robots de desarrollo es que éstos adquieran todo elconocimiento necesario para llevar a cabo su funcionalidad, mediante un proceso adaptativo ycontinuo durante su fase operativa dentro del entorno que les rodea, pudiendo considerar a éstecomo un proceso de aprendizaje en tiempo real. De esta forma cuando el robot vuelve sobreestados que ya ha visitado anteriormente, podrá utilizar para la toma de decisiones dicha infor-mación adquirida previamente mediante el aprendizaje, considerando a éste como un mecanismoformalizado para dotarle de inteligencia.

En dichas situaciones se desencadenará un mecanismo de tipo predictivo utilizando comoúnica entrada el estado actual en donde se encuentra el robot en un momento dado dentro delentorno, y proporcionando el conjunto de señales de control más adecuadas que deberán serejecutadas por el mismo. Dentro de la arquitectura cognitiva híbrida, la implantación de dichoproceso de adquisición de conocimiento se llevará a cabo mediante el módulo de aprendizaje,el cual está basado en un paradigma de aprendizaje conocido como Feedback-error Learning, elcual podrá complementarse de forma puntual por un mecanismo de tipo supervisado (TeachableRobots) en donde puede intervenir un humano.

10.1. Feedback-error Learning

El módulo de aprendizaje esta basado en los estudios realizados sobre Feedback-error Learning[28], el cual proporciona al UAV un mecanismo de adquisición de conocimiento continuo en eltiempo y que puede ser utilizado en tiempo real durante su fase operativa de navegación dentro delentorno. Dicho mecanismo de aprendizaje está basado el modelo interno implementado dentro delmódulo de control dual a través de los controladores FeedForward y FeedBack. Según el modelointerno, dicho proceso de aprendizaje está basado en el sistema cerebelar de los seres vivos,en donde el conocimiento es adquirido a partir de los sentidos para ser procesado en primerainstancia por el cerebro, y en base a un proceso de consolidación, �nalmente ser almacenado enel cerebelo.

Una vez realizada dicha consolidación de conocimiento, se procederá a su posterior utilizaciónde forma predictiva, y en muchas ocasiones de forma totalmente paralela a otras actividades sinintervención por parte de la parte cerebral del sistema nervioso. En este caso, la implementacióncerebral estará de�nida mediante el controlador FeedBack del control dual, el cual recopila losvalores sensoriales provenientes del entorno, los procesa de forma reactiva, y obtiene a partir de

97

98 CAPÍTULO 10. MÓDULO DE APRENDIZAJE

los mismos un conjunto de señales de control ufbque serán utilizadas sobre los actuadores delUAV. Dichas señales de control serán las utilizadas en tiempo real, para realizar un entrena-miento continuo del controlador FeedForward (dicho entrenamiento es representado por la líneadiscontinua que aparece en la Figura 10.1) del control dual, el cual estará determinado por elerror ε obtenido por el módulo sensorial; de ésta forma se puede considerar al controlador Feed-Forward como la implementación de la parte cereberal del sistema. A través de dicho procesode aprendizaje continuo, el sistema irá reduciendo dicho error de forma progresiva a lo largode su navegación a través del entorno, adquiriendo un mayor grado de madurez en cuanto a lageneración de señales de control cada vez más óptimas.

Figura 10.1: Feedback-error learning[28]

La implementación de dicho mecanismo de aprendizaje se realizará en base a la red neuronalarti�cial (implementada en la arquitectura mediante ann_FF ) que conforma el controladorFeedForward detallado con anterioridad, la cual será entrenada en cada una de las k iteracionesdel bucle de control por parte del controlador FeedBack. El entrenamiento que se ejecutará sobrela red neuronal será del tipo backpropagation, utilizando para ello la dupla de entrenamientoconformada por {Hist(Ik), ufb}, en donde el estado actual en donde se encuentra el UAV en unmomento dado será determinado por el histograma en escala de grises Hist(Ik) de la imagen Ikcapturada en la iteración k, y por otro lado, de la señal ufb obtenida por el controlador FeedBacken la misma iteración k.

Para obtener un mayor grado de optimización en la implementación de dicho mecanismo deaprendizaje y dado que se trata de un sistema en tiempo real, la red neuronal que implementa elcontrolador FeedForward no será entrenada en todas las iteraciones k, sino únicamente en aquellasen donde el ε obtenido a partir del módulo sensorial se haya reducido entre dos iteraciones k y k+1consecutivas, utilizando de éste modo solo aquellas duplas de entrenamiento que realmente seráncapaces de aportar un conocimiento positivo y óptimo al UAV al visitar un determinado estado.Mediante dicho razonamiento, el sistema tenderá con el tiempo a reducir de forma progresiva elnúmero de entrenamientos que deberán realizarse sobre el controlador FeedForward, a medidaque la totalidad de estados sean visitados y conocidos por parte del UAV; cuando el valor deε esté alrededor de 0, no se llevará a cabo ningún tipo de entrenamiento de la red neuronal endicha iteración k.

Conforme a dicho módulo de aprendizaje, el UAV utilizará a través del control dual unacombinación del conocimiento adquirido de forma reactiva a partir de su cerebro (FeedBack),

10.2. TEACHABLE ROBOTS 99

Algoritmo 10.1 Pseudocódigo del algoritmo de aprendizaje basado en el modelo Feedback-errorlearning[28]

. . .

S i ( e r r o r disminuye ) Entonces

S e l e c c i ona como entrada ( input ) e l histograma de l a imagen ;S e l e c c i ona como s a l i d a ( output ) l a s eña l de c on t r o l ufb ;Entrena l a red neuronal u t i l i z a ndo l a dupla { input , output } ;Rea l i za l a grabac ión de l a red neuronal ;

Fin S i

. . .

junto con el conocimiento consolidado en su cerebelo (FeedForward) para su futura utilizaciónde forma preventiva ó anticipativa [45], consiguiendo de ésta forma una automatización de laactividad del UAV desarrollada durante su navegación autónoma.

El requisito de tiempo real exigido por el diseño de la arquitectura se ve cumplido, dotandoal UAV de la robustez y capacidad de respuesta necesarias cuando los entornos tengan mayorcomplejidad.

10.2. Teachable robots

El módulo de aprendizaje es complementado por un nuevo mecanismo de aprendizaje de tiposupervisado basado en el paradigma de Teachable Robots[57, 4]. Según dicho paradigma, unsupervisor humano externo al sistema podrá facilitar al UAV en un momento especí�co [12, 15],las señales de control más adecuadas para llevar a cabo una determinada maniobra durante suoperativa de navegación.

Dichos momentos pueden coincidir con situaciones en donde exista una extrema complejidadpara la navegación por el entorno, para salvaguardar la propia integridad del UAV, ó como re-fuerzo positivo para su aprendizaje continuo en el tiempo. Dicho paradigma se considera comouna modi�cación a los algoritmos de aprendizaje por refuerzo (Reinforcement Learning [56]) tra-dicionales, en donde además de proporcionar al agente una señal de refuerzo, cabe la posibilidadde inyectarle información adicional.

En el presente escenario, el supervisor humano facilitaría ó inyectaría al UAV el conjuntode señales de control u más óptimas según su criterio, las cuales será consolidadas sobre elcontrolador FeedForward mediante el entrenamiento de la red neuronal implementada en elpresente módulo de aprendizaje de la arquitectura.

El supervisor tendrá la capacidad de llevar a cabo dicho proceso de aprendizaje supervisadoa través de un cuadro de mando proporcionado a través del módulo sensorial, a partir del cualpodrá monitorizar en todo momento la actividad que está llevando a cabo el UAV e inyectar lasseñales de control u más adecuadas. Para el entrenamiento de la red neuronal del controladorFeedForward, se declarará una región crítica para la protección y acceso exclusivo sobre la variable

100 CAPÍTULO 10. MÓDULO DE APRENDIZAJE

compartida ann_FF , dado que dicha variable podrá ser actualizada durante el entrenamientode la red neuronal por parte del supervisor, dentro de una misma iteración k del bucle de control.

Algoritmo 10.2 Algoritmo aprendizaje basado en el paradigma Teachable Robots[57]

. . .// Bucle de con t r o lMientras ( e r r o r > 0) Hacer

. . .Ejecuc ión módulo s e n s o r i a l ;Ejecuc ión módulo c on t r o l ;

// Pequeño i n t e r v a l o de tiempo para permi t i r l a supe r v i s i ón de l UAVpor par te d e l Teacher

Si ( Teacher ha r e a l i z a d o inyec c i ón de s eña l ) EntoncesEjecuc ión módulo apr end i za j e con s eña l inyectada ;Ejecuc ión módulo actuador con s eña l inyectada ;

S i no EntoncesEjecuc ión módulo actuador con s eña l ut ca l cu l ada ;

Fin S i. . .

Fin Mientras. . .

El número de posibles inyecciones de información adicional relativas a las señales de controlpor parte del supervisor humano, se irán reduciendo de forma progresiva a medida que decrezca elerror ε asociado con tendencia hacia 0, ya que al igual que el anterior mecanismo de aprendizaje,signi�cará que el UAV ha adquirido un mayor grado de madurez, con la capacidad predictivaadecuada para obtener unas señales de control cada vez más óptimas, en cada uno de los estadospor los que navegará el UAV dentro del entorno operativo.

Capítulo 11

Módulo actuador

Finalizado el cálculo de las nuevas señales de control por parte del módulo cognitivo ó delmódulo de control, se deberá proceder a su envío hacia el UAV para que éste las ejecute dentro desu entorno operacional. El encargado de llevar a cabo dichas operaciones será el módulo actuadordetallado en el presente capítulo, el cual procederá a recoger dichas señales de control generadasdentro de cada iteración k del bucle de control, proceder a su validación, tratamiento y posteriortransmisión de las mismas hacia el UAV, y todo ello con la máxima optimización para cumplircon el requisito de tiempo real demandado por la arquitectura cognitiva híbrida.

Es importante asegurar de forma óptima los tiempos de latencia y de respuesta proporcio-nados por los diferentes hilos de ejecución, ya que de lo contrario, podría suponer la pérdida deseñales de control ante posibles solapamientos en la ejecución de los diferentes hilos de ejecución.Para solventar dicho problema, se especi�carán determinadas pausas en la ejecución de los hilosde control y actuador, para asegurarse que todas las señales de control tratadas por el hilo actua-dor son ejecutadas por el UAV sin pérdida alguna. Los valores que se asignarán a las diferentespausas de ejecución, se obtendrán a través de pruebas experimentales.

11.1. Tratamiento de señales de control en tiempo real

El módulo actuador deberá recopilar las nuevas señales de control calculadas que le sonproporcionadas por el módulo cognitivo ó por el módulo de control en cada una de las iteracionesk de ejecución del bucle de control. El hilo de ejecución que conforma el módulo actuador seejecutará de forma inde�nida mientras el sistema esté activo, y deberá estar sincronizado con elhilo de control para la recopilación de todas las señales de control generadas en la iteración ksin perder ninguna. Para que dicho proceso se pueda llevar a cabo, el módulo actuador hará usode la estructura compartida denominada control_data, siendo éste el mecanismo que emplearácomo salida el módulo cognitivo ó módulo de control para almacenar las señales de control(roll, pitch, gaz, yaw), y que servirá como entrada para el presente módulo actuador.

Una vez que las señales de control son recopiladas, serán validadas para comprobar su inte-gridad, correcto formato y rango, asi como para evitar fallos de disponibilidad, ya que se tratade un sistema crítico en donde el UAV está llevando a cabo una navegación aérea. Cualquiertipo de problema que se pueda producir ante un fallo en dicho proceso de validación, puede tenerconsecuencias sobre la propia seguridad del entorno , de las personas que puedan interactuar conel sistema, así como del propio UAV.

101

102 CAPÍTULO 11. MÓDULO ACTUADOR

La validación consistirá en comprobar que los valores de las señales de control están dentrode los rangos que han sido establecidos dentro de la arquitectura, así como de garantizar quelas señales están disponibles y son viables su aplicación sobre el UAV. Para todas las señalesde control, el rango de las mismas deberá estar comprendido entre los valores [−1, 1], poniendoespecial atención ante señales muy cercanas hacia los extremos, en donde la velocidad ó ángulosde giro que tomará el UAV, pudieran convertirse en inmanejables en determinadas maniobrasy/o entornos; debido a ello, las señales resultantes pueden ser ponderadas a través de un factorλ prede�nido.

ut[senal] = λut[senal] , donde : λ = (0.,1) (11.1)

En este caso, senal podrá ser cualquier de las señales de control (roll, pitch, gaz, yaw), utili-zándolo como índice dentro del vector implementado denominado ut[] para almacenar la señal decontrol que se enviará al UAV. Finalmente, una vez terminada la validación y el tratamiento dedichas señales de control, éstas estarán listas para proceder a su envío hacia el UAV, utilizandopara ello las librerías AR.Drone SDK previamente detalladas. Se establecerá en primer lugar unacomunicación Wi� con el UAV, para posteriormente enviar físicamente las señales de control almismo para su ejecución sobre el entorno operativo.

Algoritmo 11.1 Pseudocódigo de la validación y envio de señales de control al UAV

Mientras ( e r r o r > 0) Hacer

Capturar l a s eña l de con t r o l ut generada ;

S i ( s eña l de c on t r o l i nd i c a e l despegue de l UAV) EntoncesEjecuc ión de l despegue ( Takeof f ) de l UAV;

Fin S i

S i ( s eña l de c on t r o l i nd i c a e l a t e r r i z a j e de l UAV) EntoncesEjecuc ión de l a t e r r i z a j e ( Landing ) de l UAV;

Fin S i

S i ( ut no e s tá vac ía ) Entonces

Val idac ión de l rango de r o l l ;Va l idac ión de l rango de p i t ch ;Va l idac ión de l rango de gaz ;Va l idac ión de l rango de yaw ;

Envío de r o l l , p itch , gaz , yaw a l UAV;

S i no EntoncesEjecuc ión de maniobra de e s t a b i l i z a c i ó n ( Hovering ) de l UAV;

Fin S i

Fin Mientras

11.2. ENVÍO DE SEÑALES DE CONTROL AL UAV 103

11.2. Envío de señales de control al UAV

Para proceder al envío de señales de control al UAV se utilizará un conjunto de funcionescontenidas en las librerías AR.Drone SDK, en donde requerirá una parametrización basada encada una de las señales de control (roll, pitch, gaz, yaw).

Una vez ejecutada la llamada a la función de envío de señales de control, el hilo actuadordeberá de�nir el tiempo de latencia que sea necesario para que la señal se transmita hacia elUAV via Wi�, éste la reciba, y pueda ejecutar la maniobra en cuestión, y todo ello cumpliendocon el requisito de que sea dentro de la misma iteración k a la cual pertenecen dichas señales decontrol, evitando de ésta forma posible solapamientos entre iteraciones del bucle de control.

Una forma para garantizar dichos tiempos de respuesta, es mediante la inclusión de unallamada a una función proporcionada por las librerías de la arquitectura, encargada de realizaruna pausa sobre el hilo de ejecución que la ejecuta. De esta forma se puede parametrizar eltiempo en milisegundos que dicho hilo de ejecución permanecerá pausado, hasta que la maniobrase complete de forma exitosa por parte del UAV. Dichos tiempos de pausa serán medidos enbase a milisegundos (ms), y se pueden obtener mediante experimentación (durante las pruebasexperimentales realizadas durante la presente tesis, se han obtenido buenos resultados cuando eltiempo de pausa del bucle de control ha sido aproximadamente de 500ms).

104 CAPÍTULO 11. MÓDULO ACTUADOR

Parte III

LIBRERÍA DECOMPORTAMIENTOS

105

Capítulo 12

Modelo de comportamientos del UAV

Los módulos cognitivo y de control de la arquitectura cognitiva híbrida, están diseñadosen base a un modelo de comportamientos [8] en donde partiendo de la información sensorialrecopilada a través de los sensores implantados a bordo del UAV, como son la cámara de visión ysensores de altitud, se pueden obtener las señales de control que serán enviadas a los actuadoresdel UAV.

Cada uno de los comportamientos será el encargado de implementar las reglas y cálculos quesean necesarios para el tratamiento de dicha información sensorial, para proporcionar las señalesde control más óptimas en cada caso.

Para llevar a cabo el presente proceso, se ha diseñado un mecanismo de coordinación, paraen base a dicha información sensorial proveniente de los sensores del UAV, activar únicamenteaquellos comportamientos más adecuados dependiendo de alguno de sus valores, y que sean éstoslos que �nalmente devuelvan las señales de control hacia los actuadores.

Figura 12.1: Modelo de comportamientos del UAV

Dicho modelo de comportamientos permitirá establecer la trazabilidad existente entre la

107

108 CAPÍTULO 12. MODELO DE COMPORTAMIENTOS DEL UAV

información sensorial y la información motora a través de sensores y actuadores [16] respectiva-mente, y por consiguiente, construir una librería de comportamientos perfectamente modulable,reutilizable y escalable, que permita alcanzar los objetivos establecidos durante la navegación delUAV.

12.1. Diseño de comportamientos

En base al modelo de comportamientos de�nido, se utilizará como metodología para el diseñode los comportamientos una notación grá�ca para de�nir y trazar, por un lado las variables rela-cionadas con la información sensorial proporcionada por el módulo sensorial de la arquitectura,con respecto a las señales motoras que el módulo cognitivo o de control proporcionarán comoresultado. Cada comportamiento deberá describir su objetivo, asi como el conjunto de reglas queimplementarán la lógica a ejecutar para el tratamiento de la información sensorial, conjuntamen-te con los cálculos que se llevarán a cabo para �nalmente obtener las señales de control comosalida.

Figura 12.2: Diseño del modelo de comportamientos del UAV

Se empleará un diagrama de �ujo para representar las entradas y salidas a cada comporta-miento[14, 13], asi como de un conjunto de operadores para poder establecer la lógica asociada,empleando como términos las diferentes variables sensoriales y motoras en cada una de las ex-presiones ó reglas. También se especi�carán las diferentes variables internas que sean necesarias,para el cálculo de valores intermedios.

El diseño de las diferentes estructuras sobre las cuales se puede basar el modelo de com-portamientos, englobará aquellos comportamientos cuyas entradas y salidas están directamenteconectadas con el entorno en donde desarrollará su actividad el UAV, siendo éstos conocidoscomo comportamientos monolíticos. Pueden existir varios comportamientos monolíticos que seejecuten de forma secuencial ó paralela, aunque siempre de forma independiente entre los mismos.

Por otra parte, se pueden diseñar estructuras basadas en comportamientos combinados, loscuales necesitan de una lógica interna de coordinación en base a operadores ψ. Éste tipo deestructuras consistirán en un nivel simple jerárquico, ó en base a varios niveles, en donde unoscomportamientos dependerán de la ejecución de otros, y necesitarán de dichos operadores lógicosψ para combinar los valores de sus salidas antes de proporcionarlas al nivel inferior ó directamenteal entorno de navegación.

12.2. COORDINACIÓN DE COMPORTAMIENTOS 109

Figura 12.3: Diseño de comportamiento para la navegación autónoma del UAV

La implementación de dicho modelo de comportamientos se realizará en su totalidad dentrodel módulo cognitivo y del módulo de control. Mediante dicho diseño de comportamientos, sedotará a la arquitectura de la comprensibilidad y mantenibilidad adecuados de la inteligencia quedotará al UAV de la capacidad para poder alcanzar sus objetivos de navegación, asi como de con-formar una librería de comportamientos que podrá ser reutilizable sobre diferentes plataformasrobóticas y en diferentes entornos.

12.2. Coordinación de comportamientos

Los comportamientos de�nidos estarán coordinados [40, 17] en base a los valores de lasseñales sensoriales proporcionadas por el módulo sensorial, y dependiendo de los mismos, seejecutarán unos comportamientos u otros a través de su activación directa. Puede darse el casode que únicamente se ejecute un único comportamiento en exclusiva, ó que se desencadene laejecución paralela ó secuencial de varios comportamientos que sean activados por el mecanismode coordinación.

Entre las operaciones lógicas ψ que se pueden utilizar para la combinación de comportamien-tos están las siguientes[14, 51]:

Suma paralela: se utiliza cuando dos ó más comportamientos independientes son ejecutadosal mismo tiempo de forma paralela.

Combinación: se utiliza cuando dos ó más comportamientos combinan sus salidas paraformar un nuevo comportamiento, formando una estructura jerárquica de comportamientosinterconectados y dependientes.

Supresión: se utiliza cuando un comportamiento inhibe la ejecución de otro.

Suma secuencial: se utiliza cuando dos ó más comportamientos se ejecutan de forma inde-pendiente y secuencial.

La principal señal sensorial que se emplea para la coordinación de comportamientos es el errorε resultante de la clasi�cación de Ikcomo imagen capturada por el UAV en la iteración k. De

110 CAPÍTULO 12. MODELO DE COMPORTAMIENTOS DEL UAV

esta forma y en base al mecanismo híbrido de control de la arquitectura, se ejecutarán los com-portamientos englobados dentro del modo de navegación Search Mode, el cual está constituidopor comportamientos relativos a maniobras de exploración; por otro lado dentro del modo denavegación Homing Mode, se engloban todos aquellos comportamientos relativos a maniobras deaproximación y para la identi�cación de landmarks (Figura 5.3).

Existe otro conjunto de comportamientos de�nidos en la librería que son independientesa cualquier mecanismo de coordinación, activándose su ejecución en todos los casos. Dichoscomportamientos serán los encargados de garantizar la integridad y disponibilidad del UAV,englobando a todos aquellos cuyo objetivo es evitar posibles obstáculos dentro del entorno, controlde altitud, así como de aterrizar el UAV en caso de baja batería ó escenarios de emergencia.

Capítulo 13

Librería de comportamientos del UAV

La librería de comportamientos englobará el catálogo completo de comportamientos de�nidospara la navegación autónoma del UAV a lo largo de su entorno operativo. Dicha librería pro-porcionará un interfaz adecuado que podrá ser reutilizado en diferentes proyectos y plataformasrobóticas para la navegación de UAVs, ya que cumple con la directriz de atomizar lo máximoposible las funcionalidades asociadas a las diferentes maniobras que el UAV necesita, utilizandopara ello el concepto de comportamiento empleado para el diseño de agentes inteligentes.

Figura 13.1: Librería de comportamientos del UAV

Los siguientes apartados englobarán y detallarán la totalidad de comportamientos inteligentes

111

112 CAPÍTULO 13. LIBRERÍA DE COMPORTAMIENTOS DEL UAV

empleados por el UAV que conforman la librería, existiendo comportamientos para la exploracióndel entorno en busca de landmarks especi�cados en el mapa topológico, y en el caso de quese veri�que la existencia de un landmark potencial, llevar a cabo maniobras de aproximacióne identi�cación del mismo. Adicionalmente, se detallarán los comportamientos encargados deevitar obstáculos que puedan presentarse en el entorno, así como los destinados a controlar laaltitud del UAV durante la navegación autónoma. Para todos los comportamientos se especi�carála información sensorial de entrada que se empleará en cada uno de los casos, variables internasutilizadas para la realización de los cálculos oportunos, así como de las señales de control de salidaque se proporcionarán como resultado a través de los módulos cognitivo y de control dentro dela arquitectura cognitiva híbrida.

13.1. Comportamiento de exploración

Durante su navegación a lo largo del entorno operativo, el UAV recorre determinados estadosque le son desconocidos, bien porque no ha reconocido ningún landmark de los especi�cadosdentro del mapa topológico que utiliza, ó porque no ha visitado dicho estado con anterioridad.En dichos estados, el valor del error ε que el módulo sensorial devuelve como resultado delclasi�cador es muy alto, y por lo tanto acorde a los modos de navegación visual de�nidos, seconmutará el denominado como Search Mode, el cual está gobernado íntegramente por el presentecomportamiento de exploración.

Figura 13.2: Comportamiento de exploración

El comportamiento de exploración se basa en el cálculo de la entropía como mecanismo paraexplorar de forma adecuada el entorno por el cual se desenvuelve el UAV cuando se encuentra enestados desconocidos; es por ello que necesita poder identi�car potenciales landmarks ubicadosdentro de dicho entorno, ejecutando la estrategia de maximización de la entropía implementadaen el módulo cognitivo. En base a dicha estrategia, son utilizados los valores calculados de laterna entrópica {Hi, Hc, Hd} para poder identi�car que zona dentro de su campo de visión poseeuna entropía mayor, y por consiguiente, mayor probabilidad de contener potenciales landmarksque puedan ser reconocidos por el UAV. Dependiendo en este caso de como sea la entropía encada una de las zonas {Hi, Hc, Hd}, el UAV llevará a cabo una acción con respecto a sus señalesde control yaw para proceder a realizar giros hacia la derecha ó izquierda según su posición

13.2. COMPORTAMIENTO DE APROXIMACIÓN 113

dentro del entorno, además de actuar sobre la señal de control pitch para avanzar mediante unamaniobra de cabeceo en dirección hacia el landmark potencial.

Según dicha estrategia de maximización de la entropía de las imágenes sensoriales capturadas,las reglas implementadas en el presente comportamiento de exploración son las siguientes:

Si max({Hi, Hc, Hd}) = Hi entonces yaw = −φSi max({Hi, Hc, Hd}) = Hc entonces pitch = −θSi max({Hi, Hc, Hd}) = Hd entonces yaw = φ

(13.1)

Los valores a especi�car a las señales de control tanto para θ sobre la señal de control pitch,como para φ sobre la señal de control yaw, se realizarán a través de la experimentación y siempredentro del domino de valores [−1, 1].

13.2. Comportamiento de aproximación

Dentro del mecanismo híbrido de control, cuando el ε tiene un valor bajo hace indicar que elUAV está dentro del denominado radio de aproximación con respecto a un determinado landmarkde�nido dentro del mapa topológico asociado, lo que hace indicar que se encuentra en las cercaníasde un estado conocido para el miso. De esta forma, el UAV ejecutará un comportamiento deaproximación hacia dicho landmark, utilizando para ello el control dual FeedForward/FeedBackimplementado dentro del modo de navegación denominado como Homing Mode.

Figura 13.3: Comportamiento de aproximación

Mediante dicho comportamiento de aproximación, el UAV tendrá como objetivo a lo largo delas k iteraciones del bucle de control principal, reducir el ε hacia valor 0 de forma continua en eltiempo, consiguiendo de ésta forma decrementar la diferencia entre el estado actual con respectoal objetivo que se quiere alcanzar.

Para poder implementar dicho proceso, se utilizarán los errores ε2 y ε1así como las señalesde control ufb2y ufb1de las últimas iteraciones (k − 2 y k − 1 respectivamente). De esta forma,se llevarán a cabo los cálculos oportunos para obtener el ufb a través del controlador FeedBackbasado en biomimetria, que de forma combinada con el uff del controlador FeedForward basadoen el aprendizaje adaptativo del UAV, dará como resultado las nuevas señales de control pitch y


yaw que se ejecutarán. Finalmente, mediante la ejecución de dichas señales de control, se llevaráa cabo la maniobras de aproximación del UAV hacia el landmark, para poder proceder a suidenti�cación cuando se esté muy próximo al mismo.

13.3. Comportamiento de identi�cación

Cuando el erro ε devuelto por parte del módulo sensorial está dentro del umbral de aceptaciónpara un determinado landmark que ha sido clasi�cado mediante la clase C dentro del mapatopológico visual, se desencadenará la activación del presente comportamiento de identi�cación.

Dicho comportamiento consiste en ejecutar por parte del UAV la maniobra que ha sido espe-ci�cada dentro del arco que relaciona a dicho landmark etiquetado comoη en el mapa topológico,con respecto al siguiente landmark a visitar etiquetado como η− 1 durante la navegación. Dichamaniobra estará prede�nida para cada uno de los arcos del mapa topológico, cuyo objetivo comose ha comentado anteriormente, es orientar la navegación del UAV desde un determinado land-mark hacia el siguiente, estableciendo la secuencia lógica a recorrer hasta alcanzar el objetivo ólandmark �nal.

Figura 13.4: Comportamiento de identi�cación

De esta forma, dicho comportamiento engloba un conjunto de maniobras complejas dadoque afectarán a varias señales de control en paralelo, las cuales a su vez están compuestas porsubmaniobras preestablecidas en todos los arcos del mapa topológico visual:

Maniobra de orientación: se ejecutará una maniobra para orientar el rumbo del UAV haciael siguiente landmark a identi�car dentro del mapa topológico, obteniendo los valores de lasseñales de control pitch y yaw que deberán aplicarse. Mediante dichas señales de control,el UAV llevará a cabo un avance hacia el siguiente landmark a visitar, combinado con ungiro hacia la izquierda ó derecha con respecto a su posición actual.

Maniobra de alejamiento: se ejecutará una ligera maniobra de alejamiento del UAV conrespecto al landmark identi�cado, con el objetivo de evitar posibles colisiones entre ambosdada la complejidad de las maniobras realizadas y las posibles perturbaciones que pudieranproducirse en su estabilización en el aire. Se obtendrá una nueva señal de control roll quese corresponderá con una maniobra de alabeo del UAV dentro de su entorno operativo.

13.4. COMPORTAMIENTO PARA EVITAR OBSTÁCULOS 115

13.4. Comportamiento para evitar obstáculos

El UAV puede encontrarse con determinados obstáculos ubicados dentro de su entorno quetenga que evitar, para proseguir con su navegación visual según lo establecido por su mapatopológico visual. Ésta situación puede ocurrir en cualquier momento, tanto cuando el UAV estáejecutando el comportamiento de exploración, como cuando esté activado el comportamiento deaproximación. Dada esta casuística, el comportamiento para evitar obstáculos se combinará conambos mediante la operación lógica ψ de supresión, desechando las señales de control devueltaspor los otros comportamientos, y enviando al UAV únicamente las señales pitch y yaw delpresente comportamiento para evitar obstáculos, y garantizar la integridad del robot.

Figura 13.5: Comportamiento para evitar obstáculos

Para conseguir evitar un obstáculo situado en el entorno, el comportamiento hará uso decálculos entrópicos dentro del módulo cognitivo según las zonas visuales {Hi, Hc, Hd} del UAV,empleando para ello las siguientes reglas:

Si max({Hi, Hc, Hd}) = Hi entonces yaw = −φSi max({Hi, Hc, Hd}) = Hc entonces pitch = −θSi max({Hi, Hc, Hd}) = Hd entonces yaw = φ

(13.2)

De esta forma, el UAV considerará que un obstáculo se encuentra en una determinada zonaHx de su campo visual cuando dicha zona tenga una entropía mínima con respecto al resto dezonas visuales, procediendo de ésta forma a ejecutar una maniobra de giro ó avance hacia lasotras zonas que tienen una entropía mayor para conseguir no colisionar con dicho obstáculo.

Como estrategia complementaria y dado que la entropía mínima identi�ca la posible existenciade un obstáculo en cualquiera de las zonas dentro del campo de visión del UAV, se emplearánadicionalmente las siguientes reglas:

Si min({Hi, Hc, Hd}) = Hi entonces yaw = +φ

Si min({Hi, Hc, Hd}) = Hc entonces yaw = [−φ|+ φ]

Si min({Hi, Hc, Hd}) = Hd entonces yaw = −φ(13.3)


El UAV siempre llevará a cabo una maniobra de guiñada hacia la zona visual contraria dedonde se localiza la entropía mínima para evitar el obstáculo existente. En el caso de que laentropía sea mínima en Hc y el obstáculo se encuentre justo delante del UAV, éste podrá llevara cabo una maniobra de giro hacia izquierda ó derecha (opcionalmente se podría girar hacia lazona HioHd con mayor entropía).

Finalmente, el comportamiento incluye una última regla mediante la cual cuando todos losvalores de la terna entrópica {Hi, Hc, Hd} están por debajo de un determinado umbral mínimoτ , se puede garantizar que el UAV está excesivamente próximo a un obstáculo ó al borde de lacolisión, englobando el obstáculo de forma casi completa, todo el campo visual del UAV:

{Si (Hi < τ and Hc < τ and Hd < τ) entonces yaw = [−φ|+ φ] (13.4)

En este caso la entropía es mínima en todo el campo visual, por lo que el UAV podrá realizaruna maniobra de guiñada hacia la izquierda ó hacia la derecha para evitar la colisión con elobstáculo. El valor τ será establecido de forma prede�nida para el comportamiento, pudiendoobtenerse a través de la experimentación en diferentes entornos.

13.5. Comportamiento de control de altitud

El comportamiento de control de altitud llevará a cabo un proceso continuo de corrección delvalor de la señal de control gaz del UAV, para garantizar estabilizar el robot dentro de un rangoaceptable de altitud durante toda la operativa de navegación. Se trata de un comportamientoque es completamente independiente del resto que componen la librería, ya que es el único queutiliza como entrada los datos de navegación del UAV, y controla de forma exclusiva su altitud.

Figura 13.6: Comportamiento de control de altitud

A partir de los datos de navegación proporcionados por el UAV, dicho comportamiento rea-lizará una lectura de la variable altitude dentro de la estructura navdata, y dependiendo de suvalor llevará a cabo la corrección su altitud en base a unas reglas simples como las siguientes:

{Si (altitud ≤ Λ) entonces gaz = ϕ

Si (altitud > Λ) entonces gaz = −ϕ(13.5)

13.5. COMPORTAMIENTO DE CONTROL DE ALTITUD 117

Mediante dichas reglas, el UAV se mantendrá estable en el aire durante su navegación en tornoa un rango de altitud prede�nido que empleará Λ como valor medio. Existen varios factores quepueden afectar en la estabilización del UAV y por consiguiente en su altitud, como son maniobrasmuy complejas ó cambios bruscos sobre los ángulos de rotación en los ejes; es por ello que deberácorregirse la altitud de forma continua durante la navegación del UAV para mantenerla alrededordel valor Λ, mediante la aplicación de la señal gaz con un valor ϕ establecido dentro del rango[−1, 1]. Al igual que otros comportamiento el valor para ϕse podrá obtener de forma experimentalsobre el entorno de navegación.

Parte IV

PRUEBAS EXPERIMENTALES

119

Capítulo 14

Preparación y con�guración del entornoexperimental

Como paso previo para la ejecución de las pruebas experimentales, se necesita del montajede un entorno que sirva como laboratorio para la validación de la arquitectura cognitiva híbridadiseñada en esta tesis, así como para veri�car la funcionalidad de la librería de comportamientosy los módulos operativos que la soportan. Se detallará igualmente, la con�guración del nodooperativo que ejecutará la arquitectura la parametrización necesaria del AR.Drone utilizado alo largo de todos los experimentos. El esquema del entorno experimental que deberá prepararsepara las pruebas experimentales, se muestra en la siguiente �gura:

Figura 14.1: Esquema del entorno experimental

121

122CAPÍTULO 14. PREPARACIÓN Y CONFIGURACIÓN DEL ENTORNO EXPERIMENTAL

Dicho entorno experimental se corresponde con un entorno de tipo indoor, el cual estarácompuesto por un nodo operativo (computadora), con la capacidad computacional y de procesoadecuada para ejecutar los diferentes hilos de ejecución que constituyen la arquitectura cognitivahíbrida que controlará en todo momento el UAV, proporcionándole la autonomía necesaria paraalcanzar sus objetivos.

Por otro lado estará el propio UAV (AR.Drone 2.0), que se ubicará en un estado inicial dentrodel entorno para su despegue, y con�gurado para llevar a cabo la navegación de�nida a travésdel mapa topológico establecido.

Al tratarse de un entorno indoor, se deberán establecer unas medidas del mismo que seanadecuadas para lograr un desarrollo de la navegación autónoma de forma satisfactoria; en elesquema del entorno experimental anterior se proponen una serie de medidas de altitud, amplitudy altura aproximadas. En el caso de escenarios indoor no existirá problema relativo con el alcancede la señal Wi� para la comunicación del nodo operativo con el AR.Drone, ya que el alcancemáximo de la misma está aproximadamente entre 50 y 100 metros de distancia.

Finalmente y en base al mapa topológico visual utilizado por el UAV, se ubicarán en elentorno los diferentes landmarks que se hayan especi�cado en cada uno de los nodos del mapa.

14.1. Con�guración del nodo operativo

El nodo operativo se corresponderá con la computadora encargada de ejecutar la arquitecturapara la navegación del UAV, con la capacidad de cálculo necesaria para ejecutar los diferenteshilos de ejecución correspondientes a cada uno de los módulos que la constituyen.

Las características técnicas relativas a los requisitos mínimos de hardware y software del nodooperativo son las siguientes:

Hardware:

� Procesador: Intel(R) Pentium(R) M processor 1.40GHz

� Memoria: 1,1 GB

� Wi-Fi b,g,n

Software:

� Ubuntu 11.10 Linux 3.0.0-12-generic

� GNOME 3.2.1

� AR.Drone SDK 2.0

� FANN 2.2.0

� OpenCV 2.4.2

� �mpeg-0.11.1

� v4l-utils-0.8.8

� x264-snapshot

� gcc 4.6.1-2

14.2. CUADRO DE MANDO 123

Dicho nodo operativo deberá tener capacidad de transmisión de datos a través de una red decomunicaciones inalámbrica Wi�, para su comunicación remota con el AR.Drone como primerpaso para la detección y enlazamiento con el mismo, en donde el AR.Drone proporcionará unadirección IP ad-hoc al nodo operativo para el posterior intercambio de mensajes y de informaciónentre ambas partes, como es la información sensorial y las señales de control.

14.2. Cuadro de Mando

Durante la fase experimental se podrá hacer uso de la herramienta conocida como cuadro demando del UAV implementada en el módulo sensorial, para que el supervisor pueda obtener in-formación en tiempo real de los valores de los sensores, resultados de los cálculos de las señales decontrol, así como de poder visualizar, también en tiempo real, los frames que componen el video-streaming que en cada momento está visualizando el UAV. Mediante dicho cuadro de mando, elsupervisor obtiene la comodidad de poder centralizar en un único punto toda esa informaciónpara su tratamiento y poder realizar análisis de los resultados experimentales recopilados.

El cuadro de mando está compuesto por dos principales áreas denominadas cuadrantes: elcuadrante visual será el que muestre el video en tiempo real capturado desde el UAV, y porotro lado el cuadrante de registro de la trazabilidad correspondiente a los datos de las variablesmanejadas en cada una de las iteraciones del bucle de control, sirviendo éstos como mecanismosde depuración durante los experimentos.

Figura 14.2: Cuadro de mando del UAV: cuadrante visual y de trazabilidad


14.2.1. Cuadrante visual

Se encargará de mostrar en tiempo real el video en formato streaming capturado por el UAVdurante su navegación. Mostrará al usuario dentro de un área concreta de tamaño 640x360 y encolor RGB, toda la sucesión de frames que captura el UAV a lo largo de las diferentes iteracionesdel bucle de control, siendo de utilidad para veri�car que los comportamientos se están ejecutandode forma correcta durante las pruebas experimentales. A través de dicho cuadrante visual, sealmacenarán de forma automática las diferentes imágenes (en formato .jpg) capturadas por elUAV cuando el error ε esté dentro del umbral establecido para cada uno de los landmarks, ypor tanto se proceda a la identi�cación de cada uno de los landmarks de�nidos dentro del mapatopológico visual correspondiente.

14.2.2. Cuadrante de trazabilidad

El cuadrante de trazabilidad llevará a cabo un registro de todas las iteraciones k ejecutadaspor parte del bucle de control principal de la arquitectura, en donde se registraran los valorescorrespondientes a las señales sensoriales proporcionadas por el AR.Drone, los valores de todaslas variables intermedias utilizadas por los comportamientos activados en cada momento, ademásde los valores de correspondiente a las señales motoras que �nalmente se enviarán al UAV.

Se registrará una traza por cada iteración k a lo largo de la ejecución del bucle de control.La estructura y formato de cada una de las trazas del presente cuadrante es el que aparece acontinuación:

[k]: Se corresponde con el número de iteración k actual, dentro de la ejecución del bucle decontrol.

{η, εsensorial}: Se corresponde con el último landmark etiquetado como η dentro del mapatopológico, que ha sido visitado e identi�cado por el UAV. El εsensorial se corresponde conel error devuelto por el algoritmo K-NN de clasi�cación en la presente iteración k.

ε: Se trata del valor asociado con el error de clasi�cación proporcionado por el módulosensorial.

{Hi, Hc, Hd}: Se corresponde con los valores de la terna entrópica, utilizados por los com-portamientos implementados dentro del módulo cognitivo.

{roll, pitch, gaz, yaw}: Mostrarán los valores correspondientes a la señal de control ut quese enviará al UAV en la presente iteración k.

Se puede utilizar toda esta información de trazabilidad como evidencia para veri�car el funciona-miento de los diferentes comportamientos, además de utilizarla como información de depuracióndurante la implementación de los mismos para la corrección de posibles errores.

Dicho cuadrante será el encargado de mostrar todas aquellas noti�caciones informativas ó deerror que se produzcan durante la navegación del UAV, alertando en el caso de que sea necesarioal usuario para que actúe en consecuencia.

14.3. MONTAJE DEL ENTORNO EXPERIMENTAL 125

14.3. Montaje del entorno experimental

El montaje del entorno experimental se basará en el mapa topológico visual que el UAVempleará para su navegación autónoma. Para ello deberán ubicarse a lo largo del entorno losdiferentes landmarks de�nidos en sus nodos, de forma que éstos sean alcanzables y pueden seridenti�cados por el UAV, cumpliendo con los requisitos exigidos durante la construcción delmapa.

Figura 14.3: Mapa topológico utilizado durante las pruebas experimentales

Los landmarks de�nidos en el mapa topológico (Figura 14.3) que se ha utilizado durante laspruebas experimentales de la presente tesis, se corresponden con elementos que pueden localizarseen un entorno indoor, como son: un cuadro, un televisor, una �gura y una puerta. Cada uno delos landmarks se han etiquetado según su grado de proximidad al landmark destino, por lo queel landmark más alejado del objetivo correspondiente al cuadro se ha etiquetado con valor η = 4,y el landmark destino ó �nal se ha etiquetado con valor η = 1.

Se requerirá que el entorno experimental tenga una dimensiones adecuadas para que lasmaniobras del UAV puedan ejecutarse sin afectar a la integridad del entorno ni del propio UAV.

Las dimensiones del entorno experimental preparado para las pruebas experimentales son lassiguientes:

4 metros de ancho x 6 metros de largo

240 cm de altura hasta el techo


La luminosidad del entorno es un requisito muy importante a la hora de montar el entornoexperimental, siendo necesaria una luminosidad lo su�cientemente intensa para que la cámaradel UAV, que no dispone de ningún mecanismo de tipo �ash, pueda capturar las imágenes conuna calidad aceptable tanto a nivel RGB, como a nivel de escala de grises que será el modo decolor utilizado por el algoritmo de reconocimiento de landmarks.

14.4. Con�guración del AR.Drone 2.0

El plan de pruebas experimentales se ha ejecutado completamente empleando la plataformarobótica AR.Drone 2.0. La con�guración del AR.Drone que se ha utilizado durante los experi-mentos es la establecida de forma estándar por parte de Parrot en su versión AR.Drone 2.0[52](ver Anexo B).

Capítulo 15

Pruebas y Resultados Experimentales

En este capítulo se detalla exhaustivamente el plan de pruebas experimentales que se hade�nido para validar el correcto funcionamiento de la arquitectura cognitiva híbrida diseñadaen esta tesis, utilizando para ello un UAV comercial como es el AR.Drone 2.0, garantizandoel cumplimiento de la funcionalidad y objetivos asociados a los diferentes comportamientos, ypor consiguiente, a la navegación autónoma del UAV. Los experimentos se han estructurado enbase al tipo de comportamientos de�nidos dentro de la librería, con el objetivo de probar todasaquellas situaciones ó escenarios que el UAV pueda alcanzar, así como de las posibles di�cultadesque éste pueda encontrar durante su navegación autónoma.

Módulo

Sensorial

Módulo

Cognitivo

Módulo

Control

Módulo

Aprendizaje

Librería de com-

portamientos

Reconocimiento

de landmarks

√

Maniobra de

exploración

√ √

Maniobra de

aproximación

√ √

Aprendizaje

adaptativo

√ √ √

Navegación

autónoma

√ √ √ √ √

Cuadro 15.1: Checklist del Plan de pruebas experimentales

Se ha diseñado un completo Plan de pruebas experimentales (Cuadro 15.1) con el objetivode garantizar la veri�cación de la totalidad de módulos que componen la arquitectura cognitivahíbrida, además de la librería de comportamientos de�nida. Dicho plan recoge la relación queexiste entre cada uno de los experimentos realizados en el laboratorio, con respecto al elementode la arquitectura sobre el que se trabajará para su evaluación y veri�cación.

Para cada experimento se describirán las diferentes casos de prueba realizados, el objetivo quese pretende alcanzar, los datos técnicos utilizados, parametrización y con�guración empleada,las evidencias recopiladas y los resultados obtenidos de cada uno de ellos para poder extraer

127

128 CAPÍTULO 15. PRUEBAS Y RESULTADOS EXPERIMENTALES

conclusiones.

15.1. Experimentos sobre el reconocimiento de landmarks

Las pruebas experimentales sobre el reconocimiento de landmarks consisten en veri�car elcorrecto funcionamiento del clasi�cador K-NN implementado por parte del módulo sensorial queutilizará el UAV durante su navegación, veri�cando que es capaz de identi�car de forma consis-tente un determinado landmark de ejemplo para su posterior utilización dentro de la arquitecturacognitiva híbrida.

15.1.1. Ejecución del experimento

Para veri�car el clasi�cador utilizado en el reconocimiento de landmarks, se ha utilizadoel algoritmo denominado Leave-one-out [42], técnica consistente en evaluar un mecanismo declasi�cación garantizando en todo momento que los datos utilizados para el entrenamiento sonindependientes de los datos que serán utilizados como ejemplos de prueba.

De los N elementos que conforman el dataset completo de elementos (en este caso el datasetde landmarks está compuesto por N = 40 imágenes), el algoritmo utilizará como base de cono-cimiento para el clasi�cador N − 1 elementos, dejando un elemento a parte que será empleadocomo prueba para la evaluación del clasi�cador (Figura 15.1).

Figura 15.1: Proceso de evaluación del clasi�cador basado en la técnica Leave-one-out

15.1. EXPERIMENTOS SOBRE EL RECONOCIMIENTO DE LANDMARKS 129

Dicho proceso se repetirá N veces, tomando en cada iteración i el elemento nicomo elementode prueba a utilizar. Para cada iteración i, se obtendrá como resultado la clase C que mejorencaja para dicho elemento ni, resultado que se comparará con la clase esperada.

Algoritmo 15.1 Pseudocódigo del algoritmo de prueba Leave-one-out

Función leaveoneout


Extracc ión de l elemento i de pruebaActua l i za e l datase t e l iminando e l elemento i ex t ra ido ;

Ejecuta e l c l a s i f i c a c i o n K−NN con e l elemento i ;Devuelve l a Clase C s e l e c c i onada para e l elemento i ;

S i (C es d i s t i n t a a l a Clase con l a que se e t i qu e t ó a lelemento i ) Entonces

I n s e r t a no conformidad en Matriz de Confusion ;Fin S i

Fin Mientras

Fin Funcion

15.1.2. Resultados del experimento

Una vez �nalizada la ejecución del presente experimento, los resultados se han recogidoutilizando para ello una matriz de confusión (Figura 15.2), en donde se presenta el número decoincidencias obtenidas para cada uno de los elementos utilizados como prueba con respecto ala clase esperada.

Figura 15.2: Matriz de confusión como resultado del Leave-one-out

Cuando existe una coincidencia entre la clase actual del elemento ni con respecto a la claseobtenida como resultado de la evaluación del clasi�cación K-NN durante la iteración i, se sumaráuna unidad a la celda correspondiente dentro de la matriz de confusión.

En base a los resultados mostrados en la matriz de confusión de la Figura 15.2, se ha obtenidoque para la totalidad de los elementos de prueba utilizados durante el experimento, el clasi�cadosha devuelto como resultado la clase que se esperaba para cada uno de ellos.


15.1.3. Conclusiones del experimento

En base a los resultados obtenidos durante el presente experimento, se puede considerar alproceso de reconocimiento de landmarks implementado en el módulo sensorial como e�cientey robusto, cumpliendo con la totalidad de requisitos necesarios para que pueda ser utilizadodurante la navegación autónoma del UAV. El proceso de reconocimiento de landmarks ofrecea través del clasi�cador K-NN la clase C más adecuada así como del error de clasi�cación ε,magnitud que mide la calidad obtenida durante dicho proceso de clasi�cación.

De esta forma, el módulo sensorial además de proporcionar a la arquitectura cognitiva hí-brida de los mecanismos necesarios para capturar las imágenes provenientes del UAV y llevara cabo su procesamiento, dota de la capacidad para clasi�car dichas imágenes, para que �nal-mente se puedan desencadenar los comportamientos adecuados de�nidos dentro de la librería decomportamientos para la identi�cación de los landmarks de�nidos en el mapa topológico visualasociado.

15.2. Experimentos sobre maniobras de exploración y evitación

de obstáculos

Cuando el UAV está situado a lo largo de estados desconocidos en donde no es capaz dereconocer ninguno de los landmarks de�nidos dentro del mapa topológico visual, el valor del errorε de clasi�cación proporcionado por el módulo sensorial es alto, por lo que deberá garantizarseexperimentalmente que el modo de navegación denominado Search mode basado en el cálculode la entropía funciona de forma correcta. Para ello, se han de�nido una serie de experimentospara que el UAV ejecute diversas maniobras que impliquen la activación del comportamiento deexploración, junto con el de evitación de obstáculos, ya que ambos se pueden ejecutar de formacombinada durante el modo de navegación Search mode.


Se ha montado dentro del laboratorio un entorno en donde se han ubicado los diferenteslandmarks recogidos por el mapa topológico de la Figura 14.3. En primer lugar, para realizarlas pruebas experimentales sobre maniobras de exploración, se ha situado el UAV en un estadoinicial que le es desconocido con un valor de ε alto, y cuyo objetivo será el localizar posibleslandmarks dentro del entorno, buscando para ello zonas dentro de su campo de visión en dondeel valor entrópico sea alto. En una ubicación próxima a dicho estado inicial (estado desconocido)está situado uno de los landmarks de�nidos dentro del mapa topológico (estado conocido), conel objetivo de comprobar que mediante el comportamiento de exploración el UAV es capaz deorientar su rumbo de navegación hacia dicho landmark.

Como segundo escenario, se han ubicado dentro del entorno una serie de obstáculos entreel UAV con respecto a los landmarks del mapa topológico, con el objetivo de que se active elcomportamiento de evitación de obstáculos, y poder comprobar que el UAV es capaz de evitarcolisionar con los mismos, mediante la búsqueda dentro de su campo de visión de aquellas zonascon entropía más alta, ya que las zonas visuales con entropía baja se consideran como parte delobstáculo en cuestión.

15.2. EXPERIMENTOS SOBREMANIOBRAS DE EXPLORACIÓN Y EVITACIÓN DEOBSTÁCULOS131


Partiendo de las pruebas experimentales relativas a la ejecución del comportamiento de ex-ploración, se han obtenido los datos de navegación relativos por cada una de las iteraciones kejecutadas por parte del bucle de control de la arquitectura cognitiva híbrida.

En la Figura 15.3se muestran los diferentes estados por los que el UAV ha navegado activandoel comportamiento de exploración, para determinar el rumbo necesario que debía tomar en cadauno de los casos y poder alcanzar el landmark que aparece en la secuencia de imágenes.

Figura 15.3: Secuencia de imágenes en la maniobra de exploración del UAV

Los diferentes casos de prueba ejecutados (Figura 15.3) son los siguientes:

Caso (a): la entropía más alta Hd está concentrada en el marco derecho de su campo devisión, por lo que el UAV ejecuta un giro hacia la derecha mediante la señal de controlyaw.

Caso (b): la entropía más alta Hc está concentrada en el marco central de su campo devisión, por lo que el UAV ejecuta una maniobra de cabeceo hacia el landmark mediante laseñal de control pitch.


Caso (c):la entropía más alta Hi está concentrada en el marco izquierdo de su campo devisión, por lo que el UAV ejecuta un giro hacia la izquierda mediante la señal de controlyaw.

Figura 15.4: Valores de navegación para la maniobra de exploración


En la Figura 15.4, se muestran las tablas con los valores de navegación utilizados por el UAVen los casos (a),(b) y (c) por cada una de las iteraciones ejecutadas, englobando los diferentesduplas de valores {η, εsensorial} relativas a los errores εsensorial proporcionados en cada momentopor el clasi�cador, junto con el landmark etiquetado con valor η que ha sido identi�cado (en estecaso el landmark etiquetado como η = 3 según el mapa topológico utilizado).

En base a dichas variables se puede observar cómo el UAV está situado en un estado desco-nocido ya que su error ε asociado es alto, por ello el valor empleado en la columna de estado esε = 5 (existen 4 landmarks etiquetados en el mapa topológico, y el valor ε = 5 signi�ca que elUAV está en un estado desconocido).

Por otro lado se muestran los cálculos de la entropía realizados en cada una de las zonas devisión {Hi, Hc, Hd} del UAV llevados a cabo por el módulo cognitivo, y que serán empleados porel comportamiento para generar las señales de control más adecuadas {pitch, gaz, yaw} que semuestran en el resto de columnas de la tabla por cada iteración.

Como segunda parte dentro del presente experimento, también se ha comprobado la robustezde dichos cálculos entrópicos para dotar al UAV de la inteligencia necesaria para evitar obstáculosque puedan estar ubicados dentro del entorno de navegación.

Figura 15.5: Secuencia de imágenes en la maniobra para evitar obstáculos del UAV


En la Figura 15.5 se muestran los diferentes situaciones en donde el UAV activa el comporta-miento para evitar los obstáculos que se presentan en su campo de visión; de esta forma y en basea la misma estrategia para la maximización de la entropía implementado en el módulo cognitivo,que el UAV sea capaz de tomar una decisión en relación a la maniobra que debe realizar en cadacaso para evitar una colisión con los mismos.

Los diferentes casos de prueba ejecutados en el presente experimento para evitar obstáculos(Figura 15.5) son los que se enumeran a continuación:

Caso (a): la entropía más baja es Hi, por lo que existe un obstáculo en el marco izquierdodentro del campo visual del UAV; en este caso y siguiendo las directrices marcadas por elmódulo cognitivo, el UAV ejecuta un giro hacia la derecha mediante la señal de controlyaw, buscando la entropía más alta concentrada en Hd.

Caso (b): la entropía más baja es Hc, por lo que existe un obstáculo justo delante del UAVsegún su campo visual; cuando ocurre dicha situación, el UAV tendrá la opción de girarhacia la izquierda ó hacia la derecha mediante la señal de control yaw, pudiendo utilizarla entropía más alta concentrada en Hi ó Hd.

Caso (c):la entropía más baja es Hd, por lo que existe un obstáculo en el marco derechodentro del campo visual del UAV; cuando se produce éste caso, el UAV ejecuta un giro haciala izquierda mediante la señal de control yaw, buscando la entropía más alta concentradaen Hi.

La Figura 15.6 muestra las tablas con los valores de navegación utilizados por el UAV en loscasos (a),(b) y (c) para evitar los obstáculos que se presentan en cada uno de ellos. En base a lasdirectrices marcadas por el módulo cognitivo y a los cálculos de la entropía en cada una de laszonas de visión {Hi, Hc, Hd}, se han obtenido las señales de control {pitch, gaz, yaw} indicadasen dichas tablas para su ejecución por parte del UAV.

Durante el presente experimento, ambos comportamientos se han ejecutado de forma com-binada según lo establecido por el mecanismo de coordinación de comportamientos especi�cadoen la librería de la arquitectura.

Debido a que el comportamiento de evitación de obstáculos emplea la operación lógica desupresión, en el caso de activarse ambos comportamientos a la vez durante el modo de navegaciónSearch Mode, únicamente se tienen en cuenta las señales de control obtenidas como salida delpresente comportamiento de evitación de obstáculos. Dicha operación lógica de supresión tambiénpodrá combinarse con el comportamiento de aproximación, cuando el mecanismo híbrido decontrol conmute al modo de navegación Homing Mode.

En ambos modos de navegación, la idea principal es garantizar en todo momento la seguridaddel entorno y la propia integridad del UAV cuando existen obstáculos a lo largo del entornooperativo, cumpliendo de ésta forma con los requisitos de protección y robustez exigidos duranteel diseño de la presente arquitectura.


Figura 15.6: Valores de navegación para la maniobra de evitación de obstáculos


El UAV hace uso durante su navegación de un mapa topológico visual para identi�car encada momento el estado en donde se encuentra dentro de su entorno, existiendo determinadosestados que le son desconocidos ya que no es capaz de identi�car ningún landmark conocido en


los mismos. Dicho escenario es solventado en base al denominado modo de navegación SearchMode implementado en la presente arquitectura cognitiva híbrida, y que en base a una estrategiade maximización de la entropía de las imágenes capturadas, es capaz de redirigir el rumbo delUAV hacia estados de alta entropía en donde puedan estar localizados potenciales landmarks aidenti�car.

De esta forma, y en base a los resultados obtenidos durante el presente experimento, se puedea�rmar que el módulo cognitivo cumple de forma satisfactoria con todos los requisitos demanda-dos para desarrollar toda la actividad que es requerida tanto para la exploración durante estadosdesconocidos, así como para utilizar esas mismas directrices para implementar comportamientosque sirvan para evitar obstáculos que puedan aparecen en el entorno de ejecución del UAV.

Los resultados obtenidos con respecto al comportamiento para evitar obstáculos son positivoscuando se considera a un obstáculo como una zona visual de baja entropía dentro del campo devisión del UAV, ya que de forma general, se ha comprobado mediante experimentación que laentropía disminuye a medida que el UAV se acerca de forma muy acentuada hacia un obstáculo.La debilidad de dicho comportamiento se re�ejaría cuando dicha regla no fuese cierta, ya que si seda un caso en donde la entropía aumenta a medida que el UAV está muy cerca de un obstáculo,dicho comportamiento no sería capaz de evitar la colisión. Como solución a dicha debilidad, elsistema podría ser entrenado solo en dichos casos mediante aprendizaje supervisado, empleandola técnica de Teaching proporcionada por la arquitectura.

También se plantea como solución alternativa, la implantación a bordo de nuevos sensoresque ayudaran en estos escenarios a la detección de dichos obstáculos en cuestión (como podríanser sensores de ultrasonidos ó láser), ampliando de esta forma la actual capacidad sensorial delAR.Drone.

15.3. Experimentos sobre maniobras de aproximación e identi�-

cación de landmarks

Para veri�car que el control dual de la arquitectura funciona de forma correcta, se realizaránpruebas en donde intervenga el mismo para el cálculo de nuevas señales de control en todosaquellos comportamientos que son activados durante maniobras de aproximación e identi�cacióncon respecto a un determinado landmark, englobando todos los casos en donde el valor del errorε de clasi�cación es bajo. Dichas maniobras son básicas para que el UAV se sitúe cercano a undeterminado landmarks y proceder a su identi�cación, aspecto fundamental para llevar a cabola navegación autónoma según lo establecido en el mapa topológico visual.


Se ha situado el UAV sobre un determinado punto inicial dentro del entorno experimentala una determinada distancia cercana al radio de aproximación (ra), con respecto a uno de loslandmarks especi�cados en el mapa topológico. El objetivo es que el UAV alcance dicho radio deaproximación, para lo cual el control dual comenzará su ejecución para obtener señales ut cada vezmás óptimas para su envío al UAV. Dichas señales estarán basadas en los cálculos realizados porel control FeedBack mediante su señal ufb en base a las diferentes imágenes que son capturadasmediante la cámara que el UAV lleva a bordo, así como de las señales uff proporcionadas por el

15.3. EXPERIMENTOS SOBREMANIOBRAS DE APROXIMACIÓN E IDENTIFICACIÓN DE LANDMARKS137

control FeedForward, y que han sido consolidadas a lo largo de su fase operativa del experimentode forma adaptativa, mediante la interacción del robot con su entorno.

Cuando el UAV alcanza el radio de aproximación Lra asociado al landmark L, se procederáa ejecutar la maniobra especi�cada en el arco correspondiente dentro del mapa, considerandoque la maniobra de aproximación se ha ejecutado de forma correcta ya que ha sido capaz deaproximar el UAV hacia dicho landmark para su identi�cación.


Durante el experimento relativo a las maniobras de aproximación, se han registrado las di-ferentes imágenes capturadas por parte de la cámara del UAV durante dicha maniobra hacia ellandmark; la Figura 15.7 muestra la secuencia de imágenes que se han obtenido como resultado,en donde se demuestra cómo el UAV de forma progresiva y partiendo de un estado inicial alejado,logra alcanzar el landmark, identi�carlo y ejecutar la maniobra correspondiente para redirigir surumbo hacia el siguiente landmark especi�cado dentro del mapa topológico visual.

Figura 15.7: Secuencia de imágenes de la maniobra de aproximación (1.x), y de la posteriormaniobra de identi�cación (2.x) del UAV. Se indica en la imagen (2.a) la iteración k exacta endonde el UAV alcanza el radio de aproximación Lra asociado al lanmark L.

A medida que el UAV lleva a cabo la maniobra de aproximación hacia el landmark L utilizadocomo ejemplo en el presente experimento, el valor del error ε de clasi�cación se va reduciendoprogresivamente hasta alcanzar el radio de aproximación asociado con dicho landmark (ε < Lra).

La Figura 15.8, muestra la reducción del valor del error ε a lo largo de las k iteracionesejecutadas durante el experimento, asi como de la secuencia de imágenes capturada sobre cadauna de las iteraciones correspondientes. El UAV parte de un estado inicial situado sobre lasuper�cie del entorno que le es desconocido (k = 4), con ε = 5 como error máximo de clasi�cación.Progresivamente se activa el comportamiento de aproximación entre las iteraciones k = 15 y k =30. El UAV alcanza el radio de aproximación Lradel nodo en la iteración k = 31, procedimiento


a su identi�cación completa, y por consiguiente, activando el comportamiento de identi�caciónentre las iteraciones k = 32 y k = 34.

Figura 15.8: Grá�co que muestra la reducción del valor del error ε durante la maniobra deaproximación del UAV hacia el landmark L, y la posterior maniobra de identi�cación del mismo

En este punto y de forma inmediata, se lleva a cabo la maniobra especi�cada en el arcoque une al actual nodo L con el próximo landmark a visitar dentro del mapa topológico, paraestablecer el rumbo que el UAV deberá tomar para proseguir con su navegación autónoma.

Las señales de control ut que se ha genera en cada una de las iteraciones k ejecutadas duranteel experimento se muestran en la Figura 15.9.

Figura 15.9: Grá�co de las señales de control {pitch, gaz, yaw} generadas en cada iteración kdurante las maniobras de aproximación e identi�cación del UAV

La parametrización del control dual para la ejecución del experimento, ha empleado lossiguientes valores para los factores multiplicativos utilizados por el control FeedBack: µpitch =

15.4. EXPERIMENTOS SOBRE EL APRENDIZAJE ADAPTATIVO DEL UAV 139

0,01 y µyaw = 0,001. Para el cálculo de la señal combinada ut �nal, se han establecido lossiguientes valores de ponderación: wfb = 0,7 y wff = 0,3. Dichos valores se han determinado enbase al grado de madurez que poseía el sistema durante el experimento.


En base a los resultados obtenidos se veri�ca que el UAV es capaz de llevar a cabo maniobrasde aproximación hacia un determinado landmark L de forma satisfactoria, con el objetivo �nalde llevar a cabo su identi�cación, y por consiguiente, dotarle de la robustez su�ciente paradesarrollar una navegación de forma autónoma a través del entorno de operación. Se ha situadoel UAV en un punto lo su�cientemente alejado del landmark L para desencadenar la activación delcomportamiento de aproximación de�nido en la librería, comprobando de ésta forma la correctautilización de los valores de sus entradas, y cómo las señales de control generadas por el mismo soncapaces de reducir el valor del error ε de forma progresiva hasta alcanzar el radio de aproximaciónra correspondiente.

Adicionalmente se ha demostrado el correcto empleo del comportamiento de identi�cación, yaque cuando el UAV ha alcanzado del radio de aproximación ra especi�cado, procede a ejecutarla maniobra especi�cada para dicho landmark L en el arco correspondiente dentro del mapatopológico, y por consiguiente, proporciona un mecanismo adecuado para redirigir el rumbo delUAV hacia el siguiente landmark durante su navegación autónoma.

15.4. Experimentos sobre el aprendizaje adaptativo del UAV

Se han de�nido un conjunto de casos de prueba con el objetivo de veri�car que el proceso deaprendizaje adaptivo del UAV con respecto a su entorno se realiza de forma e�ciente, adquiriendode forma continua y en tiempo real todo el conocimiento su�ciente para que las señales de controla ejecutar por el mismo en cada momento sean más óptimas con el paso del tiempo. Mediantedicho experimento se pretende medir la capacidad predictiva que la presente arquitectura cogni-tiva híbrida es capaz de proporcionar al UAV, convirtiendo a éste en un agente inteligente capazde tomar buenas decisiones a lo largo de su navegación autónoma.


Para la realización de este conjunto de pruebas experimentales se ha partido inicialmentede un UAV con un conocimiento previo basado únicamente en el mapa topológico a estableci-do, así como del dataset de landmarks asociado con el mismo. En base a dicho conocimientoprevio, se han ido recopilando los diferentes resultados parciales relativos a la ejecución de unaserie de �trials�, para veri�car que efectivamente, el UAV tiene la capacidad de adquirir nuevoconocimiento de forma adaptativa, y que éste puede ser empleado para mejorar su capacidad depredicción, y por tanto de su rendimiento dentro del entorno operativo.

Como mecanismo para veri�car la evolución obtenida del proceso de aprendizaje, se hancalculado las diferencias obtenidas entre las señales ufb obtenidas por el controlador FeedBack,con respecto a las señales uff proporcionadas por el controlador FeedForward. Dichos resultadosse han utilizado posteriormente para calcular el grado de madurez del sistema en el tiempo,obteniendo las evidencias oportunas para comprobar el correcto funcionamiento del módulo de


aprendizaje a través de la ejecución de dichos controladores implementados en el módulo decontrol.


Para veri�car el correcto funcionamiento del módulo de aprendizaje de la arquitectura cogniti-va híbrida, se han ejecutado un conjunto de �trials� en forma de casos de prueba cuyos resultadosaparecen en la Figura 15.10.

Para cada uno de estos casos de prueba experimentales, el UAV ha ejecutado una misma ma-niobra, consistente en la activación de su comportamiento de exploración, seguida de la activacióndel comportamiento de aproximación, y �nalmente, la ejecución de la maniobra especi�cada enel arco correspondiente al landmark en cuestión que haya sido identi�cado.

Las grá�cas de los diferentes casos de prueba (trial 1-3), recogen las diferencias obtenidasentre las señales ufb generadas de forma reactiva por parte del controladores FeedBack, conrespecto a las señales de control uff que han sido generadas por el controlador FeedForward deforma anticipativa, y en base al conocimiento que ha sido adquirido de forma continua ante esemomento, mediante el entrenamiento llevado a cabo en cada una de las iteraciones k por partedel módulo de aprendizaje.

De forma inicial (trial 1), el UAV parte únicamente con un conocimiento previo del entorno(mapa topológico visual) y de los landmarks (dataset) ubicados en el mismo, debido a lo cuallas diferencias entre las señales de control generadas por ambos controladores son altas; lasdiferencias de la señal pitch llegan a alcanzar valores cercano a 0,2, y la señal yaw valores inclusomás altos de 0,2, partiendo de la idea que que las diferencias deberían estar cercanas a 0 paraconsiderar que el UAV está llevando a cabo un aprendizaje correcto del entorno.

Durante este primer caso experimental, el UAV no es capaz de identi�car ningún landmark,dando �nalizado el experimento alrededor de la iteración k = 51.

El experimento se vuelve a repetir (trial 2), en donde el UAV parte desde la misma ubicacióndentro del entorno que en el caso anterior, con el objetivo de realizar las mismas maniobras.En esta oportunidad, se han obtenido unos resultados que re�ejan una evolución del proceso deaprendizaje llevado a cabo anteriormente, ya que se observa un descenso de las diferencias entrelas señales de control por debajo de 0,2, con una tendencia descendente de forma progresivahasta la iteración k = 35.

Concretamente en la iteración k = 37, se produce un aumento muy marcado de la diferenciaasociada a la señal yaw que llega a alcanzar valores alrededor de 0,7, debido a la identi�cacióndel landmark y a la ejecución de la maniobra especi�cada en su arco correspondiente dentro delmapa topológico. A partir de dicha iteración una vez identi�cado el landmark, el UAV entra enmodo de exploración, por lo que las diferencias de la señal yaw aumentan, ya que en el trial 1 nose había llegado hasta éste estado, y por lo tanto, el módulo de aprendizaje no había sido capazde entrenar al controlador FeedForward en dicha situación.

Finalmente (trial 3), se obtienen los resultados de las diferencias de las señales de controlrepitiendo las mismas condiciones que en los casos experimentales anteriores. Dichos resultadosson mucho mejores que en los casos anteriores, ya que las diferentes entre ambas señales seconsolidan alrededor de 0,2 incluso cercanos a 0,1. Cabe destacar especialmente la identi�cacióndel mismo landmark que en el trial 2, pero en este caso en la iteración k = 30, reduciendo deésta forma el número de iteraciones que son necesarias para su identi�cación.

15.4. EXPERIMENTOS SOBRE EL APRENDIZAJE ADAPTATIVO DEL UAV 141

Figura 15.10: Grá�cos relativos a los trials experimentales ejecutados, que demuestran mediantelas diferencias entre las señales ufb y uff durante la ejecución de una misma maniobra, laevolución favorable del aprendizaje del UAV.

A partir de la identi�cación del landmark, se lleva a cabo la ejecución del mismo modo deexploración que en el trial 2, pero en este caso el controlador, ya entrenado previamente por el


módulo de aprendizaje, obtiene mejores resultados en cuanto a las diferencias de ambas señalesde control, mostrando una tendencia hacia 0 hasta la �nalización del experimento.

En base a dichos resultados experimentales, para visualizar la evolución del proceso de apren-dizaje del UAV se han calculado los grados de madurez asociados a cada uno de los trials ante-riormente presentados (Figura 15.11), demostrando que el grado de madurez del UAV tiene unatendencia alcista, y por consiguiente que a través del módulo de aprendizaje, el UAV adquiereel conocimiento necesario para llevar a cabo sus maniobras de forma más e�ciente y de formapreventiva.

Figura 15.11: Grá�co que demuestra la mejora continua del grado de madurez del UAV, a lolargo de los diferentes trials experimentales ejecutados.

Partiendo de la veri�cación de que el módulo de aprendizaje lleva a cabo su trabajo de formacorrecta, se han ejecutado varios experimentos dentro de los mismos estados dentro del entorno,pero con diferentes valores en la parametrización de los pesos wfby wff para la generación de laseñal de control ut �nal que será enviada al UAV.

Figura 15.12: Tabla que muestra diferentes con�guraciones de wfby wff , junto con la iteraciónk correspondiente al momento en el cual el UAV alcanza el objetivo establecido.

En la Figura 15.12, se recogen los resultados obtenidos para diferentes valores sobre ambospesos; inicialmente el control dual hace uso exclusivamente de los valores obtenidos por el con-

15.5. EXPERIMENTOS SOBRE NAVEGACIÓN AUTÓNOMA DEL UAV 143

trolador FeedBack (wfb = 1), llevando a cabo un control exlusivamente reactivo, mediante elcual el objetivo especi�cado se alcanza en la iteración k = 33 del experimento. Progresivamentese va dando mayor protagonismo al controlador FeedForward, y en los siguientes experimentos(wfb = 0,7 y wfb = 0,5), se obtienen mejores resultados (k = 22 y k = 26) que en el primercaso, gracias a la aportación conjunta de ambos controladores, combinando los cálculos reactivosgenerados a partir de la información sensorial, y de los cálculos anticipativos ó preventivos ob-tenidos a partir del aprendizaje realizado a lo largo de los experimentos previos. Finalmente, seha ejecutado el mismo experimento pero empleando exclusivamente el controlador FeedForward(wfb = 0), obteniendo en este caso resultados menos positivos (k = 110), debidos principalmentea la inmadurez que el sistema poseía en el momento de la ejecución de dicho experimento, aunquemanteniendo la capacidad para la identi�cación de los objetivos establecidos.


Como conclusión a los resultados obtenidos, durante la ejecución de las pruebas experimenta-les relativas al proceso de aprendizaje del UAV se pude garantizar que el módulo de aprendizajeactúa de forma satisfactoria en la capacidad de adquirir nuevo conocimiento y proceder a su con-solidación, para que el UAV mejore su adaptación al entorno de forma continua en el tiempo, ypor consiguiente, ejecutar maniobras cada vez más óptimas sobre el mismo de forma preventiva.

Mediante dicho aprendizaje adaptativo, el control dual es capaz de combinar junto a sucapacidad reactiva para la generación de señales de control, la anticipación adquirida a través delcontrolador FeedForward, siendo igualmente validada su capacidad para ser entrenado de formaefectiva en tiempo real, cumpliendo de ésta forma uno de los principales requisitos especi�cadosdurante el diseño de la arquitectura. El módulo de aprendizaje mejora igualmente el rendimientodel sistema, siendo capaz de alcanzar determinados objetivos en un número cada vez más reducidode iteraciones, lo que aporta un ahorro energético muy considerable al tratarse de un sistema entiempo real y que su navegación se lleva a cabo en un entorno aéreo.

Finalmente se han obtenido buenos resultados en la combinación de los controladores Feed-Back y FeedForward que constituyen el control dual de la arquitectura; se ha demostrado que lasiteraciones que son necesarias para alcanzar un determinado objetivo se reducen cuando se utili-zan de forma conjunta ambos controladores. Según los resultados obtenidos, cuando únicamentese utiliza un controlador, los resultados son peores, por lo que sería necesario como línea de in-vestigación futura a considerar, la ejecución de técnicas de optimización de los pesos (wfb y wff )asociados a ambas señales, para obtener unos valores más óptimos dentro de un determinadoentorno.

15.5. Experimentos sobre navegación autónoma del UAV

Una vez que se han veri�cado de forma individual cada uno de los módulos que componenla arquitectura cognitiva híbrida, el presente experimento englobará todos aquellos casos deprueba de integración que permitan validar la arquitectura de forma completa, y por consiguiente,obtener la viabilidad de la misma en la navegación autónoma de UAV.

El experimento sobre navegación autónoma del UAV se llevará a cabo en un entorno indoor,utilizando para ello el mapa topológico previamente construido. Partiendo de los resultadosobtenidos de dichos experimentos, se pretende demostrar que la arquitectura cognitiva híbrida


cumple con la totalidad de requisitos especi�cados a lo largo de la presente tesis.


El objetivo del presente experimento es demostrar que el UAV es capaz de navegar de formaautónoma a través de un entorno indoor, utilizando para ello un mapa topológico visual (Figura14.3) previamente establecido, y que partiendo de un landmark inicial (landmark etiquetadocomo η = 4) logra alcanzar un landmark destino ó �nal (landmark etiquetado como η = 1).

La arquitectura cognitiva híbrida será la encargada de tratar la información sensorial que elUAV recopila del entorno, y mediante una serie de cálculos cognitivos y de control, proporcionara éste las señales de control más adecuadas en cada momento para alcanzar su objetivo.

Durante la navegación autónoma del UAV, se han ido activando los diferentes comportamien-tos de�nidos en la librería proporcionada por la arquitectura, en aquellas situaciones en dondeel UAV se encontraba en un estado desconocido (exploración), así como cuando estaba próxi-mo ó cercano a un determinado landmark (aproximación) ó bien lo haya identi�cado de formasatisfactoria (identi�cación). De forma paralela, se ha veri�cado que es capaz de evitar todosaquellos obstáculos que se puedan presentar durante su navegación (evitación de obstáculos);por último, se veri�cará también el control de la altitud durante su navegación (control altitud),comprobando que es la adecuada para salvaguardar su propia integridad.


Una vez �nalizadas las pruebas de ejecución experimentales, se han obtenido una serie deevidencias que demuestran la viabilidad de la arquitectura cognitiva híbrida para la navegaciónautónoma de un UAV empleando mapas topológicos visuales.

Figura 15.13: Navegación autónoma indoor del UAV mediante mapas topológicos visuales


Según el mapa topológico establecido (Figura 14.3), el UAV ha sido capaz de, partiendo de unestado desconocido, alcanzar su objetivo L1 (landmark etiquetado como 1) en k = 118 iteracionesdel bucle de control. El tiempo medio que ha empleado para alcanzar el landmark �nal ha sidode aproximadamente 50 segundos.

Durante el experimento, el UAV ha sido capaz de partiendo de un estado desconocido próximoal landmark inicial, visitar de forma secuencial los diferentes landmarks de�nidos dentro del mapatopológico, reduciendo en todo momento la distancia que le separaba del landmark objetivo. Paraello, el mecanismo híbrido de control ha conmutado al modo de navegación Search Mode cuandolos estados eran desconocidos, y al modo de navegación Homing Mode cuando estaba próximo aun landmark a identi�car. El UAV tomó como resultado de sus visitas a los diferentes landmarksla secuencia de imágenes que muestra la Figura 15.13. Dichas imágenes fueron capturadas porel módulo sensorial justo cuando el UAV identi�có de forma correcta cada uno de los landmarksLn.

Figura 15.14: Grá�cos de evolución de los cálculos entrópicos {Hi, Hc, Hd} y del error ε obtenidosdurante la navegación autónoma del UAV

En el momento en el cual el landmark Ln en cuestión es identi�cado en la iteración k, elUAV orientará su rumbo hacia el próximo landmark de�nido Ln−1 dentro del mapa topológico.Para ello ejecuta dentro de dicha iteración k la maniobra especi�cada en el arco que une dicho


landmark Ln que acaba de ser visitado e identi�cado, con respecto al próximo landmark Ln−1avisitar por el UAV.

Como variables a tener en cuenta para ejecutar el mecanismo híbrido de control durante laconmutación de los modos navegación del UAV, se han empleado en cada una de las iteracionesk los valores de {Hi, Hc, Hd} y ε mostrados en las tablas de la Figura 15.14. Se puede observaren base a dichos resultados del experimento, como es Hd el valor entrópico más alto de la ternacalculada, ya que en la mayoría de las iteraciones y según lo establecido en el mapa topológicovisual utilizado, los landmarks que deben ser identi�cados están a la derecha dentro de su campovisual. Existen lógicamente variaciones cuando los landmarks están justo delante del UAV, ócuando por causa de las señales de control generadas, los posibles landmarks se sitúan a suizquierda.

Figura 15.15: Grá�co de las señales de control {pitch, gaz, yaw} generadas en cada iteración kdurante la navegación autónoma del UAV

En base a dichos resultados, se demuestra cómo el ε devuelto por el módulo sensorial se reducea lo largo de las iteraciones ejecutadas sobre el entorno durante el experimento, reduciéndose amedida que se visitan los diferentes nodos del mapa topológico, y por consiguiente, el UAV escapaz de alcanzar su objetivo �nal.

Cuando ε = 5 el UAV está situado en estado desconocidos, que generalmente se encuentranentre dos landmarks de los especi�cados en el mapa, y es por ello por lo que se utilizarán lasseñales de control generadas por el módulo cognitivo.

Por otro lado, cuando el ε tiende a su minimización, el UAV está cercano a un determinadolandmark que es capaz de identi�car, siendo el módulo de control dual el que genera las señalesde control a ejecutar de forma predictiva y reactiva de forma combinada. Justo cuando el UAVha identi�cado a uno de los landmarks Ln según lo mostrado en la Figura 15.13, se puede verla iteración exacta en donde se produce y como ε alcanza un valor entero n (4, 3, 2 ó 1) que secorresponde con la etiqueta η asignada a cada landmark dentro de un determinado nodo n delmapa topológico.


Las señales de control que se generan para cada una de las iteraciones k ejecutadas duranteel experimento, se muestran en la Figura 15.15.

Dichas señales de control se caracterizan por ser valores discretos cuando se activa el modode navegación Search Mode durante la conmutación; por el contrario, se emplean señales decontrol con valores reales cuando es el modo de navegación Homing Mode el que es activado enla conmutación a través del mecanismo híbrido de control.

El control de altitud gobernado por la señal gaz varia principalmente cuando el UAV llevaa cabo maniobras complejas, ya que en dichos escenarios deberá corregir su altitud para estardentro de los umbrales de altitud de�nidos (en el presente experimento el valor referente a laaltitud media se ha establecido en Λ = 80cm sobre el suelo del entorno del laboratorio). Dichovalor de altitud se deberá adaptar al entorno concreto de navegación, dependiendo de de latopología del mismo, así como de los diferentes obstáculos ó barreras arquitectónicas localizadasa lo largo del mismo.

En cuanto al resto de señales, caben destacar las maniobras de identi�cación de landmarksque se producen cuando un determinado landmark es identi�cado completamente, ya que el UAVejecuta la maniobra de�nida dentro del arco correspondiente; en este caso las maniobras tienenuna tendencia a realizar giros hacia la derecha de la posición del UAV según lo establecido en elmapa topológico visual, y que se realizan alrededor de las iteraciones k = 53, k = 65 y k = 89,que se corresponden con las iteraciones en donde el UAV ha tomado la secuencia de imágenes(Figura 15.13)de dichos landmarks. El landmark �nal L1se identi�ca alrededor de la iteraciónk = 117, y como maniobra �nal el UAV lleva a cabo una maniobra de aterrizaje justo delantedel mismo, �nalizando de ésta forma su navegación autónoma.


Mediante los resultados obtenidos durante la ejecución del presente experimento, se ha de-mostrado cómo la presente arquitectura cognitiva híbrida diseñada en esta tesis es capaz de dotarde una solución funcional viable a un UAV para que lleve a cabo una navegación autónoma através de un entorno de 3 dimensiones, utilizando para ello un mapa topológico visual.

Una de las principales conclusiones extraídas a partir del presente experimento, es que el UAVes capaz de partiendo de un estado desconocido dentro de dicho entorno, y utilizando únicamenteel mapa topológico de�nido, alcanzar su objetivo mediante la captura de imágenes y clasi�caciónde las mismas proporcionado por su módulo sensorial y cálculo de las señales de control másadecuadas en cada momento utilizando cálculos entrópicos y el control dual presentado.

Las pruebas se ha llevado a cabo dentro de un entorno indoor, pero pueden ser fácilmentetrasladables a otros tipos de entornos exteriores siempre y cuando se confeccione un mapa to-pológico adecuado de los landmarks que el UAV puede encontrarse durante su navegación, y secumplan los requisitos especi�cados para su construcción.

En base a dichos resultados, se ha demostrado cómo la arquitectura cognitiva híbrida cumplecon el paradigma de robots de desarrollo, ya que el UAV partiendo de un conocimiento inicialbasado en el mapa topológico, y mediante un aprendizaje adaptativo con su entorno a través delmódulo de aprendizaje, es capaz de alcanzar sus objetivos, además de adquirir una capacidadpreventiva que le dota de inteligencia durante su navegación autónoma.

También se ha demostrado que el control cognitivo es una solución novedosa presentada enesta tesis, para dirigir el rumbo del UAV en situaciones desconocidas para el mismo, cuando se


encuentra en estados que nunca ha visitado con anterioridad, y que unido al paradigma de mode-los internos implementado por el control dual, hacen de la presente arquitectura cognitiva híbridauna solución válida para su aplicación en el mundo real, así como nueva línea de investigaciónfutura.

Parte V

CONCLUSIONES

149

Capítulo 16

Conclusiones

Como resultado �nal de la presente tesis se ha detallado el análisis, diseño, construcción, im-plantación y prueba de una solución basada en técnicas de inteligencia arti�cial, computacionalesy cognitivas, para dotar a un UAV de un completo conjunto de comportamientos inteligentes quepueda emplear para llevar a cabo una navegación autónoma a través de un determinado entorno.Como guía para llevar a cabo dicha navegación, el UAV utiliza como herramienta el concepto demapa topológico visual, en donde se establecen los diferentes landmarks ubicados en el entorno,y se de�nen las maniobras especí�cas de las que puede hacer uso para redirigir su rumbo en cadamomento, y poder alcanzar los objetivos de navegación establecidos.

La arquitectura cognitiva híbrida se ha construido sobre una serie de pilares en forma demódulos funcionales interconectados, diseñados principalmente en base a dos paradigmas comoson el Developmental Robots, construyendo de esta forma un robot de desarrollo que adquiere elconocimiento necesaria mediante una interacción continua con el entorno de forma adaptativa, ypor otro lado de la implementación de un control dual basado en el paradigma de Internal Models,en donde se combinan dos tipos de controladores que permitan calcular señales de control deforma anticipativa y reactiva; el control dual tiene la capacidad de llevar a cabo un entrenamientoadaptativo del mismo, cumpliendo el requisito demandado como robot de desarrollo.

Para la construcción de los diferentes módulos de la arquitectura, se han utilizado un conjuntode técnicas basadas en la inteligencia arti�cial y en estudios neurocientí�cos aplicados sobre lateoría de control como son las siguientes:

Módulo sensorial: visión computacional (OpenCV[6]) y machine learning[1] (clasi�cadorK-NN).

Módulo cognitivo: machine learning, intrinsic motivation (entropía).

Módulo de control: teoría de control (control biomimético) y machine learning[1] (redesneuronales arti�ciales).

Módulo de aprendizaje: machine learning[1] (redes neuronales arti�ciales).

Módulo actuador: teoría de control (bucle de control de lazo cerrado).

Librería de comportamientos: agentes inteligentes[66].

151

152 CAPÍTULO 16. CONCLUSIONES

Para llevar a cabo la veri�cación de la arquitectura cognitiva híbrida, se ha diseñado un plan depruebas experimentales que engloba la ejecución de una serie de experimentos para comprobarla trazabilidad entre los requisitos especi�cados por cada uno de los módulos de la arquitecturay los comportamientos de la librería diseñada, con respecto a los resultados obtenidos. En base adichos resultados experimentales se ha demostrado satisfactoriamente el correcto funcionamientode la arquitectura cognitiva, así como de su aplicación sobre plataformas robóticas reales, comoes el AR.Drone 2.0 que ha sido utilizado a lo largo de todos los experimentos.

De esta forma, el diseño de la presente tesis puede ser aplicable en multitud de escenarios delmundo real que requieran de una navegación autónoma aérea, en donde existan ciertos estadosconocidos, como es el caso de los landmarks, así como de estados desconocidos, en donde lasnovedosas técnicas cognitivas aquí presentadas son una solución válida.

Teniendo en cuenta las pruebas experimentales que se han ejecutado para la generación deesta tesis y de los resultados obtenidos, en los siguientes apartados se mostrarán las diferentesventajas e inconvenientes que se han identi�cando, extrayendo de ésta forma diferentes conclu-siones que pueden ser utilizadas para la especi�cación de las líneas de trabajo futuras que puedandesencadenarse de todo el trabajo aquí realizado.

16.1. Ventajas de la arquitectura cognitiva híbrida

El diseño realizado para la construcción de la presente arquitectura cognitiva híbrida ha dadocomo resultado una solución que puede ser aplicable sobre diferentes plataformas robóticas aéreas,permitiendo una navegación autónoma satisfactoria de las mismas. Como ventajas a destacar dela presente solución, se encuentran enumeradas a continuación las más importantes:

La arquitectura cognitiva híbrida aplicada sobre un determinado UAV, dota a éste de larobustez necesaria para alcanzar sus objetivos de navegación, así como para garantizar lapropia integridad y disponibilidad del mismo en todo momento. Es importante destacareste punto relativo a la seguridad del sistema, ya que durante la ejecución de la navegacióndel UAV se deberá proteger no solamente su propia integridad, sino también de todoslos elementos ubicados dentro del entorno operativo, incluyendo el personal involucrado,situación que cobra mayor importancia al tratarse de una navegación aérea.

La arquitectura cognitiva híbrida puede ser implantada en diferentes plataformas robóticas,que pueden ser robots aéreos como los UAVs tratados en la presente tesis, ó también otrotipo de robots cuya navegación se lleve a cabo dentro de un entorno de 3 dimensiones comopuede ser el entorno subacuático; esta facilidad para su aplicación viene determinada porel carácter modular empleado durante el diseño, así como de la utilización de técnicas devisión computacional en base a la utilización de mapas topológicos visuales. Los algoritmosimplementados mediante lenguaje C, pueden ser compilados para su implantación de formaembebida en otras plataformas, y ejecutados a bordo sobre el propio UAV. Podría serimplantada también en otras plataformas robóticas dentro de entornos gobernados por 2dimensiones, como en la navegación de robots terrestres ó humanoides [2, 62].

La información sensorial empleada en básicamente visual, por lo que la arquitectura puedehacer uso de diferentes técnicas de visión computacional existentes; se han utilizado laslibrerías de OpenCV, software empleado en multitud de soluciones y líneas de investigación,

16.1. VENTAJAS DE LA ARQUITECTURA COGNITIVA HÍBRIDA 153

proporcionando un conjunto de funciones y algoritmos muy completo y depurados para elprocesamiento y tratamiento de imágenes, disponiendo adicionalmente de un soporte demejora continua en el tiempo de los mismos.

Se ha llevado a cabo un procesamiento de las imágenes capturadas por el UAV como infor-mación sensorial, llevando a cabo una transformación de las mismas a niveles de escala degrises, aportando una gran robustez en cuanto a posibles cambios ambientales y de ilumina-ción que pudieran suceder dentro del entorno de navegación. Adicionalmente, mediante lautilización de sus histogramas normalizados como información característica de las mismas,se reduce drásticamente el tiempo computacional que será necesario para el tratamientode las imágenes, así como del proceso de clasi�cación implementado, cumpliendo con loespeci�cado para un sistema como éste en tiempo real.

Para la clasi�cación de la información sensorial de las imágenes digitales, se ha utilizadoun clasi�cador de tipo K-NN que ha obtenido excelentes resultados durante las pruebasexperimentales, el cual lleva asociado una facilidad en cuanto a su implementación y redu-cidos tiempos de respuesta, requisito básico al tratarse de un sistema en tiempo real, y endonde el control del mismo necesita de unos tiempos de latencia extremadamente bajos.

Mediante técnicas cognitivas se ofrece una solución novedosa para la navegación de un UAVcuando éste está situado en estados que le son desconocidos, y en donde la utilización delmapa topológico visual no es su�ciente. Para ello hace uso de cálculos entrópicos, los cualespermiten explorar ubicaciones dentro del entorno en donde hay posibilidad de identi�carpotenciales landmarks, siguiendo para ello una estrategia de maximización de la entropíade las imágenes capturadas. Este nuevo mecanismo basado en cálculos entrópicos manejanel concepto de incertidumbre, permitiendo aumentar en cada momento la motivación delUAV en la localización de los diferentes landmarks especi�cados dentro del mapa topo-lógico visual; dichos cálculos también respaldan la necesidad de ejecución en tiempo realdemandada por la arquitectura, ya que el coste computacional asociado es bajo.

El paradigma basado en modelos internos utilizado por el control dual de la arquitecturaes independiente de los comportamientos implementados por la librería, unido a la bajaparametrización que es necesaria para su con�guración. Dicha parametrización es obtenidamediante experimentación en la mayoría de los casos, valores que pueden ser reutilizadossobre escenarios semejantes.

El control dual aporta todas las ventajas de tipo reactivo que ofrece un controlador Feed-Back basado en realimentación con respecto al entorno operativo, combinadas con lasaportaciones de tipo predictivo ó anticipativo que proporciona el controlador FeedForward.Dicho control garantiza la disponibilidad del sistema de control, ya que ante cualquierincidencia que pueda afectar a uno de los controladores, el sistema se podrá respaldaren las señales de control del otro, asegurando de ésta forma la continuidad del servicioproporcionado al UAV durante su navegación autónoma.

La arquitectura cognitiva híbrida proporciona un aprendizaje adaptativo con respecto alentorno operativo en donde se desarrollará, y todo ello en tiempo real. La adquisicióndel conocimiento adquirido se consolidará sobre el modelo inverso implementado en el


control dual, basado en los estudios neurocientí�cos que existen sobre el proceso de controlcerebelar adaptativo[3]. Finalmente, se obtendrán automatismos del sistema de control quepodrán ser utilizado por el UAV para obtener una navegación más óptima, con sus ventajasasociadas de ahorro energético.

La librería de comportamientos ofrece un conjunto completo de comportamientos parallevar a cabo una navegación autónoma de un UAV dentro de un determinado entorno;proporciona de los diferentes mecanismos de coordinación que éste necesita para su nave-gación, como son la exploración del entorno, aproximación e identi�cación de landmarks,control de altitud y evitación de obstáculos.

La librería de comportamientos de�nida es fácilmente escalable, proporcionando los me-canismos necesarios para poder incluir, modi�car ó eliminar diferentes comportamientossobre la misma, así como de las diferentes operaciones lógicas de combinación a realizarsobre los mismos. Dicha escalabilidad facilitará cumplir con las necesidades de navegaciónde la plataforma robótica utilizada ó del entorno de operación del UAV.

16.2. Inconvenientes de la presente arquitectura cognitiva híbrida

Durante las pruebas experimentales se han detectado ciertos inconvenientes que pueden afec-tar a la parametrización ó en la aplicación de la arquitectura, y que para su resolución se deberíanllevar a cabo las alternativas especi�cadas en las diferentes líneas de investigación que se enume-radas posteriormente. Desde un punto de vista crítico, los principales inconvenientes detectadosson los enumerados a continuación:

El esfuerzo dedicado a la confección del mapa topológico visual y a la preparación de losdatasets de landmarks, puede aumentar considerablemente cuando el número de landmarksa especi�car para la navegación es grande. Los tiempos de esfuerzo se pueden reducir, me-diante la reutilización de datasets de landmarks que hayan sido ya generados en otrosmapas topológicos visuales anteriormente, construyendo de ésta forma un catálogo de ma-pas topológicos reutilizables.

Existen ciertos parámetros que necesitan de una experimentación previa para obtener unosvalores adecuados con respecto a un entorno especí�co; entre dichos parámetros se encuen-tra los valores de K para el clasi�cador K-NN, los valores del parámetro µ utilizados porel control FeedBack, así como de las ponderaciones wfb y wff empleadas en la generaciónde las señales de control ut que se le enviarán al UAV para su ejecución.

Para la identi�cación completa de un determinado landmark L se utiliza el concepto deradio de aproximación ra dentro del mapa topológico visual, valor a partir del cual si elerror ε de clasi�cación obtenido es menor que el Lra especi�cado, el landmark L se anotacomo identi�cado y visitado. Existe el inconveniente que el valor de dicho Lra puede variarsi no se sigue la metodología establecida, cuando se realiza la construcción de un datasetcon el mismo landmark en diferentes entornos.

Los cálculos entrópicos utilizados pueden ser sensibles ante determinados obstáculos, queel UAV pueda encontrar durante su navegación dentro de entornos muy especí�cos. Puede

16.2. INCONVENIENTES DE LA PRESENTE ARQUITECTURA COGNITIVA HÍBRIDA155

darse el caso en el cual, un obstáculo posea una entropía alta, ó en el caso contrario, que unadeterminada zona dentro del campo visual del UAV tenga una entropía baja sin conteneren la misma ningún obstáculo. En dichos casos, los cálculos entrópicos deberán combinarsecon otros resultados auxiliares obtenidos para dichos entornos especí�cos (se plantea comoalternativa de solución, la implantación de nuevos sensores al UAV).

Pueden existir di�cultades para establecer el tiempo de espera exacto medido en milise-gundos, que es necesario especi�car dentro del bucle de control para que los diferentes hilosde ejecución estén completamente coordinados. Si el tiempo de espera es demasiado bajo,el módulo sensorial podría no ser capaz de capturar determinas imágenes necesarias parallevar a cabo la navegación del UAV. Por el contrario, si el tiempo de espera es muy alto,el error ε manejado por el mecanismo híbrido de control para la conmutación de modos denavegación, podría calcularse de forma incorrecta, afectando a la propia estabilización delUAV en el aire durante dicho tiempo de espera de mayor duración.

La mayoría de los inconvenientes anteriores se resuelven a través de las futuras líneas de inves-tigación que se pueden llevar a cabo (enumeradas en el siguiente capítulo), y que contemplanen muchos casos la inclusión de nuevos módulos dentro de la arquitectura cognitiva híbrida y/opequeñas modi�caciones de los ya existentes; el resultado �nal será una solución más óptima,sobre todo cuando se aplique dentro de entornos excesivamente complejos.

Capítulo 17

Futuras líneas de investigación

Como complemento a la memoria de esta tesis, en el presente capítulo se enuncia un conjuntode líneas de investigación que se pueden llevar a cabo como trabajo futuro partiendo del recogidopor ésta tesis. Algunas de estas nuevas líneas de investigación dan solución a los inconvenientesque se han identi�cado tras las pruebas experimentales ejecutadas, y otras, amplían las capaci-dades de la arquitectura cognitiva híbrida diseñada, mediante la construcción de nuevos módulosque puedan incorporarse, ó mejoras en cuanto a la optimización de los ya existentes.

Durante todo el trabajo realizado para la confección de esta tesis, se han llevado a cabo unaserie de anotaciones referentes a las posibles mejoras que aportarían mayor valor a la arquitecturadesarrollada, y muchas de ellas tienen que ver con la aplicación de técnicas pertenecientes aotros dominios de conocimiento, como son los estudios existentes sobre la consciencia[33] y suinterrelación con los modelos internos aquí presentados, para permitir maximizar aún más lacomponente cognitiva empleada por la arquitectura.

Partiendo de dichos puntos, a continuación se enumeran las principales futuras líneas deinvestigación a desarrollar:

Optimización de parámetros: con el objetivo de aumentar el rendimiento y tiempos derespuesta requeridos por la arquitectura cognitiva híbrida en tiempo real, existen diferentesmódulos que pueden ser analizados para optimizar los parámetros empleados en cada uno deellos. Como ejemplo de técnicas de optimización cabe mencionar la computación evolutivaó bioinspirada [19], muy empleada y difundida dentro del área de estudio de la robótica yde la inteligencia arti�cial en general.

Cálculos entrópicos modulares: estaría dirigido al estudio exhaustivo de la entropía dentrodel campo visual del UAV, en donde se utilizaría el concepto de subventana, ó como detec-tar determinadas regiones de interés (ROI) visuales, que optimicen el comportamiento deexploración y de evitación de obstáculos por parte del UAV durante su navegación.

Cálculos biomiméticos de la entropía: se llevaría a cabo el estudio de cómo la teoría decontrol basada en la biomimética se podría aplicar dentro del módulo cognitivo y de loscálculos entrópicos realizados, con el objetivo de obtener unas señales de control basadasen la entropía, lo más adaptadas posibles a cada uno de los estados dentro del entorno deoperación.

157

158 CAPÍTULO 17. FUTURAS LÍNEAS DE INVESTIGACIÓN

Diseño de nuevos comportamientos de navegación: la arquitectura presentada soporta unaamplia escalabilidad para poder soportar nuevos comportamientos para su utilización porparte de un UAV. Estos englobarían el estudio de comportamientos especí�cos relaciona-dos con la misión y/o clasi�cación de un UAV en concreto. Existirían comportamientosespecí�cos relacionados con la logística, militares, exploración, investigación, etc.

Incorporación de nuevos sensores a bordo del UAV: existen ciertos sensores de proximidadcomo el sonar ó punteros láser, que podrían ser incorporados a bordo del UAV, propor-cionando información sensorial adicional a la librería de comportamientos para la mejorade los mismos. Principalmente se aportaría un gran valor al comportamiento de explora-ción, así como para la evitación de obstáculos en aquellos entornos, en donde se necesiteproporcionar resultados auxiliares a los cálculos entrópicos realizados.

Aplicación de la arquitectura cognitiva en otros entornos de 3 dimensiones: además de laviabilidad obtenida en esta tesis con respecto a su aplicación sobre entornos aéreos, exis-ten otros entornos como son el subacuático, en donde existe un amplio campo de estudiorelacionado con vehículos subacuáticos no tripulados, en los cuales los paradigmas em-pleados para la construcción de la presente arquitectura cognitiva híbrida son potencialesadaptables.

Parte VI

ANEXOS

159

Capítulo 18

Anexo A: Detalles de implementación

Dentro del presente anexo se muestran los detalles de implementación de la arquitecturacognitiva híbrida, en donde a partir de los algoritmos en pseudocódigo incluidos a lo largo de latesis, se proporciona especí�camente el código desarrollado mediante lenguaje de programaciónC. De igual forma, se incluirán todos los detalles técnicos relativos a las diferentes librerías (APIs)de programación empleadas (véase referencias a las librerías utilizadas en el código 18.1), comoson AR.Drone SDK, OpenCV y FANN.

Algoritmo 18.1 Referencias a librerías utilizadas por la arquitectura// AR.Drone SDK#include <ardrone_api.h>#include <ardrone_tool/ardrone_tool.h>#include <ardrone_tool/ardrone_tool_con�guration.h>#include <ardrone_tool/ardrone_version.h>#include <ardrone_tool/Video/video_stage.h>#include <ardrone_tool/Video/video_recorder_pipeline.h>#include <ardrone_tool/Navdata/ardrone_navdata_client.h>#include <ardrone_tool/UI/ardrone_input.h>// OpenCV Libraries#include <opencv/cv.h>#include <opencv/highgui.h>

Para la compilación del código fuente, se utilizará un script Makefile. Como resultado seobtendrá el ejecutable uav_system, a partir del cual se podrán inicializar los diferentes módulosque constituyen la arquitectura, estando en disposición de ejecutar una navegación autónoma delAR.Drone como UAV.

161

162 CAPÍTULO 18. ANEXO A: DETALLES DE IMPLEMENTACIÓN

18.1. Detalles de implementación utilizando AR.Drone SDK

Algoritmo 18.2 Declaración de un hilo de ejecución empleando la librería AR.Drone SDK// Declaración de hilo de ejecuciónDEFINE_THREAD_ROUTINE( nombre_hilo_ejecucion, parametros_entrada ){// Instrucciones de inicialización del hilowhile( end_all_threads == 0 ) // El hilo se ejecuta de forma cíclica{// Instrucciones ejecutadas en cada iteración del bucle}// Instrucciones de �nalización del hilo}

Algoritmo 18.3 Protección de código mediante regiones críticas, empleando la libreríaAR.Drone SDK// Región crítica control_video_lock para proteger el acceso a la variable compartida Ikvp_os_mutex_lock(&control_video_lock);// Acceso a la imagen Ik capturada por el UAVvp_os_mutex_unlock(&control_video_lock);// Región crítica ann_�_lock para proteger el acceso a la variable compartida ann_FFvp_os_mutex_lock(&ann_�_lock);// Acceso a la red neuronal del control FeedForwardvp_os_mutex_unlock( &ann_�_lock );// Región crítica control_data_lock para proteger el acceso a la variable compartidacontrol_datavp_os_mutex_lock( &control_data_lock );// Acceso a las señales de control del UAVvp_os_mutex_unlock( &control_data_lock );// Región crítica control_navdata_lock para proteger el acceso a la variable compartida navdatavp_os_mutex_lock(&control_navdata_lock);// Acceso a los datos de navegación del UAVvp_os_mutex_unlock( &control_navdata_lock );

Algoritmo 18.4 Funciones del AR.Drone SDK utilizadas// Función para la estabilización inicial del UAVardrone_at_set_�at_trim();// Función para realizar una maniobra de despegue (Takeo�) del AR.Droneardrone_tool_set_ui_pad_start( 1 );// Función para realizar una maniobra de aterrizaje (Landing) del AR.Droneardrone_tool_set_ui_pad_start( 0 );// Función para el envio de una señal de control al AR.Droneardrone_tool_set_progressive_cmd(1, roll, pitch, gaz, yaw, 0.0, 0.0);

18.2. DETALLES DE IMPLEMENTACIÓN UTILIZANDO OPENCV 163

Algoritmo 18.5 Función para pausar el hilo de ejecución, empleando la librería AR.Drone SDK// Función para especi�car una pausa del hilo de ejecuciónvp_os_delay(500);

18.2. Detalles de implementación utilizando OpenCV

Algoritmo 18.6 Funciones para el procesamiento y tratamiento de imágenes medianteOpenCV[6]

// Función para la creación de una imagen de tipo IplImage en OpenCVcvCreateImage(cvGetSize(img),IPL_DEPTH_8U,1);// Función para transformar una imagen a escala de grises en OpenCVcvCvtColor(img,gray,CV_BGR2GRAY);// Función para la creación de una estructura que contendrá el histograma de una imagen enOpenCVcvCreateHist(1,h_size,CV_HIST_ARRAY,ranges,1);// Función para calcular el histrograma de una imagen en OpenCVcvCalcHist( &gray, hist, 0, NULL);

Algoritmo 18.7 Implementación del dataset#de�ne NUM_DATASETS 4#de�ne NUM_IMG_DATASET 10#de�ne TONOS_HISTOGRAMA 256int dataset[NUM_DATASETS*NUM_IMG_DATASET][TONOS_HISTOGRAMA];

18.3. Detalles de implementación utilizando FANN

Algoritmo 18.8 Funciones FANN utilizadas en el control FeedForward// Funcion para el entrenamiento inicial de la red neuronalvoid ann_�_train_init();// Funcion para la creación de una red neuronalvoid ann_�_create ();// Funcion para ejecución de la red neuronal en base una entrada (input), obteniendo un resultadocomo salida (output)void ann_�_run (fann_type inputH[256]);// Funcion para el entrenamiento adaptativo de la red neuronalvoid ann_�_train (fann_type inputH[256], fann_type output[4]);// Funcion para la grabación de la red neuronalvoid ann_�_save ();// Funcion para la destrucción de la red neuronalvoid ann_�_destroy();

164 CAPÍTULO 18. ANEXO A: DETALLES DE IMPLEMENTACIÓN

Algoritmo 18.9 Parametrización e inicialización mediante FANN de la red neuronal del controlFeedForwardnum_input = 256;num_output = 4;num_layers = 3;num_neurons_hidden = 10;desired_error = (�oat) 0.001;max_epochs = 500000;epochs_between_reports = 1000;ann_� = fann_create_standard(num_layers, num_input, num_neurons_hidden,num_output);fann_set_activation_function_hidden(ann_�, FANN_SIGMOID_SYMMETRIC);fann_set_activation_function_output(ann_�, FANN_SIGMOID_SYMMETRIC);fann_train_on_�le(ann_�, "ann_�.data", max_epochs, epochs_between_reports,desired_error);fann_save(ann_�, "ann_�.net");

Capítulo 19

Anexo B: Con�guración del AR.Drone2.0

En este anexo se muestra la parametrización empleada sobre el AR.Drone 2.0 durante la faseexperimental de la presente tesis, en donde se especi�can los valores utilizados para cada una delas variables de con�guración.

1 gene ra l : num_version_config = 12 gene ra l : num_version_mb = 333 gene ra l : num_version_soft = 2 . 1 . 1 84 gene ra l : d rone_ser ia l = XXXXXXXXXX5 gene ra l : soft_bui ld_date = 2012−04−06 12 :096 gene ra l : motor1_soft = 1.417 gene ra l : motor1_hard = 5.08 gene ra l : motor1_supplier = 1 .19 gene ra l : motor2_soft = 1.4110 gene ra l : motor2_hard = 5.011 gene ra l : motor2_supplier = 1 .112 gene ra l : motor3_soft = 1.4113 gene ra l : motor3_hard = 5.014 gene ra l : motor3_supplier = 1 .115 gene ra l : motor4_soft = 1.4116 gene ra l : motor4_hard = 5.017 gene ra l : motor4_supplier = 1 .118 gene ra l : ardrone_name = My ARDrone19 gene ra l : f ly ing_time = 75820 gene ra l : navdata_demo = TRUE21 gene ra l : navdata_options = 10597171322 gene ra l : com_watchdog = 223 gene ra l : video_enable = TRUE24 gene ra l : v i s ion_enable = TRUE25 gene ra l : vbat_min = 900026 con t r o l : a c c s_o f f s e t = { −2.0952554 e+03 2.0413781 e+03 2.0569382 e27 +03 }28 con t r o l : accs_gains = { 9.8449361 e−01 6.2035387 e−03 1.4683655 e29 −02 −2.0475569e−03 −9.9886459e−01 −9.5556228e−04 2.9887848 e−03 −1.9088354e−0230 −9.809342031 e−01 }32 con t r o l : gy ro s_o f f s e t = { −3.8548752 e+01 −1.0268125 e+02 −4.371250233 e+00 }34 con t r o l : gyros_gains = { 1.0711575 e−03 −1.0726772e−03 −1.0692523 e35 −03 }36 con t r o l : gyros110_of f s e t = { 1.6625000 e+03 1.6625000 e+03 }37 con t r o l : gyros110_gains = { 1.5271631 e−03 −1.5271631e−03 }38 con t r o l : magneto_offset = { 1.2796108 e+01 −2.0355328 e+02 −5.8370575 e39 +02 }40 con t r o l : magneto_radius = 1.3417094 e+0241 con t r o l : gyro_offset_thr_x = 4.0000000 e+0042 con t r o l : gyro_offset_thr_y = 4.0000000 e+0043 con t r o l : gyro_offset_thr_z = 5.0000000 e−0144 con t r o l : pwm_ref_gyros = 50045 con t r o l : osctun_value = 6346 con t r o l : osctun_test = TRUE47 con t r o l : altitude_max = 300048 con t r o l : alt itude_min = 5049 con t r o l : c on t r o l_ l ev e l = 050 con t r o l : euler_angle_max = 2.0943952 e−0151 con t r o l : cont ro l_iphone_t i l t = 3.4906584 e−0152 con t r o l : control_vz_max = 7.0000000 e+02

165

166 CAPÍTULO 19. ANEXO B: CONFIGURACIÓN DEL AR.DRONE 2.0

53 con t r o l : control_yaw = 1.7453293 e+0054 con t r o l : outdoor = FALSE55 con t r o l : f l i gh t_wi thout_she l l = FALSE56 con t r o l : autonomous_fl ight = FALSE57 con t r o l : manual_trim = FALSE58 con t r o l : indoor_euler_angle_max = 2.0943952 e−0159 con t r o l : indoor_control_vz_max = 7.0000000 e+0260 con t r o l : indoor_control_yaw = 1.7453293 e+0061 con t r o l : outdoor_euler_angle_max = 3.4906584 e−0162 con t r o l : outdoor_control_vz_max = 1.0000000 e+0363 con t r o l : outdoor_control_yaw = 3.4906585 e+0064 con t r o l : flying_mode = 065 con t r o l : hovering_range = 100066 con t r o l : f l ight_anim = 0 ,067 network : s s id_s ing l e_player = ardrone2_XXXX68 network : ss id_mult i_player = ardrone2_XXXX69 network : wifi_mode = 070 network : w i f i_rate = 071 network : owner_mac = 00 : 0 0 : 0 0 : 0 0 : 0 0 : 0 072 p ic : u l t rasound_freq = 873 p ic : ultrasound_watchdog = 374 p ic : p ic_vers ion = 18487708875 video : camif_fps = 3076 video : codec_fps = 3077 video : cami f_buf fe r s = 278 video : num_trackers = 1279 video : video_codec = 080 video : v i d eo_s l i c e s = 081 video : v ideo_l ive_socket = 082 video : video_storage_space = 1536083 video : b i t r a t e = 100084 video : max_bitrate = 400085 video : bitrate_ctrl_mode = 086 video : b i t ra t e_sto rage = 400087 video : video_channel = 088 video : video_on_usb = TRUE89 video : v ideo_f i l e_index = 190 l ed s : leds_anim = 0 ,0 ,091 de tec t : enemy_colors = 192 detec t : g roundst r ipe_co lo r s = 1693 detec t : enemy_without_shell = 094 detec t : detect_type = 395 detec t : detect ions_se lect_h = 096 detec t : detect ions_select_v_hsync = 097 detec t : detec t ions_se l ec t_v = 098 sy s l o g : output = 799 sy s l o g : max_size = 102400100 sy s l o g : nb_f i l e s = 5101 userbox : userbox_cmd = 0102 gps : l a t i t u d e = 5.0000000000000000 e+02103 gps : l ong i tude = 5.0000000000000000 e+02104 gps : a l t i t u d e = 0.0000000000000000 e+00105 custom : app l i ca t i on_id = 00000000106 custom : app l i cat ion_desc = Default app l i c a t i on con f i gu r a t i on107 custom : p r o f i l e_ id = 00000000108 custom : p ro f i l e_de s c = Defaul t p r o f i l e c on f i gu r a t i on109 custom : se s s i on_id = 00000000110 custom : ses s ion_desc = Default s e s s i o n con f i gu r a t i on

Bibliografía

[1] Ethem Alpaydin. Introduction to Machine Learning. The MIT Press, 2010.

[2] A.M. Do Amaral Arsenio. Cognitive-developmentl learning for a humanoid robot: A care-giver's gift. Doctoral Thesis, 2004.

[3] John S. Barlow. The Cerebellum and Adaptive Control. Cambridge University Press, 2002.

[4] C. Baroglio. Exploiting qualitative knowledge to enhance skill acquisition. 1997.

[5] Andrea Bonarini, Alessandro Lazaric, Marcello Restell, and Patrick Vitali. Self-developmentframework for reinforcement learning agents.

[6] Gary Bradski and Adrian Kaehler. Learning OpenCV. O'Reilly, 2008.

[7] PJ. Bristeau, F. Callou, D. Vissiere, and N. Petit. The navigation and control technologyinside the ar.drone micro uav. 18th IFAC World Congress, August 2011.

[8] Rodney A. Brooks. A robust layered control system for a mobile robot. MIT, 1986.

[9] A. Cangelosi, G. Metta, G. Sagerer, S. Nol�, C. Nehaniv, K. Fischer, J. Tani, T. Belpaeme,G. Sandini, F. Nori, L. Fadiga, B. Wrede, K. Rohl�ng, E. Tuci, K. Dautenhahn, J. Saunders,and A. Zeschel. Integration of action and language knowledge: A roadmap for developmentalrobotics. IEEE Transactions on Autonomous Mental Development, 2, no. 3, September 2010.

[10] A. Cesetti, E. Frontoni, A. Mancinni, P. Zingaretti, and S. Longhi. A vision-based guidancesystem for uav navigation and safe landing using natural landmarks. Intelligence Robot Syst,57:233�257, October 2010.

[11] Sung-Hyuk Cha and Sargur N. Srihari. On measuring the distance between histograms.Pattern Recognition, 35:1355�1370, 2002.

[12] Je�ery A. Clouse. Learning from an automated training agent.

[13] Marco Colombetti and Marco Dorigo. Robot shaping: Developing autonomous agents th-rough learning. Arti�cial Intelligence Journal, 1993.

[14] Marco Colombetti, Marco Dorigo, and Giuseppe Borghi. Behavior analysis and training amethodology for behavior engineering. IEEE Transactions on systems, man, and cybernetics,26, no.6, 1996.

167

168 BIBLIOGRAFÍA

[15] Karla Conn and Richard Alan Peters. Reinforcement learning with a supervisor for a mobilerobot in a real-world environment.

[16] Magnus Egerstedt. Behavior based robotics using hybrid automata. 2000.

[17] Innes A. Ferguson. Touringmachines: Autonomous agents with attitudes. May 1992.

[18] David Filliat. A visual bag of words method for interactive qualitative localization andmapping. 2007.

[19] Dario Floreano and Claudio Mattiussi. Bio-Inspired Arti�cial Intelligence: Theories, Met-

hods, and Technologies. The MIT Press, 2008.

[20] Juan Pablo Fuentes, Dario Maravall, and Javier de Lope. Entropy-based search combi-ned with a dual feedforward-feedback controller for landmark search and detection for thenavigation of a uav using visual topological maps. ROBOT 2013, Advances in Intelligent

Systems and Computing, 2013.

[21] Hiroshi Imamizu and Mitsuo Kawato. Neural correlates of predictive and postdictive swit-ching mechanisms for internal models. The Journal of Neuroscience, 28(42):10751�10765,October 15 2008.

[22] Hiroshi Imamizu and Mitsuo Kawato. Brain mechanisms for predictive control by swit-ching internal models: implications for higher-order cognitive functions. Special issue of

Psychological Research, 2009.

[23] Hiroshi Imamizu, Mitsuo Kawato, and et al. Human cerebellar activity re�ecting an acquiredinternal model of a new tool. Nature, 403:192�195, 13 January 2000.

[24] Hiroshi Imamizu, T. Kuroda, S. Miyauchi, T. Yoshioka, and Mitsuo Kawato. Modularorganization of internal models of tools in the human cerebellum. PNAS, 100, no.9:5461�5466, April 2003.

[25] Masao Ito. Internal model visualized. Nature, 403:153�154, 13 January 2000.

[26] Lalindra Jayatilleke and Nian Zhang. Landmark-based localization for unmanned aerialvehicles. 2013.

[27] Michael I. Jordan and David E. Rumelhart. Forward models: Supervised learning with adistal teacher. Cognitive Science, 16:307�354, 1992.

[28] Mitsuo Kawato. Feedback-error-learning neural network for supervised motor learning. Ad-vanced Neural Computers, 1990.

[29] Mitsuo Kawato. Internal models for motor control and trajectory planning. Neurobiology,9:718�727, 1999.

[30] Mitsuo Kawato. From understanding the brain by creating the brain towards manipulativeneuroscience. Philosophical Transactions of The Royal Society, 363:2201�2214, 2008.

BIBLIOGRAFÍA 169

[31] Mitsuo Kawato, Kazunori Furukawa, and R. Suzuki. A hierarchical neural-network modelfor control and learning of voluntary movement. Biological Cybernetics, 57:169�185, 1987.

[32] Mitsuo Kawato and Kazuyuki Samejima. E�cient reinforcement learning: computationaltheories, neuroscience and robotics. Neurobiology, 17:205�212, 2007.

[33] Leonard F. Koziol, Deborah Budding, Nancy Andreasen, Stefano D'Arrigo, Sara Bulgheroni,Hiroshi Imamizu, Masao Ito, Mario Manto, Cherie Marvel, Krystal Parker, Giovanni Pez-zulo, Narender Ramnani, Daria Riva, Jeremy Schmahmann, Larry Vandervert, and TadashiYamazaki. Consensus paper: The cerebellum's role in movement and cognition. Cerebellum,2013.

[34] T. Krajnik and et al. Ar-drone as platform for robotic research and education. 2011.

[35] Jihyo Lee and Hanseok Ko. Gradient-based local a�ne invariant feature extraction formobile robot localization in indoor environments. Pattern Recognition Letters, 29:1934�1940, 2008.

[36] Long-Ji Lin. Self-improving reactive agents based on reinforcement learning, planning andteaching. Machine Learning, 8:293�321, 1992.

[37] Long-Ji Lin. Reinforcement learning for robots using neural networks. Doctoral Thesis,January 1993.

[38] Long-Ji Lin and Tom M. Mitchell. Memory approaches to reinforcement learning in non-markovian domains. May 1992.

[39] Max Lungarella, Giorgo Metta, Rolf Pfeifer, and Giulio Sandini. Developmental robotics: asurvey. Connection Science, 15, no. 4:151�190, 2003.

[40] Pattie Maes and Rodney A. Brooks. Learning to coordinate behaviors. MIT.

[41] Dario Maravall and Javier de Lope. Multi-objective dynamic optimization with geneticalgorithms for automatic parking. Soft Computing, 11:249�257, 2007.

[42] Dario Maravall, Javier de Lope, and Juan Pablo Fuentes. Fusion of probabilistic knowledge-based classi�cation rules and learning automata for automatic recognition of digital images.Pattern Recognition Letters, 34, Issue 14:1719�1724, October 2013.

[43] Dario Maravall, Javier de Lope, and Juan Pablo Fuentes. A vision-based dual anticipator-y/reactive control architecture for indoor navigation of an unmanned aerial vehicle usingvisual topological maps. IWINAC 2013 - LNCS, LNCS 7931:66�72, 2013.

[44] Lisa Meeden. Bringing up robot: Fundamental mechanisms for creating a self-motivated,self-organizing architecture. Cybernetics and Systems, 36, no. 2, 2005.

[45] David L. Moreno, Carlos V. Regueiro, Roberto Iglesias, and Senen Barro. Using priorknowledge to improve reinforcement learning in mobile robotics.

[46] Ste�en Nissen. Neural networks made simple. 2005.

170 BIBLIOGRAFÍA

[47] Pierre-Yves Oudeyer, Adrien Baranes, and Frederic Kaplan. Intrinsically motivated explo-ration for developmental and active sensorimotor learning. 2009.

[48] Pierre-Yves Oudeyer and Frederic Kaplan. In search of the neural circuits of intrinsic mo-tivation. Frontiers in neurorobotics, 1, Issue 1:225�236, November 2007.

[49] Pierre-Yves Oudeyer and Frederic Kaplan. What is intrinsic motivation? a typology ofcomputational approaches. Frontiers in neurorobotics, 1, article. 6, 2007.

[50] Pierre-Yves Oudeyer and Frederic Kaplan. How can we de�ne intrinsic motivation? Procee-

ding of the 8th International Conference on Epigenetic Robotics: Modeling Cognitive Deve-

lopment in Robotic System, 2008.

[51] Paolo Pirjanian. Behavior coordiantion mechanisms - state of the art. October 1999.

[52] S. Piskorski, N. Brulez, and F. D'Haeyer. Ar.drone developer guide sdk 2.0. 2012.

[53] Pablo Quintia, Jose E. Domenech, Carlos V. Regueiro, Cristina Gamallo, and Roberto Igle-sias. Learning a wall following behaviour in mobile robotics using stereo and mono vision.IX Workshop de agentes �sicos Vigo, September 2008.

[54] A. Rizzi, D. Duina, S. Inelli, and R. Cassinis. A novel visual landmark matching for abiologically inspired homing. Pattern Recognition Letters, 22:1371�1378, 2001.

[55] S. Ross, N. Melik-Barkhudarov, K. S. Shankar, A. Wendel, J. A. Bagnell D. Dey, andM. Hebert. Learning monocular reactive uav control in cluttered natural environments.November 2012.

[56] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduccion. TheMIT Press, 1998.

[57] Andrea L. Thomaz and Cynthia Breazeal. Teachable robots: Understanding human teachingbehavior to build more e�ective robot learners. Arti�cial Intelligence, 172:716�737, 2008.

[58] Sebastian Thrun. Learning metric-topological maps for indoor mobile robot navigation.Arti�cial Intelligence, 99:21�71, 1998.

[59] Juyang Weng. A theory for mentally developing robots.

[60] Juyang Weng. Developmental robotics: Theory and experiments. International Journal ofHumanoid Robotics, 1, no 2:199�236, 2004.

[61] Juyang Weng and Shaoyun Chen. Visual learning with navigation as an example. IEEE

Intelligent Systems, September/October 2000.

[62] Juyang Weng, Wey S. Hwang, Yilu Zhang, Changjiang Yang, and Rebecca J. Smith. Deve-lopmental humanoids: Humanoids that develop skills automatically. 2000.

[63] Juyang Weng and Yilu Zhang. Developmental robots: A new paradigm. Proc. 2nd Int'l

Workshop on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems Au-

gust 10-11, 2002 Edinburgh, Scotland, 2002.

BIBLIOGRAFÍA 171

[64] Daniel M. Wolpert, R. Chris Miall, and Mitsuo Kawato. Internal models in the cerebellum.Trends in Cognitive Sciences, 2, no. 9, September 1998.

[65] D.M Wolpert and M. Kawato. Multiple paired forward and inverse models for motor control.Neural Network, 11:1317�1329, 1998.

[66] Michael Wooldridge. An Introduction to Mutiagent Systems. John Wiley and Sons, 2002.

Índice alfabético

agentes inteligentes, 111Alabeo, 44AR.Drone, 47, 126AR.Drone SDK, 47, 122

backpropagation, 91, 98biomimético, 89biomimetria, 113bucle cerrado, 87bucle de control, 60, 101bucle de lazo cerrado, 56

Cámara frontal, 49Cámara inferior, 49Cabeceo, 44cerebelo, 36, 37, 89, 97, 99cerebro, 37, 89, 97, 98comportamiento, 108comportamientos combinados, 108comportamientos monolíticos, 108consciencia, 157control biomimético, 151control de altitud, 116Control FeedBack, 38Controlador Feedforward, 38core module, 71cuadrantes, 123cuadro de mando, 123

Developmental Robots, 29, 33, 151distancia euclídea, 76

entropía de la información, 79error de clasi�cación, 77Euclidean distance, 76

FANN, 92, 122Feedback-error Learning, 97frame, 69

gaz, 51gcc, 122grado de madurez, 94grafo, 65Guiñada, 45

hill climbing, 67hilos de ejecución, 58Homing Mode, 63

imgproc module, 71Internal Models, 151intrinsic motivation, 151

jpg, 124

K-NN, 75, 128, 153, 154Kawato, 37

landmark, 67lazo cerrado, 60Lazy Learning, 75Leave-one-out, 128lenguaje C, 161librería de comportamientos, 57, 111, 151Linux, 122luminosidad, 126

módulo actuador, 57, 101, 151módulo cognitivo, 57, 79, 151módulo de aprendizaje, 57, 97, 151módulo de control, 57, 87, 151módulo sensorial, 56, 69, 151Manhattan distance, 76mapa topológico, 65, 125matriz de confusión, 129mecanismo de coordinación, 107modelo de comportamientos, 107Modelos internos, 30

172

ÍNDICE ALFABÉTICO 173

navdata, 78, 116

OpenCV, 71, 122, 152

pitch, 51Plan de pruebas experimentales, 127punteros láser, 158

radio de aproximación, 68, 136red neuronal, 91regiones críticas, 59Reinforcement Learning, 99RGB, 124ROI, 157roll, 51

Search Mode, 63Shannon, 79sonar, 158

Teachable Robots, 97, 99trials, 139, 140, 142

uav_system, 161Ubuntu, 122ultrasonidos, 49

video-streaming, 69, 123visión por computadora, 47

Weng, 33Wi�, 69, 103, 123

yaw, 52

tesis doctoral - archivo digital upmoa.upm.es/22579/1/juanpablo_fuentes_brea.pdfjuan pablo uenftes...

Documents