universidad politécnica de madridoa.upm.es/65141/1/tfm_antonio_millan_garcia.pdf · 2020. 10....

Universidad Politécnicade Madrid

Escuela Técnica Superior deIngenieros Informáticos

Máster Universitario en Inteligencia Artificial

Trabajo Fin de Máster

Aplicación de Técnicas de Deep Learningpara la Predicción de Tiempo de

Ocupación de Pista durante Aterrizajes

Autor(a): Antonio Millán GarcíaTutor(a): Alfonso Mateos Caballero

Madrid, Junio 2020

Este Trabajo Fin de Máster se ha depositado en la ETSI Informáticos de laUniversidad Politécnica de Madrid para su defensa.

Trabajo Fin de MásterMáster Universitario en Inteligencia Artificial

Título: Aplicación de Técnicas de Deep Learning para la Predicción de Tiempode Ocupación de Pista durante Aterrizajes

Junio 2020

Autor(a): Antonio Millán GarcíaTutor(a): Alfonso Mateos Caballero

Departamento de Inteligencia ArtificialETSI InformáticosUniversidad Politécnica de Madrid

Resumen

Con la demanda de los últimos años en cuanto a tráfico aéreo, se hace imperativobuscar formas de aumentar el rendimiento de los aeropuertos para poder gestionarun mayor número de vuelos por unidad de tiempo. Uno de los aspectos que ralenti-za al resto de áreas son las gestiones llevadas a cabo por los controladores aéreos,debido a la poca automatización con la que cuentan los trabajos que desempeñan.Este Trabajo de Fin de Máster intenta paliar este problema, ofreciendo un sistemade ayuda al controlador. Este sistema proporcionará una estimación del tiempo quevan a tardar en abandonar la pista de aterrizaje las aeronaves que se aproximanal aeropuerto. Para realizar esta predicción, se utilizan redes neuronales artificialesentrenadas con datos del Aeropuerto de Barcelona, del año 2017 al 2019. Esta in-formación utilizada para entrenar los modelos se obtiene de varias fuentes: radar,sensores meteorológicos, el plan de vuelo y aproximaciones de algunos de los datosdel radar.

Este proyecto tiene un segundo objetivo, que es desarrollar diversos modelos paracomparar el rendimiento entre ellos: Se entrena un modelo general, que es capaz depredecir vuelos en todas las pistas, y modelos específicos para cada una de las pistas.La premisa de la que se parte es que es probable que los modelos específicos de cadapista funcionen mejor que el modelo general, pero utilizar el modelo general reducela complejidad de ejecución al tener solo un modelo sobre el que trabajar.

Los resultados obtenidos son satisfactorios: En general, se obtienen predicciones conmenos de 7 segundos de error en el 75 % de los casos, utilizando el modelo general yalguno de los específicos.

i

Abstract

With the increasing demand in air traffic, it is necessary to look for ways to improvethe throughput of the runways in airports, in order to be able to handle a highernumber of flights per unit of time. One of the areas that slows down the rest of thesystem are the human-related ones, like the tasks that are performed by the airtraffic controllers, due to the lack of automation of their jobs. This Master’s Thesisaims to mitigate this problem, offering a helping system to air traffic controllers. Thissystem will provide an estimation of the runway occupancy time, or the time that anairplane which is approaching the airport needs to exit the landing track. In order toperform this prediction, artificial neural networks will be used, which will be trainedwith data obtained from the Airport of Barcelona, from 2017 to 2019. This input datawill be obtained from different sources: Radars, weather sensors, flight plans andapproximations of some of the data obtained by radars.

This project has a second goal, which is developing various models to compare theperformance of each one: A general model will be trained, which is capable of performprediction in any of the runways, and specific models will be also created, whichcan only perform predictions in the runway that they have been trained with. Thehypothesis in this project is that the specific models will make better predictions, bututilizing the general model will reduce the complexity of use, because only one modelis needed.

The results are satisfactory: In general, predictions with less than 7 seconds of errorare obtained 75 % of the times, using the general model and some of the specific ones.

iii

Tabla de contenidos

1. Introducción 11.1. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Dataset utilizados para el desarrollo de los modelos. . . . . . . . . . . . . 31.3. Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Modelos Utilizados: Redes Neuronales . . . . . . . . . . . . . . . . . . . . 3

2. Modelos 72.1. Toma y tratamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1. Fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.2.1. Normalización de los datos . . . . . . . . . . . . . . . . . . 132.2. Software desarrollado para la creación de modelos . . . . . . . . . . . . . 13

2.2.1. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.2. Elementos comunes a todas las redes generadas . . . . . . . . . . 162.2.3. Redes probadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3. Metodología seguida en el desarrollo de modelos . . . . . . . . . . . . . . 182.3.1. Modelo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.2. Modelos particularizados por pistas . . . . . . . . . . . . . . . . . . 18

2.4. Entrenamiento y testeo de los modelos . . . . . . . . . . . . . . . . . . . . 202.4.1. Modelo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.1.1. Representación gráfica de la red seleccionada . . . . . . . 222.4.1.2. Resultados obtenidos del Modelo General . . . . . . . . . 23

2.4.2. Modelos particularizados por pista . . . . . . . . . . . . . . . . . . 252.4.2.1. Pista 25R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.4.2.2. Representación gráfica de la red seleccionada . . . . . . . 272.4.2.3. Resultados obtenidos del Modelo 25R . . . . . . . . . . . . 282.4.2.4. Pista 07L . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.4.2.5. Pista 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.4.2.6. Pista 25L . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4.2.7. Pista 07R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3. Resultados 373.1. Comparación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.1.1. Pista 25R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.1.2. Pista 07L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.1.3. Pista 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.1.4. Pista 25L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.1.5. Pista 07R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

v

TABLA DE CONTENIDOS

4. Conclusiones y trabajo futuro 434.0.1. Selección final de modelos . . . . . . . . . . . . . . . . . . . . . . . 434.0.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.0.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Bibliografía 46

vi

Capítulo 1

Introducción

Este trabajo tratará de la implementación de diferentes modelos para la prediccióndel Runway Occupancy Time (ROT en adelante), o tiempo de ocupación de pista en elaeropuerto de Barcelona. El ROT es una métrica utilizada en aeronáutica que mide eltiempo que un avión ocupa una pista durante el despegue o el aterrizaje. Este tiempose mide desde que el avión toca el suelo hasta que sale de la pista en el caso delaterrizaje, y desde que el avión entra en pista hasta que deja de tocar el suelo en elcaso de los despegues. En este trabajo, solo se utilizarán datos de aterrizajes ya quetiene más utilidad y estos no pueden extrapolarse a los despegues.

Una predicción del ROT precisa podría ayudar a los controladores aéreos a adminis-trar las pistas más eficientemente, sabiendo el tiempo que va a tardar el siguienteavión en abandonar la pista.

Uno de los objetivos principales de este proyecto es también comparar el rendimientoentre un modelo entrenado con todas las pistas y modelos diseñados y entrenadospara cada una de las pistas. Es de esperar que los modelos diseñados para unasola pista funcionen mejor, ya que estas tienen características diferentes, aunque,si finalmente los resultados son parecidos, convendría utilizar un solo modelo paratodas las pistas ya que disminuiría la complejidad y los recursos necesarios para lapredicción.

Para la predicción del ROT, es necesario un algoritmo de regresión, ya que lo quebuscamos es una predicción numérica del tiempo que va a tardar un avión en salirde la pista. Aunque hay varios algoritmos que podrían ser elegidos, se utilizarán re-des neuronales artificiales, ya que fue el método utilizado en iteraciones anteriores deeste proyecto. Esta decisión parece muy válida, al ser un problema bastante complejoque probablemente no pueda ser resuelto de forma satisfactoria utilizando algoritmoscomo la regresión lineal o logística. En dichas iteraciones, se utilizaron estos mode-los, pero sin llegar a exprimir las posibilidades que brindan, con redes con pocascapas ocultas y pocas neuronas, sin medidas de regularización y sin llegar a probardiferentes arquitecturas. Este proyecto anterior también fue realizado en el lenguajeJava, donde las librerías para el Deep Learning no tienen la madurez que tienen enPython. Por esto, en este proyecto se intentará mejorar todos estos aspectos haciendotodos los modelos desde cero y utilizando datos actuales para el entrenamiento.

1

1.1. Estado del arte

1.1. Estado del arte

En el contexto de la aplicación de técnicas de machine learning a la gestión del tráficoaéreo, hay varios trabajos anteriores que intentan resolver problemas parecidos a losplanteados en este trabajo. Estas investigaciones serán expuestas en este apartado.

El entorno de la gestión del tráfico aéreo tiene diversas áreas donde se han reali-zado investigaciones que pueden ser interesantes para el desarrollo de este trabajo.Por ejemplo, en [1] se expone una investigación donde se utilizan redes neuronalesartificiales para determinar la configuración óptima de pistas del aeropuerto segúnlas características del entorno. La configuración de un aeropuerto en un momentopuntual es el conjunto de pistas que pueden ser utilizadas en dicho instante. Estainvestigación tiene el mismo objetivo que que se plantea en este trabajo: Conseguiraumentar el rendimiento de las pistas de aterrizaje haciendo que pasen más aerona-ves por unidad de tiempo. En esta investigación se utilizaron datos del Aeropuertode Ámsterdam-Schiphol para el entrenamiento. Un trabajo parecido es el planteadoen [2], en el cual se pretende asignar una pista de aterrizaje automáticamente a lasaeronaves que están aproximándose al aeropuerto, con el objetivo de reducir la cargade trabajo del controlador aéreo. En este proyecto también se utilizan redes neurona-les artificiales para llevar a cabo la asignación. Los entrenamientos de la red fueronllevados a cabo con datos del Aeropuerto Internacional de Tokyo. En [3] se intentapredecir cuando va a haber un evento de baja visibilidad en el aeropuerto, que podríaforzar a los pilotos a depender de los instrumentos de vuelo exclusivamente para elaterrizaje. Para ello, se aplican redes neuronales artificiales (entre otros algoritmos)para predecir estos eventos. La red se entrenó con datos del aeropuerto de Valladolid.

En cuanto a predicciones temporales, hay varias investigaciones que pueden ser des-tacadas. En [4] intentan predecir el tiempo de taxi hasta la pista de despegue. Eltiempo de taxi es desde que el avión desembarca hasta que llega a la pista de des-pegue. Los algoritmos principales de esta investigación son simulaciones temporales,aunque son combinados con diversas técnicas de machine learning como regresiónlineal, random forest, Support Vector Machine y K Nearest Neighbours. Se realizó, comoalgunos de los anteriores, con el objetivo de aumentar el rendimiento de las pistas.El estudio se realizó en el Aeropuerto de Charlotte. El mismo equipo que realizó estainvestigación haría el año siguiente la mostrada en [5], donde descartan las simu-laciones temporales y solo utilizan métodos de machine learning para obtener laspredicciones del tiempo de taxi. Además de las otras técnicas utilizadas en el paperanterior, también aplicarían redes neuronales artificiales entrenadas con datos delmismo aeropuerto, el de Charlotte, pero estas darían peor resultado que los randomforests y la regresión lineal aplicada.

En el cálculo del ROT, es importante saber que una pista de aterrizaje tiene variassalidas, por lo que dependiendo de la que se elija es probable que cambie el tiem-po de ROT. Esto ha sido llevado a la práctica en varias investigaciones como [6],un proyecto de un estudiante universitario donde se intenta predecir cuál va a serla salida escogida por el piloto antes de que la tome, utilizando random forests. Elobjetivo de esta investigación es desarrollar un sistema predictivo que sea capaz deayudar al controlador en la toma de decisiones, aligerando su carga de trabajo. Losmodelos desarrollados se probaron con datos obtenidos del Aeropuerto Internacio-nal de Singapur. En [7] se tiene el mismo objetivo que en la investigación anterior,poder predecir la salida óptima de la pista de aterrizaje. En este caso, se utilizó Gra-

2

Introducción

dient Boosting [8] para el desarrollo de los modelos, y los datos fueron tomados delAeropuerto de Viena.

Finalmente, hay algunas investigaciones que buscan hacer lo mismo que lo plantea-do en este trabajo de fin de máster: predecir el tiempo de ocupación de pista, o ROT,de un avión durante el aterrizaje. Cabe destacar [9] donde se busca predecir el ROT,pero teniendo como objetivo detectar los valores de ROT que vayan a tener valoresatípicos, pudiendo así ser capaz de predecir cuando un aterrizaje tiene posibilidadesmás altas de ser accidentado. En este articulo se utilizan diversas técnicas: Redesneuronales, regresión lasso y árboles de regresión. Los modelos desarrollados en estetrabajo fueron entrenados y probados en una de las pistas del Aeropuerto Interna-cional de París. Para concluir, cabe destacar el trabajo realizado en [10] donde seutilizan ideas de distintos trabajos aquí planteados: busca predecir el ROT pero pre-diciendo anteriormente la salida que va a tomar la aeronave para abandonar la pistade aterrizaje. Para estas predicciones, utilizaron Gradient Boosting para la creaciónde los modelos, que fueron entrenados y probados con datos del Aeropuerto de Viena.

1.2. Dataset utilizados para el desarrollo de los modelos.

Estos modelos serán implementados y probados con datos obtenidos del aeropuertode Barcelona, desde el año 2017 hasta 2019, ambos incluidos. Los datos obtenidosdurante 2020 no serán tenidos en cuenta debido a que el desarrollo de vuelos a lolargo del año ha sido atípico por el covid-19. Para el desarrollo, serán tenidas encuenta diversas fuentes del aeropuerto: se utilizarán sistemas meteorológicos, planesde vuelo y radares.

1.3. Contexto

El trabajo presentado en esta memoria de mi Trabajo de Fin de Máster ha sido realiza-do en colaboración con la empresa CRIDA A.I.E (Centro de Referencia, Investigacióny Desarrollo ATM A.I.E), desde febrero hasta agosto de 2020. CRIDA es un centro deinvestigación que tiene como objetivo mejorar el control del trafico aéreo (Air TrafficManagement, ATM en adelante).

Este proyecto fue realizado por un equipo de tres personas, por lo que no todas lastareas expuestas en la tesis fueron llevadas a cabo por el autor de este documento.Siendo así, algunos apartados del documento no tendrán una justificación de porqué se hicieron de cierta manera, al no ser yo el que hizo dichas tareas. Estas tareasque fueron realizadas por los otros compañeros del equipo son las relacionadas conla toma y elección de datos para entrenar los modelos.

1.4. Modelos Utilizados: Redes Neuronales

Una red neuronal es un modelo computacional inspirado en las neuronas presentesen los seres vivos. Una información de entrada atraviesa la red neuronal, donde sesomete a diversas operaciones que producen unos valores diferentes de salida; en laFigura 1.1 puede verse una representación gráfica de una red neuronal. Estas fueronpropuestas por primera vez en la década de 1940 por el psicólogo Donald Hebb, quecreó una hipótesis de aprendizaje simulando los mecanismos de plasticidad neuronal

3

1.4. Modelos Utilizados: Redes Neuronales

en [11]. Tras diversos intentos de implementación de estos mecanismos, en 1958Frank Rosenblatt crea el perceptrón en [12], una red neuronal de una sola neurona.El siguiente hito importante es la aplicación del algoritmo de retropropagación en[13], vital para el aprendizaje en redes de varias capas.

Figura 1.1: Una red neuronal artificial con 3 entradas y 2 salidas.

Cada neurona puede tener por si misma varias conexiones de entrada y de salida.Todas las conexiones de salida de una neurona producen el mismo valor, que es elresultado de aplicar una función matemática, llamada función de activación, a lasuma de todas sus entradas.

Para el aprendizaje de la red se utiliza el método de descenso por el gradiente. Eneste, se desciende por la función de error de una red utilizando la pendiente de esta,como se muestra en la Figura 1.2.

Figura 1.2: Método del descenso por gradiente. El punto inicial, en negro, se va redu-ciendo en cada iteración del método, que vienen representadas por cada flecha de laimagen.

4

Introducción

Una parte importante de este algoritmo es la distancia que recorremos en cada ite-ración, que en el campo del las redes neuronales es el coeficiente de aprendizaje oLearning Rate. Un coeficiente de aprendizaje bajo significará que tardaremos más enllegar al mínimo, pero un coeficiente demasiado alto puede provocar que no se lleguenunca.

Conociendo todo lo anterior, Deep Learning es el nombre comercial que se le da a losmodelos que usan redes neuronales con más de una capa oculta. La implementaciónde esto hace unos años no era viable debido a limitaciones tecnológicas, aunque enla actualidad se han dado ciertos factores que han permitido el desarrollo de estecampo, como es el desarrollo de las unidades de procesamiento gráfico, o GPU.

5

Capítulo 2

Modelos

En este capítulo se explicará cómo se han abordado los objetivos propuestos en elcapítulo anterior y los resultados obtenidos.

2.1. Toma y tratamiento de datos

En esta sección se explica qué datos se han utilizado para el entrenamiento de losmodelos. Se explicará de dónde proceden y qué tratamiento han recibido. Tras tratarlos datos como se expone en esta sección, estos serán utilizados directamente parala creación de los modelos.

Como se explicaba en la introducción de este documento, esta sección no fue llevadaa cabo por el autor de este trabajo (en su mayoría), por lo que se explicarán lasacciones tomadas sin justificar su elección. Los parámetros de entrada utilizadoshan sido propuestos por CRIDA y en este trabajo no se estudiará si son realmenteútiles para el cálculo del ROT o no, ya que este trabajo se ha realizado previamentepor la empresa.

Para llevar a cabo la predicción del ROT, se tendrán en cuenta las características delvuelo cuando esté a 4 millas náuticas del aeropuerto.

2.1.1. Fuentes

Para la obtención de datos de entrada del modelo se han utilizado diferentes fuentes.En esta sección se explicará cual es cada una de estas fuentes y qué parámetros seobtienen de ésta, explicando cada uno de ellos.

Plan de vuelo: El plan de vuelo es una información que se comparte, con res-pecto a un vuelo futuro, a los servicios de gestión del tráfico aéreo, donde seindican diversos factores ya conocidos sobre el futuro vuelo como el origen, des-tino, tipo de aeronave... De esta fuente se obtienen los siguientes datos para elmodelo:

1. fpRunway: Indica la pista en la que se va a aterrizar. Esta variable serádividida en variables binarias por cada una de las pistas, teniendo comovalor 1 si es la pista elegida para el aterrizaje.

2. numberOfEngines: Indica la cantidad de motores que tiene la aeronave.

7


3. flightRule: Indica qué instrumentos se van a utilizar para el vuelo, con cua-tro valores posibles: I, cuando el vuelo se realiza completamente con losinstrumentos de abordo; V, cuando se realiza de forma visual; Y, cuando laprimera parte del vuelo se realiza con instrumentos y la segunda de formavisual; y por último, Z, cuando la primera parte se realiza de forma visualy la segunda con los instrumentos de abordo. Esta variable se dividirá envariables binarias, una por cada tipo de vuelo.

4. TypeID: Indica el tipo de vuelo. Puede ser: General, Regular, No Regular,Militar y Otro. También será dividida en variables binarias.

5. Wake_cat: Indica el tipo de estela turbulenta que deja la aeronave. La estelaturbulenta es una turbulencia de aire que se forma tras una aeronave yque puede llegar a ser peligrosa para otras que pasen por el mismo lugartranscurrido un periodo de tiempo. La estela depende directamente del pesode la aeronave, por lo que con este parámetro estamos introduciendo el pesoen el modelo. Puede ser: L (light), M (medium), H (heavy) y J (jumbo).

6. Adep_cat: Indica la región de la que proviene la aeronave. Hay 22 regionesdisponibles.

7. Company: Indica la aerolínea de la aeronave.

8. Aircraft: Indica el modelo de la aeronave.

9. Month: Indica el mes en el que se ha producido el vuelo.

10. Day_of_week: Indica el día de la semana que se ha producido el vuelo.

11. Hour: Indica la hora a la que esta prevista que aterrice el vuelo.

METAR: El METAR es un radar meteorológico que provee a los usuarios delaeropuerto información sobre la meteorología actual en tramos de media hora.Proporciona información como la temperatura, la velocidad del viento, la visibi-lidad... De esta fuente se obtienen las siguientes variables:

12. TMPF: Indica la temperatura del aire a 2 metros del suelo, en Fahrenheit.

13. DWPF: Indica el punto de rocío, en Fahrenheit.

14. RELH: Humedad relativa en porcentaje.

15. VSBY: Visibilidad en millas náuticas.

16. FEEL: Sensación térmica en Fahrenheit.

17. DRCT: Direccion del viento en grados, medido desde el norte.

18. SKNT: Velocidad del viento en nudos.

19. GUST: Velocidad de ráfagas de viento intermitentes, en nudos.

20. SKYC1: Nivel de cobertura del cielo por nubes. Se mueve en valores de 0 a1.

21. SKYL1: Altura, en pies, hasta donde llega la medida de SKYC1.

22. ALTI: Presión atmosférica en pulgadas de mercurio (inHg).

8

Modelos

RADAR: El radar obtiene datos sobre el movimiento de la nave en el plano hori-zontal.

23. velX: Velocidad en el eje X, expresada en nudos. Este parámetro se obtienede forma continua, por lo que se crean nuevas variables a partir de esto:el mínimo, la media, el máximo y los 10 últimos valores antes de llegar alpunto de 4 millas náuticas.

24. velY: Velocidad en el eje Y, expresada en nudos. Al igual que el anterior,este parámetro se obtiene de forma continua, y se obtienen las mismasestadísticas: el mínimo, la media, el máximo y los 10 últimos valores antesde llegar al punto de 4 millas náuticas.

25. velZ: Velocidad en el eje Z, expresada en nudos. Al igual que las anteriores,este parámetro se obtiene de forma continua, y se obtienen las mismasestadísticas: el mínimo, la media, el máximo y los 10 últimos valores antesde llegar al punto de 4 millas náuticas.

26. velMod: Módulo de la velocidad, expresada en nudos. Al igual que las an-teriores, este parámetro se obtiene de forma continua, y se obtienen lasmismas estadísticas: el mínimo, la media, el máximo y los 10 últimos valo-res antes de llegar al punto de 4 millas náuticas.

27. ROT: El ROT se calcula a partir de las posiciones de la aeronave captadaspor el radar. Las coordenadas de los limites de las pistas están registradas,por lo que el primer registro en el que la aeronave entra en la región dela pista es cuando empieza a contar el tiempo, que durará hasta que lascoordenadas del avión coincidan con alguna de las salidas de pista.

28. Hdg: Heading, hacia que dirección esta orientada la nave. Igual que losanteriores, se obtiene el mínimo, la media y el máximo; además de los 10últimos valores antes de llegar al punto de 4 millas náuticas.

29. modoC: El modo C expresa la altura de la aeronave en niveles de vuelo, quese obtiene de la forma altura(ft.)

100 . Como en los casos anteriores, se obtieneel mínimo, máximo y la media; además de los 10 últimos valores antes dellegar al punto de 4 millas náuticas.

Aproximaciones: Además de los datos obtenidos, se hace una aproximación conun polinomio de grado 4 de todos los registros de las variables modoC, velMod yvelZ. Una vez obtenido el polinomio que aproxima a cada una de las variables,los parámetros de cada uno de los polinomios generados serán utilizados comoentrada de la red neuronal, así como el valor del coeficiente de determinaciónde la aproximación. Dicho esto, se añaden 6 nuevas entradas a la red por cadauno de los 3 parámetros mencionados.

9


2.1.2. Preprocesamiento

Una vez todos los datos han sido cruzados, hay que procesarlos para descartar infor-mación corrupta y poco útil. Al llegar a este punto había un total de 294.634 aterri-zajes registrados. Tras aplicar el tratamiento explicado en este apartado, quedarían294.468. Los aspectos tratados fueron:

Pistas de aterrizaje: Hay 3 pistas en el aeropuerto de Barcelona, véase la Figura2.1, pero cada una de ellas se divide en dos, una por cada sentido de aterrizaje.Una de las pistas, la 20, no se incluirá en el entrenamiento ni en los modelos de-bido a que no hay ningún aterrizaje registrado en ella. Por ello, serán finalmente5 las pistas utilizadas para los modelos.

Figura 2.1: Pistas del aeropuerto de Barcelona.

Valores Nulos: Todos los aterrizajes que tuvieran alguno de sus parámetros comonulos o NaN serían eliminados, quedando así 166 vuelos eliminados.

Outliers: El conjunto de datos se trató para que los aterrizajes con datos del ROTatípicos fueran descartados. Así, solo se tendrán en cuenta aterrizajes donde elROT durará entre 15 y 90 segundos.

Con los outliers y los datos corruptos eliminados, ahora correspondería transformarlas variables categóricas a numéricas, para que puedan ser normalizadas y proce-sadas por la red neuronal. Los parámetros categóricos fueron: wake_cat, adep_cat,company, Skyc1 y aircraft. Fueron convertidos de la siguiente forma:

Wake_cat: Al haber 4 posibles valores para este parámetro, la conversión decategórico a numérico se realizó en el rango [0, 3], asignando a cada categoría la

10

Modelos

posición que ocupara en la siguiente lista:

1 wake_cats = ["M", "H", "L", "J"]

Company: En este parámetro había 987 compañías distintas, por lo que la con-versión se realizó en el rango [0, 986], asignando a cada compañía la posición queocupará en la siguiente lista:

1 company = [’RYR’, ’VLG’, ’AFL’, ’AEE’, ’EZY’, ’VVV’, ’AEA’, ’AFR’, ’DLH’,2 ’BEL’, ’MAC’, ’DAH’, ’ANE’, ’SWR’, ’TAM’, ’LPE’, ’UAL’, ’WZZ’,3 ’THY’, ’CIG’, ’EZS’, ’IBK’, ’BAW’, ’AZA’, ’IBE’, ’KLM’, ’OAW’,4 ’EWG’, ’FIN’, ’UPS’, ’TVF’, ’TAP’, ’KTK’, ’EIN’, ’P4S’, ’QTR’,5 ’TRA’, ’WRC’, ’GWI’, ’BOH’, ’SDM’, ’AAL’, ’UAE’, ’EXS’, ’IJM’,6 ’LGL’, ’EVE’, ’JAF’, ’RA6’, ’LJB’, ’ARG’, ’PGT’, ’DAL’, ’RAM’,7 ’ELY’, ’ROT’, ’NAX’, ’NLY’, ’AVA’, ’MON’, ’AHO’, ’VPC’, ’NJE’,8 ’MGO’, ’TAR’, ’TCS’, ’ATL’, ’OEG’, ’BMS’, ’PIA’, ’FPO’, ’FDX’,9 ’BER’, ’BRU’, ’N45’, ’TUI’, ’SAS’, ’ROU’, ’LOT’, ’MSR’, ’ECL’,

10 ’BCS’, ’LZB’, ’N19’, ’EXU’, ’TAY’, ’SVR’, ’BTI’, ’N60’, ’UTN’,11 ’AUI’, ’SBI’, ’PVG’, ’NWS’, ’AOJ’, ’MLD’, ’GMA’, ’FPG’, ’WOW’,12 ’SPK’, ’TVS’, ’9AD’, ’CSA’, ’GAC’, ’ITN’, ’IFA’, ’SXN’, ’FHF’,13 ’FHJ’, ’GES’, ’AOV’, ’FHA’, ’LLX’, ’CCF’, ’FHP’, ’TOM’, ’ROJ’,14 ’FHI’, ’WGT’, ’9AJ’, ’JDI’, ’MJE’, ’TGM’, ’HBL’, ’AAB’, ’AUL’,15 ’BHK’, ’LNX’, ’SVW’, ’N92’, ’HBV’, ’T7B’, ’VPB’, ’HBF’, ’N30’,16 ’DBO’, ’QAF’, ’TCT’, ’N49’, ’PGG’, ’P4L’, ’P4M’, ’REN’, ’LWG’,17 ’DIS’, ’N16’, ’FHO’, ’KKK’, ’LBT’, ’ORO’, ’DIT’, ’SVB’, ’JFA’,18 ’VDR’, ’RJA’, ’JAR’, ’SPG’, ’ITO’, ’BCY’, ’BMW’, ’OEF’, ’SIO’,19 ’DCH’, ’LMJ’, ’MYX’, ’MSA’, ’NVJ’, ’CLJ’, ’N99’, ’FHC’, ’ECJ’,20 ’LXJ’, ’FHG’, ’DIP’, ’N36’, ’PHH’, ’DIC’, ’SWT’, ’MAF’, ’EDG’,21 ’OEI’, ’N78’, ’AWC’, ’MAR’, ’CXB’, ’DFK’, ’MNT’, ’AMX’, ’N18’,22 ’LGT’, ’DCS’, ’DCP’, ’LXA’, ’N71’, ’DEU’, ’FGV’, ’FAF’, ’JTI’,23 ’FHS’, ’LXG’, ’S5I’, ’N11’, ’TJJ’, ’N62’, ’MOL’, ’RMA’, ’FHM’,24 ’DCM’, ’OOP’, ’CLF’, ’TCA’, ’N77’, ’S5B’, ’EUW’, ’AJU’, ’KRP’,25 ’AXY’, ’ESQ’, ’IBM’, ’N38’, ’VJT’, ’NUB’, ’N65’, ’BZE’, ’NIM’,26 ’N33’, ’N88’, ’PJS’, ’LLT’, ’IAM’, ’N10’, ’LZG’, ’HYP’, ’HL8’,27 ’NFA’, ’LDM’, ’ODM’, ’DCA’, ’FYG’, ’N90’, ’N59’, ’EFD’, ’VQB’,28 ’AIZ’, ’N26’, ’HBJ’, ’N14’, ’N25’, ’N52’, ’SAZ’, ’HRN’, ’DGX’,29 ’DBA’, ’AMQ’, ’FAE’, ’MEN’, ’N24’, ’HZA’, ’TYW’, ’MBA’, ’DBE’,30 ’EAU’, ’AZE’, ’EAV’, ’N55’, ’N75’, ’FXR’, ’PPF’, ’GER’, ’MAB’,31 ’MHV’, ’ABP’, ’N58’, ’DCG’, ’N46’, ’KFE’, ’CNR’, ’CAZ’, ’FHT’,32 ’GRA’, ’N57’, ’A6V’, ’ELB’, ’OAV’, ’MIN’, ’T7P’, ’SGP’, ’TEU’,33 ’BKK’, ’YUP’, ’BOB’, ’AYY’, ’EJM’, ’ENT’, ’GOA’, ’DFL’, ’DCB’,34 ’CBM’, ’SUS’, ’OKP’, ’CTN’, ’N35’, ’N44’, ’OEE’, ’FHY’, ’AME’,35 ’YUM’, ’XAM’, ’CBX’, ’OOS’, ’LAV’, ’MLT’, ’N39’, ’IXR’, ’XAA’,36 ’P4A’, ’JBC’, ’N21’, ’TCF’, ’MFL’, ’YUS’, ’FIA’, ’VCG’, ’SHE’,37 ’QGA’, ’PRW’, ’N20’, ’FLI’, ’TRK’, ’ECK’, ’MUS’, ’PEA’, ’OOI’,38 ’FBR’, ’VND’, ’AVW’, ’AQS’, ’EZE’, ’ITL’, ’MJF’, ’DSO’, ’PRI’,39 ’MMR’, ’N98’, ’N22’, ’A7H’, ’OEH’, ’YUR’, ’IKR’, ’HYR’, ’N12’,40 ’N86’, ’GSD’, ’DAJ’, ’KOC’, ’EDC’, ’GEC’, ’N63’, ’N54’, ’N31’,41 ’HAY’, ’MAT’, ’SUA’, ’LYZ’, ’TIE’, ’SCR’, ’GMI’, ’XGO’, ’CFS’,42 ’EES’, ’TTJ’, ’4XC’, ’DUK’, ’N68’, ’TOY’, ’N50’, ’RLX’, ’MMD’,43 ’N93’, ’RWZ’, ’ISK’, ’N80’, ’GDK’, ’BLJ’, ’CFM’, ’N5G’, ’DIA’,44 ’TSC’, ’JEI’, ’AMC’, ’AUH’, ’MJT’, ’GRN’, ’3AM’, ’CCA’, ’QQE’,45 ’DCF’, ’XRO’, ’FHK’, ’NOS’, ’FFD’, ’TCG’, ’PAV’, ’XAP’, ’ADN’,46 ’LZF’, ’TJS’, ’RZO’, ’RBB’, ’DUB’, ’MTS’, ’KAL’, ’DIX’, ’D2A’,47 ’EAT’, ’ECM’, ’FHR’, ’AEH’, ’PHA’, ’PLM’, ’PNC’, ’TCK’, ’ASJ’,48 ’BRS’, ’TIH’, ’ASL’, ’LLP’, ’FHD’, ’ABG’, ’SPM’, ’MEA’, ’AWS’,49 ’N51’, ’BOO’, ’MNA’, ’PHM’, ’TYA’, ’DCI’, ’LLC’, ’STC’, ’N37’,50 ’HFM’, ’BFD’, ’MSP’, ’PJZ’, ’RSY’, ’DCW’, ’DAA’, ’DBU’, ’MDU’,51 ’XCH’, ’GOI’, ’JTR’, ’IRM’, ’GIR’, ’CRL’, ’CLS’, ’MHO’, ’HKH’,52 ’JMK’, ’TCR’, ’GZP’, ’P4K’, ’N81’, ’ITA’, ’ATV’, ’BLX’, ’DBJ’,53 ’CFL’, ’N17’, ’N27’, ’MTF’, ’PWF’, ’TVP’, ’KBD’, ’MIL’, ’LEA’,54 ’JEF’, ’GJM’, ’CFE’, ’BVR’, ’NGT’, ’STQ’, ’PHR’, ’ICE’, ’TVQ’,55 ’N72’, ’OOA’, ’CGK’, ’B82’, ’CPA’, ’TKK’, ’UTA’, ’MCC’, ’FLJ’,56 ’LTC’, ’PUE’, ’JME’, ’LRR’, ’BAH’, ’MFR’, ’SIA’, ’DCE’, ’XJC’,57 ’FGZ’, ’CGU’, ’VTN’, ’AHY’, ’DFB’, ’HZH’, ’XAJ’, ’GZN’, ’GLJ’,58 ’ZJT’, ’XAR’, ’MLM’, ’N43’, ’DIR’, ’N74’, ’T7Z’, ’N32’, ’PTS’,59 ’IBS’, ’7TV’, ’N5V’, ’ETI’, ’TCC’, ’N6V’, ’N4T’, ’N34’, ’VKG’,

11


60 ’SPU’, ’PRF’, ’MZJ’, ’PHC’, ’GWC’, ’LLM’, ’MJS’, ’MUG’, ’MOZ’,61 ’MSS’, ’TWY’, ’ANG’, ’N89’, ’SRN’, ’TDR’, ’MIR’, ’COO’, ’MPI’,62 ’IGA’, ’YUB’, ’MPR’, ’MYS’, ’VBB’, ’T7O’, ’NTF’, ’MIC’, ’GYM’,63 ’IEL’, ’YLK’, ’SUM’, ’MIG’, ’FYL’, ’PPJ’, ’PRB’, ’EMM’, ’OOC’,64 ’GTH’, ’TCM’, ’N97’, ’9MT’, ’ISR’, ’N40’, ’MAN’, ’J2H’, ’MCI’,65 ’ADR’, ’N76’, ’DID’, ’OOV’, ’XAS’, ’GJI’, ’HTM’, ’N41’, ’N84’,66 ’YLC’, ’CGS’, ’TSR’, ’N73’, ’N48’, ’MIA’, ’HOP’, ’DCO’, ’MUR’,67 ’MGR’, ’MTL’, ’HZN’, ’HZI’, ’OOL’, ’HSY’, ’N66’, ’MMT’, ’VOE’,68 ’9HA’, ’VLJ’, ’DIG’, ’PRN’, ’TTD’, ’MKK’, ’OFL’, ’LIN’, ’OBS’,69 ’JAS’, ’N91’, ’MSO’, ’TBJ’, ’GNJ’, ’N83’, ’SAH’, ’ARN’, ’MDT’,70 ’OKH’, ’GAF’, ’OAE’, ’N56’, ’CGM’, ’DFC’, ’P4G’, ’N1J’, ’CTM’,71 ’CGE’, ’WHT’, ’MMM’, ’MRR’, ’MFA’, ’N9U’, ’PHS’, ’N70’, ’CFG’,72 ’ANR’, ’MYU’, ’OOG’, ’B98’, ’AAR’, ’RDN’, ’T7M’, ’QAJ’, ’RKS’,73 ’MLA’, ’N6H’, ’FHV’, ’CFF’, ’VHV’, ’MYG’, ’N29’, ’SJT’, ’ANA’,74 ’RHK’, ’DIV’, ’MYA’, ’BAY’, ’NWG’, ’MIM’, ’CGT’, ’IGG’, ’DIJ’,75 ’MGS’, ’ECA’, ’BPA’, ’MAM’, ’MNB’, ’DCD’, ’JSY’, ’CNL’, ’CGI’,76 ’BUC’, ’CCM’, ’ZSK’, ’ARZ’, ’A7A’, ’VTA’, ’CGJ’, ’N82’, ’DAN’,77 ’DFO’, ’FRF’, ’TES’, ’APX’, ’KAI’, ’TGZ’, ’CNT’, ’AXG’, ’MRO’,78 ’BBD’, ’TCV’, ’ABF’, ’N53’, ’MCR’, ’OKB’, ’LDX’, ’PEG’, ’JTN’,79 ’GJT’, ’DCC’, ’N1T’, ’T7A’, ’OEW’, ’RFE’, ’AUA’, ’SJE’, ’BBG’,80 ’VMP’, ’JCL’, ’FHL’, ’PHT’, ’LUC’, ’DAG’, ’SPA’, ’IFF’, ’VSV’,81 ’BUR’, ’VAJ’, ’N87’, ’DJT’, ’LSM’, ’GRE’, ’TCD’, ’N95’, ’GFL’,82 ’FOO’, ’P4J’, ’T7T’, ’RYS’, ’MNJ’, ’PLF’, ’PPL’, ’CGX’, ’A7M’,83 ’SLJ’, ’JSH’, ’SYG’, ’BAF’, ’MOR’, ’LXT’, ’MDE’, ’MYB’, ’HHN’,84 ’FGC’, ’TCO’, ’N61’, ’N85’, ’N15’, ’JTL’, ’ELJ’, ’N23’, ’ADZ’,85 ’PPM’, ’PWY’, ’LYD’, ’DTR’, ’FXT’, ’JET’, ’HFY’, ’BBB’, ’T7F’,86 ’2LI’, ’EVL’, ’MUL’, ’ESK’, ’N28’, ’A6A’, ’KTR’, ’IPF’, ’HSK’,87 ’IEP’, ’SIX’, ’T7G’, ’N6J’, ’9MI’, ’CSD’, ’MAA’, ’GPK’, ’JML’,88 ’XAO’, ’N47’, ’T7C’, ’BFY’, ’UZB’, ’AWU’, ’ICL’, ’BCI’, ’MOE’,89 ’KER’, ’FHE’, ’OPM’, ’AXE’, ’KLJ’, ’HMJ’, ’CFC’, ’GOJ’, ’DIB’,90 ’N13’, ’SRR’, ’SSV’, ’MEV’, ’DAU’, ’REU’, ’PLG’, ’CRV’, ’VBA’,91 ’TCX’, ’EAF’, ’N42’, ’MAG’, ’VAW’, ’HAT’, ’B32’, ’T7I’, ’QNR’,92 ’GGL’, ’TCW’, ’PTF’, ’DCK’, ’MYJ’, ’GWR’, ’JKH’, ’XAC’, ’ABW’,93 ’ERN’, ’TVL’, ’P4N’, ’LSA’, ’SVK’, ’XAD’, ’ART’, ’OHJ’, ’SSR’,94 ’VDA’, ’OHD’, ’DFT’, ’OOX’, ’FHB’, ’5BC’, ’2GO’, ’VTH’, ’MPL’,95 ’2RB’, ’BID’, ’N96’, ’SYB’, ’SVA’, ’ITE’, ’PHF’, ’DAT’, ’OKA’,96 ’DIE’, ’EAO’, ’N1A’, ’IBJ’, ’RJD’, ’SDR’, ’JTG’, ’DIO’, ’RJR’,97 ’ERF’, ’N3A’, ’FGL’, ’OOJ’, ’N67’, ’9HB’, ’T7V’, ’PHD’, ’NVR’,98 ’MSF’, ’TCN’, ’BJN’, ’MAL’, ’ULC’, ’PRD’, ’PRS’, ’MRL’, ’A6H’,99 ’DIM’, ’PHV’, ’T7U’, ’N1D’, ’T7H’, ’HRT’, ’ACA’, ’BRO’, ’OKD’,

100 ’HBI’, ’XAF’, ’ETD’, ’JNL’, ’EJU’, ’IFV’, ’SPI’, ’T7S’, ’SQP’,101 ’VTE’, ’BFX’, ’EOA’, ’ECN’, ’IMP’, ’WJA’, ’ALN’, ’MED’, ’VSR’,102 ’CDX’, ’PPA’, ’PPD’, ’CGG’, ’MIF’, ’MCK’, ’T7N’, ’DIH’, ’CJT’,103 ’NMA’, ’ARL’, ’LVI’, ’9HI’, ’NIA’, ’ESW’, ’3BP’, ’GAG’, ’ETH’,104 ’WLB’, ’TFF’, ’EVJ’, ’A6C’, ’EUP’, ’SOZ’, ’LRQ’, ’SMC’, ’2MS’,105 ’IXP’, ’CNC’, ’GTI’, ’N94’, ’PTA’, ’MFI’, ’KAR’, ’DIL’, ’CNG’,106 ’CVK’, ’PHJ’, ’CWG’, ’DAB’, ’COL’, ’BAO’, ’PRP’, ’SOW’, ’SSE’,107 ’B60’, ’QFA’, ’MDA’, ’LVH’, ’IWA’, ’MUN’, ’CGC’, ’IAE’, ’HI9’,108 ’IBN’, ’RTG’, ’VLB’, ’2KY’, ’DIK’, ’VTI’, ’HAB’, ’OYV’, ’OON’,109 ’N7G’, ’FTY’, ’KAY’, ’OOE’, ’ICD’, ’GLE’, ’N64’, ’VXS’, ’9HJ’,110 ’MBE’, ’PAJ’, ’OYA’, ’2JS’, ’2ZE’, ’T7D’]

aircraft: En los datos recibidos había 162 modelos de aeronave distintos, por loque el intervalo al que se convirtieron fue [0, 161], asignando a cada modelo laposición que ocupará en la siguiente lista:

1 aircraft = [’B738’, ’A321’, ’A320’, ’C25B’, ’A318’, ’A319’, ’CRJ9’, ’B763’,2 ’A333’, ’E35L’, ’E190’, ’B752’, ’A332’, ’CRJ2’, ’E135’,3 ’B739’, ’B736’, ’B772’, ’B77W’, ’B733’, ’F900’, ’DH8D’, ’AT75’,4 ’B737’, ’GLEX’, ’A343’, ’B77L’, ’B764’, ’B788’, ’C56X’, ’GLF5’,5 ’CL30’, ’C25A’, ’C560’, ’GLF4’, ’GALX’, ’A388’, ’C510’, ’C525’,6 ’B734’, ’BCS3’, ’CRJ1’, ’E50P’, ’CL60’, ’GLF6’, ’E55P’, ’CRJX’,7 ’LJ60’, ’E550’, ’CL35’, ’E145’, ’F2TH’, ’E170’, ’BE40’,8 ’C550’, ’B350’, ’LJ75’, ’FA7X’, ’B735’, ’H25B’, ’C680’,9 ’P180’, ’C25C’, ’PC12’, ’C750’, ’PRM1’, ’A306’, ’SU95’, ’FA50’,

10 ’B762’, ’AT72’, ’F100’, ’ZZZZ’, ’S22T’, ’BCS1’, ’SR22’,11 ’GL5T’, ’LJ45’, ’RJ1H’, ’B789’, ’A310’, ’C650’, ’B744’, ’A346’,12 ’B753’, ’BE9L’, ’FA20’, ’ASTR’, ’LJ31’, ’G280’, ’C551’, ’MD82’,

12

Modelos

13 ’P46T’, ’RJ85’, ’G150’, ’B463’, ’A345’, ’TBM9’, ’BE20’, ’T204’,14 ’C25M’, ’C55B’, ’TBM7’, ’E195’, ’J328’, ’LJ55’, ’LJ40’, ’GLF3’,15 ’D328’, ’A359’, ’LJ35’, ’SF34’, ’A20N’, ’AT76’, ’HDJT’, ’B773’,16 ’A342’, ’C68A’, ’E545’, ’HA4T’, ’K738’, ’A340’, ’B767’, ’C208’,17 ’ATP’, ’B712’, ’FA8X’, ’E75S’, ’CRJ7’, ’SB20’, ’L320’, ’B38M’,18 ’PAY3’, ’C295’, ’A21N’, ’20’, ’AT45’, ’38’, ’FA10’, ’C526’, ’MD83’,19 ’32’, ’B748’, ’IL76’, ’SW4’, ’M600’, ’B732’, ’A330’, ’10’, ’CN35’,20 ’A124’, ’B78X’, ’A35K’, ’GA5C’, ’PC24’, ’C501’, ’36’, ’0N’, ’AN12’,21 ’A737’, ’GA6C’, ’EA50’]

Skyc1: Este parámetro representa el estado de las nubes cuando el avión seencuentra a 4 millas náuticas del aeropuerto, y viene representado por unacadena de texto. Dicha cadena fue convertida a un valor numérico de la siguienteforma:

1 cloud_states = {"FEW" : 1.5/8, "SCT":3.5/8, "BKN": 6.0/8, "NSC":0.0, "CAVOK":0.0, "SKC":0.0, "OVC":1.0}

Adep_cat: Este parámetro representa la región de donde procede el vuelo, yviene representado por una cadena de texto. Dicha cadena fue convertida a unvalor numérico de la siguiente forma: Si dicha cadena empezaba por "LE", se leasignaría el valor 0. De la misma forma, si la cadena era "zzzz" se le asignaba elvalor 22. En el caso de que no se cumplieran ninguno de los casos anteriores,se le asignaba como valor la posición que tuviera la primera letra en la siguientelista:

1 adep_cats = ["SPAIN", "L", "E", "D", "G", "O", "B", "H", "U", "K",2 "M", "C", "T", "S", "F", "Z", "V", "R", "W", "Y", "A", "N", "

UNKNOWN"]

2.1.2.1. Normalización de los datos

Una vez tratada la información, se procederá a normalizar el conjunto de entrena-miento, ya que, como se expone en [14], la normalización puede acelerar el procesode entrenamiento de la red e incluso llegar a mejores resultados. Esto es debido a quelas diferentes escalas de los datos de entrada pueden ralentizar mucho el aprendi-zaje. Para llevar a cabo la normalización, se utilizará la normalización max-min. Estetipo de normalización transforma los datos de entrada a un rango, en este caso entre-1 y 1, siendo 1 el valor máximo de ese parámetro y siendo -1 el mínimo.

2.2. Software desarrollado para la creación de modelos

Para la creación de las redes neuronales, se ha optado por hacer un software basadoen Keras que prueba una serie de hiperparámetros generando y entrenando diferen-tes redes, y seleccionando finalmente las redes que mejor resultado ofrecen. Esto sehizo de esta forma debido a que este software puede ser reutilizable para cualquiertipo de proyecto, y, aunque necesita mucho tiempo de cómputo, reduce el esfuerzo delos usuarios, pudiendo dedicarse a otras tareas mientras se busca el mejor modelo.

Para encontrar una arquitectura de red que se adapte al problema se han probadodistintas configuraciones, donde los hiperparámetros a probar eran los siguientes:

13


Número de capas y de neuronas por capa: Se probarán redes de distinto tamañopara ver cual es la arquitectura que se adapta mejor al problema.

Factor de dropout de todas las capas: En todas las redes se introduce una capade dropout entre cada una de las capas ocultas, para reducir el posible sobre-entrenamiento. Este tipo de capas descartan una parte de las entradas de lacapa anterior. El ratio de entradas descartadas viene dado por el factor de dro-pout.

Tasa de aprendizaje (Learning Rate): La tasa de aprendizaje indica cuánto cam-bian los pesos de la red por cada actualización de estos. Como se expone en laFigura 2.2, si este valor es demasiado grande puede que los pesos de la red nolleguen a converger a su valor óptimo; y si es demasiado pequeño, puede quetarde demasiado en converger.

Figura 2.2: A la izquierda, un ejemplo de learning rate demasiado alto, donde elalgoritmo es incapaz de encontrar el mínimo en la función de error. A la derecha, unejemplo con un learning rate bajo, donde el algoritmo tarda demasiado en encontrarel mínimo de la función.

Optimizadores de la red: Los optimizadores son los algoritmos que van a optimi-zar los pesos de la red neuronal.

2.2.1. Funcionamiento

El funcionamiento del software desarrollado es el siguiente:

1. El software empieza a generar y entrenar distintas redes, una por cada combi-nación posible de todos los hiperparámetros especificados.

2. Los modelos ya entrenados se guardan todos en una carpeta especificada, en elformato mostrado en la Figura 2.3.

Figura 2.3: Archivos generados tras la ejecución del software.

14

Modelos

3. Cuando todos los modelos han sido entrenados, se genera un archivo con laclasificación de los modelos ordenados por el valor de la función de pérdidaen validación (validation loss). En la Figura 2.4 se muestra un ejemplo de laclasificación.

Figura 2.4: Modelos ordenados de mejor a peor rendimiento.

La función, en Python, tiene la siguiente forma:

1 autoML(name, folder , trn_dataset , val_dataset ,2 output_name , max_epochs , patience , optimizers , layers ,3 dropouts , learning_rates )

Name: Nombre que tendrán los archivos generados, que irán seguidos de unidentificador único para cada uno de ellos.

Folder: Carpeta en la que se guardarán todos los modelos.

Trn_dataset: Dataset utilizado para el entrenamiento, en formato Dataframe depandas.

Val_dataset: Dataset utilizado para la validación, en formato Dataframe de pan-das.

Output_name: Nombre de la variable del dataset que se quiere predecir.

Max_epochs: Número máximo de épocas que va a ser entrenado cada modelo.

Patience: Número máximo de épocas que se sigue entrenando un modelo sinninguna mejora. Si pasan este número de épocas y el modelo no ha mejorado,se pausa el entrenamiento de ese modelo.

Optimizers: Lista de cadenas con los nombres de los optimizadores a utilizar.Posibles opciones: Adam, Adamax, Adadelta, Nadam, SGD, y RMSProp.

Layers: Lista de arquitecturas de neuronas que se van a probar. Cada arqui-tectura viene representada por una lista con varios enteros que representan elnúmero de neuronas en cada capa oculta. Por ejemplo: [500, 200, 100] sería unared neuronal con 3 capas ocultas con 500, 200 y 100 neuronas.

Dropouts: Lista con los valores de dropout a probar. Hay una capa de dropoutpor cada capa oculta.

Learning_rates: Lista de los coeficientes de aprendizaje a probar por el software.

15


Esta función devuelve un dataframe con la siguiente información de cada mo-delo: Nombre, pérdida en validación, pérdida en entrenamiento, optimizador,coeficiente de aprendizaje, arquitectura de la red y dropout.

2.2.2. Elementos comunes a todas las redes generadas

Aunque el software se encarga de probar distintas arquitecturas, hay varios elemen-tos que son comunes a todas ellas. En todas las redes hay 129 neuronas de entrada,en el caso del modelo general, y 124 en el caso de los modelos específicos para ca-da pista de aterrizaje. Para todas las neuronas de las capas ocultas la función deactivación es ReLU, ya que suele dar buenos resultados [15] y evita el problema delvanishing gradient [16] que puede ocurrir con funciones como la sigmoide o la tan-gente hiperbólica. En todos los casos la neurona de salida tendrá una función desalida lineal, ya que son las más apropiadas en problemas de regresión, como es elcaso. Entre cada una de las capas ocultas hay una capa de dropout, aunque el ratiode activación del dropout será escogido por el software. La función de pérdida o lossserá el error cuadrático medio. La estructura de la red se muestra en la Figura 2.5.

Figura 2.5: Arquitectura común de todas las redes probadas.

El tamaño del batch es de 1000 entradas. Esto determinará la cantidad de vuelosque se procesarán antes de actualizar los pesos de la red. Al haber 200.000 entradas,esto quiere decir que los pesos se actualizarán muchas veces por cada época, lo queen principio puede parecer negativo porque aumentará el tiempo de cómputo. Según[18] un tamaño de batch reducido puede aumentar la velocidad de convergencia dela red, por ello no se utilizará uno mayor.

16

Modelos

2.2.3. Redes probadas

Los valores probados en cada uno de los apartados de la sección anterior han sidolos siguientes:

Número de capas y de neuronas por capa:

En este apartado se han probado configuraciones con distinto número de neu-ronas y de capas, intentando probar la mayor variedad de estructuras posible.

1. La primera arquitectura a probar ha sido una red con 4 capas ocultas conel siguiente número de neuronas por capa: 500, 200, 100, 50. Esta arqui-tectura va disminuyendo el número de neuronas por capa, para que cadacapa vaya comprimiendo la información hasta llegar a la capa de salida. Eneste caso se ha utilizado un número no muy elevado de neuronas.

2. La segunda arquitectura ha sido una red con 3 capas ocultas con el mismonúmero de neuronas en cada capa: 500, 500, 500. Esta arquitectura tieneuna cantidad de neuronas algo mayor, y es bastante diferente a la propues-ta anteriormente, por no variar el número de neuronas en cada capa.

3. La tercera arquitectura ha sido una red con 3 capas ocultas con el siguientenúmero de neuronas en cada capa: 100, 50, 20. Esta arquitectura sigue lafilosofía de la primera: ir reduciendo el número de neuronas por capa. Eneste caso el tamaño de la red es mucho más pequeño que los anteriores,por lo que es esperable un resultado peor si este número de neuronas noes capaz de representar bien la complejidad del problema. En el caso deofrecer buen resultado, esta red es mucho más rápida de entrenar y probarque las anteriores por sus dimensiones.

4. La última arquitectura ha sido una red con 5 capas ocultas con el siguientenúmero de neuronas en cada capa: 1000, 500, 250, 125, 50. Esta arquitec-tura tiene un número muy elevado de neuronas e intenta hacer lo contrarioque la anterior: probablemente ofrezca mejor resultado, pero es mucho máscostosa de entrenar que otras propuestas.

Factor de dropout de todas las capas: En este apartado, se han probado dife-rentes factores de dropout para intentar que las redes más grandes no lleguena sobre-entrenarse. Se han probado estos valores: 0, 0.02, 0.05, 0.07, 0.1. Losvalores probados no son elevados debido a que hay una capa de dropout entrecada una de las capas ocultas de la red, por lo que un valor elevado no haría po-sible que la red aprendiera. Uno de los valores propuestos es 0, por si alguna delas redes funcionara mejor sin ningún tipo de regularización, presumiblementela de tamaño reducido.

Tasa de aprendizaje (Learning Rate): Como se especifica en [17], es típicoprobar valores para el factor de aprendizaje en una escala logarítmica, de formaque los valores probados han sido: 10e-2, 10e-3, 10e-4, 10e-5.

Optimizadores de la red: En este apartado se ha optado por probar variosoptimizadores modernos que suelen ofrecer mejor rendimiento que alternativascomo el descenso por el gradiente clásico. Se utilizará Adam([19]), Nadam([20]),Adamax([19]) y Adadelta.(cita)

17

2.3. Metodología seguida en el desarrollo de modelos

2.3. Metodología seguida en el desarrollo de modelos

Una vez descrito el software utilizado para generar los modelos, en esta sección seexplicará cómo se ha utilizado para dar solución a los problemas propuestos. Laempresa propuso como métrica para la comparación de modelos el porcentaje deaciertos con 7 segundos de tolerancia, es decir, el porcentaje de predicciones quedifieren en menos de 7 segundos con el ROT observado.

2.3.1. Modelo General

Primero, se generaron modelos donde se incluyen todas las pistas de aterrizaje, ydonde cada una de ellas es un parámetro de entrada binario, siendo 1 si es la pistaelegida para el aterrizaje, y 0 en caso contrario.

Para la creación y entrenamiento de los modelos, se ha utilizado el software explicadoen la sección anterior. El procedimiento a seguir fue el siguiente:

1. Se ejecutó el software, que probaría todas las combinaciones posibles entre losparámetros propuestos, descritos en la sección 2.2.3. Se entrenaron cada unode los modelos durante un máximo de 4000 iteraciones. Si los modelos no me-joraban el resultado en el entrenamiento durante 500 iteraciones, se pausaba elentrenamiento y se empezaba a entrenar otro modelo. Este proceso daría comoresultado 320 modelos distintos, que serían almacenados y estudiados.

2. Con la lista de modelos ordenada por la pérdida en validación, proporcionadapor el software, se tomaron los 5 primeros, y estos serían entrenados 30.000iteraciones más, para ver donde podía llegar cada uno de los modelos. Se guar-daría un checkpoint de todos los modelos cada 5.000 iteraciones, dando comoresultado 30 checkpoints que serán posteriormente probados.

3. Tras esto, se probarían cada uno de estos checkpoints sobre el conjunto de test,viendo cual era el que mayor porcentaje de acierto tenía, tomando como aciertouna diferencia de menos de 7 segundos en la predicción.

4. Finalmente, el modelo resultante sería entrenado durante 70.000 iteracionesmás, para hacer un total de 100.000 iteraciones aproximadamente. Se guardaríaun checkpoint cada 5.000 iteraciones y finalmente el modelo elegido será elcheckpoint con mejor porcentaje de aciertos en el conjunto de test.

2.3.2. Modelos particularizados por pistas

Tras obtener el modelo definitivo que utiliza todas las pistas, en este apartado seexplicará como se generaron los modelos específicos para cada una de las pistas deaterrizaje.

En el aeropuerto de Barcelona hay 5 pistas disponibles para el aterrizaje, por lo queel objetivo aquí era obtener un modelo para cada una de las pistas. En este apartadose podría haber seguido la metodología anterior, pero el tiempo destinado para labúsqueda de modelos y el entrenamiento podía ser demasiado elevado al tener quehacer el proceso explicado en la sección anterior 5 veces. Por ello, los pasos a seguirfueron:

18

Modelos

1. Se elegiría la pista con un mayor número de aterrizajes registrados, y se ejecu-taría el software tal y como se hizo en la sección anterior.

2. Esto nos proporcionará los 5 mejores modelos para esa pista, que, de nuevo,serán entrenados 30.000 iteraciones más, guardando un checkpoint cada 5.000iteraciones.

3. Tras esto, se elegiría el mejor de los 5 modelos, utilizando la métrica del porcen-taje de aciertos en 7 segundos entre todos los checkpoints, y se entrenará hastalas 100.000 iteraciones para ponerlo a prueba.

4. Como hacer esto para cada una de las pistas sería demasiado costoso en cuantoa tiempo de ejecución, se tomaría el modelo que mejor ha funcionado para laprimera pista y se entrenaría hasta las 100.000 iteraciones con checkpointscada 5.000 iteraciones, con cada una de las pistas, ahorrando así el tiempodestinado para encontrar la mejor arquitectura de la red. Esto se hizo con lapista con más aterrizajes registrados ya que puede ser la más representativadel problema al tener mayor cantidad de información. El problema a resolver enestos modelos es exactamente el mismo, con el mismo número de entradas perosolo cambiando los datos para el entrenamiento, por lo que es de esperar que lared que dio buen resultado para una pista sirva también para las otras.

19

2.4. Entrenamiento y testeo de los modelos


En esta sección se pondrá en práctica la metodología anterior y se expondrán losresultados obtenidos, en cada uno de los modelos.

2.4.1. Modelo General

Siguiendo la metodología expuesta anteriormente, se entrenaron 320 modelos distin-tos durante 4.000 iteraciones como máximo, parando antes si la pérdida no mejorabadurante 500 iteraciones. De los 294.468 aterrizajes disponibles, se utilizaron el 90 %para el entrenamiento, el 3 % para validación y el 7 % restante para testeo. Los mo-delos que mejor resultado vienen reflejados en la Tabla 2.1.

Tabla 2.1: Características de los mejores 5 modelos. LR es el Learning Rate, y Lossrepresenta el valor de la función de pérdida sobre el conjunto de validación.

Parámetros de los mejores 5 modelosPosición ID Estructura Optimizador Dropout LR Loss

1 128 [500, 500, 500] Adamax 0,05 10e-4 0,03292 147 [500, 500, 500] Adamax 0,02 10e-5 0,03353 127 [500, 500, 500] Adamax 0,02 10e-4 0,03374 227 [100, 50, 20] Adamax 0,02 10e-5 0,03375 150 [500, 500, 500] Adamax 0,1 10e-5 0,0340

Todos estos modelos obtuvieron resultados parecidos en la función de pérdida en elconjunto de validación. Se entrenaron 30.000 iteraciones más, y fueron probados conel conjunto de test obteniendo los resultados expresados en la Figura 2.6:

Figura 2.6: Porcentaje de aciertos en la predicción del ROT en el conjunto de test decada uno de los modelos. Se toma como acierto una predicción con menos de 7 segun-dos de error. Cada línea representa una red neuronal, y cada punto un checkpointde dicha red.

Después de las 30.000 iteraciones, hubo un modelo que destacó por encima del resto,

20

Modelos

el 227. Se consigue el mayor porcentaje de aciertos a las 15.000 iteraciones de dichomodelo, por lo que se seguirá entrenando hasta las 100.000 iteraciones para ver si sepuede superar el resultado obtenido. Cabe destacar que el mejor de los modelos estambién el que tiene una arquitectura más simple, teniendo muchas menos neuronasen las capas ocultas que el resto. Esto podría indicar que el resto de modelos se hansobre ajustado al conjunto de entrenamiento y no son capaces de generalizar correc-tamente. La red utilizada para el modelo general, la número 227, está representadagráficamente en el siguiente apartado, en la Figura 2.7.

21

2.4

.1.1

.R

epre

senta

ción

gráfi

cade

lare

dse

lecc

ionad

a

Fig

ura

2.7

:R

epre

sen

taci

ónde

lare

del

egid

afin

alm

ente

par

ala

pre

dic

ción

del

RO

Ten

elm

odel

oge

ner

al,

don

de

sein

clu

yen

todas

las

pis

tas.

2.4.1.2. Resultados obtenidos del Modelo General

La red seleccionada fue entrenada 70.000 iteraciones más, llegando a 100.000 itera-ciones. Como se guardaron checkpoints del modelo cada 5.000 iteraciones, se selec-cionó el que mejor porcentaje de aciertos obtuvo. Los resultados por iteración son losmostrados en la Figura 2.8.

Figura 2.8: Porcentaje de aciertos en la predicción del ROT en el conjunto de test decada uno de los modelos, en naranja. Error medio absoluto expresado en segundos,en azul.

Viendo estos resultados, el modelo elegido finalmente fue el guardado a las 45.000iteraciones, que obtenía un 74,53 % de aciertos.


El porcentaje de aciertos con distintas tolerancias se muestra en la Figura 2.9.

Figura 2.9: Porcentaje de aciertos según la tolerancia fijada.

El porcentaje de aciertos depende de la tolerancia, que es el error máximo permitidopara considerar una predicción como acierto, en segundos. Este modelo acierta untercio de las predicciones con una tolerancia de 3 segundos, supera el 50 % con 5segundos y se queda cerca del 90 % con 10 segundos.

24

Modelos

2.4.2. Modelos particularizados por pista

Siguiendo la metodología, la arquitectura de todas las redes que fueron entrenadaspara una sola pista sería la misma. Esta vendría determinada por el software desa-rrollado, que se aplicaría sobre la pista con más aterrizajes. El número de aterrizajespor pista registrados se muestra en la Figura 2.10.

Figura 2.10: Número de aterrizajes registrados en cada una de las pistas. La pista 20no se tendría en cuenta debido a que no hay ningún aterrizaje registrado.

Por esto, la pista elegida para aplicar el software y buscar la mejor arquitectura seríala 25R.

2.4.2.1. Pista 25R

Siguiendo la metodología expuesta anteriormente, se entrenaron 320 modelos distin-tos durante 4.000 iteraciones como máximo, parando antes si la pérdida no mejorabadurante 500 iteraciones. Los 207.444 aterrizajes registrados en esta pista se dividie-ron en: 90 % para el entrenamiento, 3 % para la validación y 7 % para el testeo. Losmodelos que mejor resultado dieron se exponen en la Tabla 2.2.

25


Tabla 2.2: Características de los mejores 5 modelos. LR es el Learning Rate, y Lossrepresenta el valor de la función de pérdida sobre el conjunto de validación.

Parámetros de los mejores 5 modelosPosición ID Estructura Optimizador Dropout LR Loss

1 21 [500,200,100,50] Adam 0.00 10e-2 0.03082 172 [100, 50, 20] Adadelta 0.02 10e-1 0.03093 174 [100, 50, 20] Adadelta 0.07 10e-1 0.03104 205 [100, 50, 20] Adam 0.1 10e-3 0.03115 228 [100, 50, 20] Adamax 0.05 10e-4 0.0311

Con los 5 mejores modelos seleccionados, se entrenaron 30.000 iteraciones más y seeligió el modelo con un mayor porcentaje de aciertos con 7 segundos de tolerancia,tal como se especificó en la metodología. El porcentaje de acierto de los modelos poriteración se muestra en la Figura 2.11.

Figura 2.11: Porcentaje de aciertos obtenido por los modelos cada 5.000 iteracionesde entrenamiento. Se cuenta como acierto cuando el error del ROT es menor a 7segundos en el conjunto de datos de test.

El mejor resultado se obtiene con el modelo 21 a las 30.000 iteraciones, por lo queeste modelo será entrenado hasta las 100.000 iteraciones como se especificó en lametodología.

26

2.4

.2.2

.R

epre

senta

ción

gráfi

cade

lare

dse

lecc

ionad

a

Fig

ura

2.1

2:

Rep

rese

nta

ción

de

lare

del

egid

afin

alm

ente

par

ala

pre

dic

ción

del

RO

Ten

elm

odel

oge

ner

al,

don

de

sein

clu

yen

todas

las

pis

tas.

2.4.2.3. Resultados obtenidos del Modelo 25R

Los resultados obtenidos por iteración se muestran en la Figura 2.13.

Figura 2.13: Porcentaje de aciertos y error medio absoluto por número de iteraciones.

Viendo los resultados, el modelo ha obtenido el rendimiento máximo (siguiendo lamétrica del porcentaje de aciertos) en las 60.000 iteraciones, obteniendo un 74,63 %de aciertos.

El porcentaje de aciertos según la tolerancia del error viene dado en la Figura 2.14.

Modelos

Figura 2.14: Porcentaje de aciertos según la tolerancia en segundos.

Este modelo consigue más de un tercio de aciertos con 3 segundos de tolerancia,algo más de la mitad con 5 segundos, y consigue llegar al 90 % de aciertos con 10segundos de tolerancia.

2.4.2.4. Pista 07L

Para esta pista se utilizó la misma red neuronal que en la anterior, pero siendo en-trenada con los vuelos pertenecientes a ésta. Había 43.469 aterrizajes registrados, delos que el 90 % fue utilizado para el entrenamiento, el 5 % para la validación y el 5 %restante para el testeo. La red fue entrenada hasta las 100.000 iteraciones dando losresultados mostrados en la Figura 2.15.

29



En este caso el mejor modelo se obtuvo a las 10.000 iteraciones, por lo que éste fueelegido para ser comparado con el modelo general. El rendimiento del modelo portolerancia se expone en la Figura 2.16.


Este modelo consigue buenos resultados con pocos segundos de tolerancia. La cur-va va reduciendo su pendiente de forma muy pronunciada conforme se aumenta latolerancia, obteniendo, por ejemplo, un resultado de 42 % de aciertos con 3 segun-dos, que es bastante destacable, pero quedándose muy por debajo del 90 % con 10segundos, resultado que otros modelos anteriores si han conseguido.

30

Modelos

2.4.2.5. Pista 02

De nuevo, la misma red fue entrenada hasta las 100.000 iteraciones con los vuelospertenecientes a la pista 02. De los 32.659 aterrizajes registrados en esta pista, el90 % fue utilizado para el entrenamiento, el 5 % para la validación y el 5 % restantepara el testeo, obteniendo los resultados mostrados en la Figura 2.17.


En este caso, el mejor resultado se obtuvo a las 60.000 iteraciones. En la Figura 2.18se muestra el porcentaje de aciertos según la tolerancia seleccionada.

Este modelo consigue superar con creces el tercio de aciertos con 3 segundos detolerancia y la mitad con 54 segundos, pero, como modelos anteriores, no mantieneese rendimiento tan alto con tolerancias mayores, no llegando al 90 % de aciertos con10 segundos de tolerancia.

31



2.4.2.6. Pista 25L

Con la red entrenada según los vuelos de la pista 25L, repartiendo los 10.514 aterri-zajes en: 80 % para el entrenamiento, 10 % para la validación y 10 % para el testeo;los resultados por iteración fueron los mostrados en la Figura 2.19.


En esta pista se consigue el máximo rendimiento a las 50.000 iteraciones, por lo que

32

Modelos

este será el checkpoint elegido para la comparación final. El rendimiento según la to-lerancia establecida se expone en la Figura 2.20. Este modelo obtiene un rendimiento


muy notable, superando con creces el tercio de aciertos con 3 segundos de tolerancia,llegando a más del 40 %; el 60 % con 5 segundos y llegando a 93 % con 10 segundosde tolerancia.

2.4.2.7. Pista 07R

Finalmente, para esta pista se entrenó también el modelo con los vuelos correspon-dientes, pero al tener un número tan reducido de vuelos registrados (382), es compli-cado que el modelo sea fiable. Se destinó el 70 % para el entrenamiento, el 10 % paravalidación y el 20 % restante para el testeo. Los resultados obtenidos por iteración seexponen en la Figura 2.21.

33



Este modelo consigue el máximo rendimiento a las 35.000 iteraciones. El rendimientosegún la tolerancia se muestra en la Figura 2.22.


En este modelo se obtienen resultados bastante distintos a otros. Con toleranciasbajas, el modelo funciona correctamente obteniendo un 44 % de aciertos con 3 se-gundos de tolerancia, por ejemplo. Este buen rendimiento se mantiene con 5 segun-dos, obteniendo 63 % de aciertos, pero disminuye acusadamente con 10 segundos,

34

Modelos

quedándose muy lejos del 90 % obtenido en otros modelos. Finalmente, con toleran-cias muy altas, el modelo obtiene buenos resultados de nuevo alcanzando el 97 % deaciertos con 12 segundos.

35

Capítulo 3

Resultados

3.1. Comparación de modelos

En esta sección, se expondrán los datos recopilados sobre cada una de las pistas y,en cada caso, si merece la pena o no utilizar el modelo general o el modelo específicode cada pista.

Los dos modelos a comparar en cada apartado, el modelo general y el de la pista enespecífico, serán puestos a prueba con su conjunto de datos de test, respectivamente,por lo que se estará midiendo el rendimiento de ambos modelos con datos que no hantratado durante el entrenamiento.

3.1.1. Pista 25R

Se ha medido el rendimiento del modelo específico de la pista 25R, comparándolo conel del modelo general, obteniendo los resultados expuestos en la Figura 3.1.

Figura 3.1: Porcentaje de aciertos según tolerancias, para modelo general y 25R.

37


Tabla 3.1: Error medio absoluto (MAE) en ambos modelos sobre su conjunto de datosde test correspondiente, medido en segundos.

Error Medio Absoluto (s)Modelo General Modelo 25R

5,17 5,03

Según estos resultados, el modelo entrenado específicamente para la pista 25R ob-tiene un mejor resultado que el modelo general, como era de esperar. Aún así, estadiferencia no es demasiado notable y en la Tabla 3.1 puede verse que los dos hanrendido de forma muy parecida, superando el modelo específico al general por solo0.14 segundos menos de error medio absoluto. Siguiendo la métrica preestablecidade la tolerancia con 7 segundos, el modelo específico supera por más de un 1 % almodelo general, por lo que este quedaría propuesto como modelo definitivo para lapredicción de aterrizajes en la pista 25R.

38

Resultados

3.1.2. Pista 07L

Se ha medido el rendimiento del modelo específico de la pista 07L, comparándolo conel del modelo general, obteniendo los resultados mostrados en la Figura 3.2.



Error Medio Absoluto (s)Modelo General Modelo 07L

5,04 5,01

En este caso, el modelo general fue superior hasta los 7 segundos de tolerancia,con 10 y con 12 rindió mejor el modelo específico. El error medio difiere por solo0.03 segundos, véase la Tabla 3.2, por lo que los modelos tuvieron un rendimientoprácticamente igual. Con esta pista, tiene más sentido utilizar el modelo general yaque las tolerancias en 7 segundos difieren en menos de 1 %, por lo que utilizar estemodelo aportará el mismo rendimiento y reducirá la complejidad al utilizar menosmodelos distintos.

39


3.1.3. Pista 02

Se ha medido el rendimiento del modelo específico de la pista 02, comparándolo conel del modelo general, obteniendo los resultados mostrados en la Figura 3.3.

Figura 3.3: Porcentaje de aciertos según tolerancias, para modelo general y 02.


Error Medio Absoluto (s)Modelo General Modelo 02

4,9 4,86

En este caso, con tolerancias bajas se obtienen resultados notablemente mejores enel modelo específico para la pista 02. Utilizando la métrica propuesta, el rendimientocon 7 segundos es muy parecido (78,34 y 78,29), y el error medio absoluto solo difierepor 0,04 segundos, véase la Tabla 3.3. Por todo ello, el modelo específico se descartóy para esta pista también se utilizaría el modelo general.

40

Resultados

3.1.4. Pista 25L

Se ha medido el rendimiento del modelo específico de la pista 25L, comparándolo conel del modelo general, obteniendo los resultados expuestos en la Figura 3.4.

Figura 3.4: Porcentaje de aciertos según tolerancias, para modelo general y 25L.


Error Medio Absoluto (s)Modelo General Modelo 25L

4,44 4,33

En la pista 25L, los resultados fueron bastante satisfactorios en el modelo específico.Hasta los 7 segundos de tolerancia, consigue un porcentaje de aciertos superior almodelo general, superando por más de 1 % al modelo general con 7 segundos detolerancia. Con 10 y 12 segundos el modelo general consigue resultados algo mejorespero no llega a haber una diferencia notable. El error medio absoluto se reduce 0.11segundos con el modelo específico para la pista, véase la Tabla 3.4. Con todo esto, yaunque el modelo general ha dado un buen resultado, parece que el modelo específicose comportará algo mejor en un caso real.

41


3.1.5. Pista 07R

Se ha medido el rendimiento del modelo específico de la pista 07R, comparándolo conel del modelo general, obteniendo los resultados mostrados en la Figura 3.5.



Error Medio Absoluto (s)Modelo General Modelo 07R

5,04 4,81

En esta pista los resultados obtenidos son meramente informativos, ya que al teneruna cantidad tan reducida de vuelos no se puede asegurar que el modelo específicovaya a funcionar bien, por lo que el modelo a utilizar será el general.

El modelo general obtiene un resultado notablemente mejor a partir de los 7 segun-dos, pero es bastante inestable debido a que hay pocos vuelos con los que probar elmodelo. El error medio absoluto es 0,23 segundos mayor en el modelo general, véasela Tabla 3.5.

42

Capítulo 4

Conclusiones y trabajo futuro

En esta sección se expondrán las conclusiones y los modelos que van a ser utili-zados finalmente. También se hará una reflexión sobre el trabajo futuro que puederealizarse para intentar mejorar los resultados obtenidos.

4.0.1. Selección final de modelos

Con los resultados expuestos en la sección anterior, los modelos que se van a utilizaren cada pista son los mostrados en la Tabla 4.1.

Tabla 4.1: Modelo que se utilizará para los aterrizajes en las diferentes pistas.Modelo elegido para cada pista

Pista 25R 07L 02 25L 07RModelo 25R Modelo General Modelo General Modelo 25L Modelo General

4.0.2. Conclusiones

En las iteraciones anteriores de este proyecto, se desarrollaron redes neuronales mu-cho más sencillas que las planteadas en esta tesis, sin probar distintas arquitecturasy con librerías de Java que no tenían la madurez que pueden tener Tensorflow o Ke-ras. En estas antiguas iteraciones, se entrenó un solo modelo general para todas laspistas que conseguía alrededor de un 70 % de aciertos con 7 segundos de tolerancia.En esta tesis, se han planteado métodos que consiguen entre 74 % y 79 % de aciertoscon 7 segundos de tolerancia dependiendo de la pista de aterrizaje, por lo que losresultados obtenidos son satisfactorios.

Es importante buscar partes que se puedan mejorar de la tesis planteada, debidoa que, aunque los resultados se han mejorado con respecto anteriores iteraciones,están lejos de poder ser implementados y ser fiables en un entorno real. Para serutilizado, habría que tener un porcentaje de aciertos cercanos al 100 % con pocossegundos de tolerancia. En estos modelos, se puede obtener un 95 % de aciertos, perocon 12 segundos de tolerancia de error. Teniendo en cuenta que el tiempo medio deROT es 45 segundos, 12 segundos de tolerancia implica que una predicción contaríacomo un acierto si está en el rango (33, 57) en un vuelo medio, lo que es un rangodemasiado amplio como para aportar información útil.

43

Para concluir, el rendimiento de los modelos ha sido satisfactorio, pero también sepueden extraer algunas conclusiones de la naturaleza de este problema: Los modelosgenerales y específicos han obtenido unos resultados muy parecidos, utilizando unared neuronal completamente distinta, lo que puede indicar que se está cerca delmáximo alcanzable utilizando las fuentes de datos seleccionadas.

4.0.3. Trabajo futuro

En esta tesis hay varios aspectos que tienen margen de mejora, que serán expuestosaquí intentando darles una posible solución en el futuro.

Como se comentaba anteriormente, los modelos general y específico han obtenido unresultado muy parecido, por lo que se podría estar cerca del límite alcanzable dadaslas entradas al modelo. Probablemente un estudio técnico en profundidad sobre esteproblema permita encontrar datos sobre los aterrizajes que permitan hacer mejoresaproximaciones del ROT, utilizándolos como entrada para los futuros modelos.

El software para la generación de redes también tiene bastante margen de mejora,debido a que tuvo poco tiempo para el desarrollo. El software ha tardado varios díasen ejecutarse en una tarjeta gráfica dedicada para el entrenamiento, por lo que si nose dispone de una, puede que se tardara varias semanas o meses en completar elentrenamiento de todas las redes, lo que hace que no podamos hacer búsquedas ex-haustivas de redes en equipos menos potentes. Aunque la tarea de entrenar redes escomputacionalmente muy cara, el software podría ser mucho más eficiente adoptan-do estrategias como overfit then regularize approach (sobreentrenamiento y despuésregularización). En este tipo de aproximaciones al problema de generar estructurasde redes neuronales, se entrena un modelo buscando entre diferentes arquitecturas,y cuando se ha sobreentrenado se aplican técnicas de regularización para solventareste sobreajuste. Este tipo de técnicas tendrían menor tiempo de cómputo obtenien-do unos resultados competentes. Finalmente, sería interesante añadir también lacapacidad de desarrollar redes con un learning rate adaptativo, que vaya cambiandoconforme avanza el entrenamiento.

44

Bibliografía

[1] Md Shohel Ahmed, S. Alam y M. Barlow, “A Multi-Layer Artificial Neural NetworkApproach for Runway Configuration Prediction” in International Conference ofResearch in Air Transportation, Barcelona, 2018.

[2] Y. Nakamura, R. Mori, H. Aoyama y H. Jung, “Modeling of runway assignmentstrategy by human controllers using machine learning”, in 2017 IEEE/AIAA 36thDigital Avionics Systems Conference (DASC), St. Petersburg, FL, 2017, pp. 1-7.

[3] L. Cornejo-Bueno et al., “Efficient Prediction of Low-Visibility Events at AirportsUsing Machine-Learning Regression” in Boundary-Layer Meteorol 165, pp 349—370, 2017.

[4] H. Lee et al., “Taxi Time Prediction at Charlotte Airport Using Fast-Time Si-mulation and Machine Learning Techniques” in 15th AIAA Aviation Technology,Integration, and Operations Conference, Texas, 2015.

[5] H. Lee et al., “Taxi-Out Time Prediction for Departures at Charlotte Airport UsingMachine Learning Techniques” in 16th AIAA Aviation Technology, Integration,and Operations Conference, Washington D.C., 2016.

[6] K.H. Cheng, “Machine learning algorithm to predict runway exits at Changi Air-port” published by Nanyang Technological University, 2020.

[7] Fl. Herrema et al., “A machine learning model to predict runway exit at Viennaairport” in Transportation Research Part E: Logistics and Transportation Review,2019, Volumen 131, pp 329–342.

[8] J.H. Friedman, “Greedy function approximation: A gradient boosting machine”in Annals of Statistics, 2001, Volumen 29, número 5, pp 1189–1232.

[9] Fl. Herrema et al., “A novel machine learning model to predict abnormal Run-way Occupancy Times and observe related precursors” in Journal of AerospaceInformation Systems, 2017, Volumen 15, pp 1–12.

[10] D. Martinez et al., “A Boosted Tree Framework for Runway Occupancy and ExitPrediction” in SESAR Innovation Days (SID) 2018.

[11] D.O. Hebb, Ed. Wiley, “The Organization of Behavior”, 1949, pp 63-70.

[12] Rosenblatt, F., “The Perceptron: A Probabilistic Model For Information StorageAnd Organization In The Brain” in Psychologycal Review, 1958, Volumen 65,Número 6.

45

BIBLIOGRAFÍA

[13] D. E. Rumelhart y G. E. Hinton y R. J. Williams, “Learning Internal Represen-tations by Error Propagation”, Parallel Distribution Proccesing: Exploration in theMicrostructure of Cognition, 1986 , Volumen 1, pp 318-362.

[14] M. Shanker et al., “Effect of data standardization on neural network training",Omega, 1996, Volumen 24, Número 4, pp 385-397.

[15] I. Goodfellow et al., “Deep Learning", MIT Press, 2016, pp 226.

[16] S. Hochreiter, “The Vanishing Gradient Problem during learning Recurrent Neu-ral Nets and Problem Solutions", International Journal of Uncertainty, Fuzzinessand Knowledge-Based Systems, Volumen 6, pp 107-116, 1991.

[17] I. Goodfellow et al., “Deep Learning”, MIT Press, 2016, pp 434.

[18] I. Goodfellow et al., “Deep Learning", MIT Press, 2016, pp 276.

[19] D. P. Kingma y J. Ba, “Adam: A Method for Stochastic Optimization” in 3rdInternational Conference for Learning Representations, San Diego, 2014.

[20] T. Dozat, “Incorporating Nesterov Momentum into Adam” in ICLR Workshop,2016.

[21] M. D. Zeiler, “Adadelta: An adaptative Learning Rate Method”, arXiv e-prints,2012. https://arxiv.org/abs/1212.5701

46

universidad politécnica de madridoa.upm.es/65141/1/tfm_antonio_millan_garcia.pdf · 2020. 10....

Documents