jhonathan david pazmiño arteaga

146
APROXIMACIÓN LIPIDÓMICA AL ESTUDIO DE LAS ALTERACIONES DE LA CALIDAD DEL CAFÉ VERDE DURANTE EL ALMACENAMIENTO Jhonathan David Pazmiño Arteaga Universidad de Antioquia Facultad de Ciencias Farmacéuticas y Alimentarias Medellín, Colombia 2019

Upload: others

Post on 19-Nov-2021

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Jhonathan David Pazmiño Arteaga

APROXIMACIÓN LIPIDÓMICA AL ESTUDIO DE

LAS ALTERACIONES DE LA CALIDAD DEL CAFÉ

VERDE DURANTE EL ALMACENAMIENTO

Jhonathan David Pazmiño Arteaga

Universidad de Antioquia

Facultad de Ciencias Farmacéuticas y Alimentarias

Medellín, Colombia

2019

Page 2: Jhonathan David Pazmiño Arteaga

Aproximación lipidómica al estudio de las alteraciones de la calidad del café verde durante

el almacenamiento

Jhonathan David Pazmiño Arteaga

Tesis presentada como requisito parcial para optar al título de:

Doctor en Ciencias Farmacéuticas y Alimentarias

Asesora:

Cecilia Gallardo Cabrera

Doctora en Ciencias químicas

Línea de Investigación:

Línea de alimentos

Grupo de Investigación:

Grupo de estabilidad de medicamentos, cosméticos y alimentos - GEMCA

Universidad de Antioquia

Facultad de Ciencias Farmacéuticas y Alimentarias

Medellín, Colombia

2019

Page 3: Jhonathan David Pazmiño Arteaga

Carmen, Hernando, Byron.

¡Un sueño cumplido!

Karen,

El fin de un camino, el inicio de una vida.

Page 4: Jhonathan David Pazmiño Arteaga

AGRADECIMIENTOS

La realización de este trabajo de investigación fue posible gracias al apoyo económico de

COLCIENCIAS y su programa de Becas de Doctorado 2015.

Mucha de la investigación realizada y plasmada en este trabajo se enriqueció al dialogar con

personas involucradas directamente en la cadena productiva del café. Agradezco de forma

sincera a todos aquellos que aportaron su experiencia, conocimiento y tiempo siempre al

amparo de un muy buen café; a todos ellos espero que sus pensamientos y aportes puedan

verse reflejados en este documento y deseo que cada día se haga más investigación estricta y

formal en este campo aún desconocido. ¡Gracias a todos!

Andrés Ruiz Karen García

Andrés León Leonardo Jaramillo

Ángel Rojas Liceth Meneses

Byron Pazmiño Luisa Londoño

Camilo Cuervo Manuel Pastrana

Carmen Arteaga Marcela Martínez

Cristina Elizarraraz Marcela Acosta

Daniel Velásquez Natalia Hernández

David Molina Nicolas Rodríguez

Dayana Muñoz Nora Pedraza

Diego Gómez Orlando Camargo

Elkin Henao Robert Winkler

Esteban Martínez Sandra Restrepo

Felipe Castañeda Sara Franco

Felipe Otálvaro Seneida Lopera

Hafid Vélez Tzitziki González

Hernando Pazmiño Yina Hernández

Jeniffer Londoño Yonadis Luna

Page 5: Jhonathan David Pazmiño Arteaga

CONTENIDO

1. INTRODUCCIÓN .......................................................................................................... 1

1.1 Planteamiento del problema ..................................................................................... 2

1.2 Objetivo general ....................................................................................................... 4

1.3 Objetivos específicos ............................................................................................... 4

2. MARCO TEÓRICO ....................................................................................................... 6

2.1 El café y su cadena productiva................................................................................. 6

2.2 La calidad del café y los cambios durante el almacenamiento ................................ 9

2.3 Los lípidos y su relevancia en el estudio de la calidad del café verde ................... 15

2.4 Metabolómica ........................................................................................................ 18

2.4.1 Lipidómica ...................................................................................................... 24

2.5 Herramientas modernas para el análisis de los datos: Aprendizaje automático

(machine learning) ............................................................................................................ 25

2.5.1 Algoritmo de Random Forest (bosques aleatorios) ........................................ 27

3. METODOLOGÍA ......................................................................................................... 30

3.1 Evaluación del impacto de los factores del almacenamiento en el café verde ...... 30

3.1.1 Almacenamiento bajo condiciones de estabilidad forzada y de estabilidad

natural ........................................................................................................................ 32

3.1.2 Evaluación de cambios físicos y sensoriales de las muestras ......................... 34

3.2 Acondicionamiento de las muestras para análisis instrumental ............................. 35

3.2.1 Fraccionamiento del aceite por cromatografía preparativa ............................ 36

3.3 Análisis espectroscópico por resonancia magnética nuclear ................................. 36

3.3.1 Confirmación del método de extracción mediante 1H RMN .......................... 37

3.3.2 Análisis lipidómico de muestras de café por resonancia magnética nuclear de

protones 1H RMN ......................................................................................................... 37

Page 6: Jhonathan David Pazmiño Arteaga

3.3.3 Procesamiento de los espectros 1H RMN ....................................................... 40

3.3.4 Análisis de los datos sensoriales e instrumentales y construcción de los

modelos de clasificación para café verde reposado y no reposado .............................. 43

3.4 Evaluación metabolómica del defecto de reposo en café verde por MALDI-ToF

(matrix-assisted laser desorption/ionization – time-of-flight) .......................................... 44

3.4.1 Análisis MALDI-ToF MS .............................................................................. 44

3.4.2 Procesamiento de los datos espectrométricos ................................................. 45

3.4.3 Análisis y modelo de clasificación para el café verde reposado/no reposado 46

4. RESULTADOS Y DISCUSIÓN .................................................................................. 48

4.1 Evaluación del impacto de los factores del almacenamiento en el café verde ..... 48

4.2 Acondicionamiento de las muestras para análisis instrumental ............................. 52

4.2.1 Fraccionamiento del aceite por cromatografía preparativa ............................ 54

4.3 Análisis espectroscópico por resonancia magnética nuclear ................................. 54

4.3.1 Confirmación del método de extracción mediante 1H RMN .......................... 58

4.3.2 Análisis lipidómico de muestras de café por resonancia magnética nuclear de

protones 1H RMN ......................................................................................................... 59

4.3.3 Procesamiento de los espectros 1H RMN ....................................................... 62

4.3.4 Descripción de los cambios de la calidad del café verde en función de los datos

sensoriales ..................................................................................................................... 68

4.3.5 Evaluación de los cambios de la calidad del café verde en función de los datos

espectroscópicos ........................................................................................................... 71

4.3.6 Búsqueda de las variables independientes (bins) más relevantes en la

clasificación .................................................................................................................. 78

4.3.7 Cuantificación analítica del nivel de reposo ................................................... 85

4.3.8 Validación de los modelos construidos usando las muestras externas ........... 87

4.3.9 Reconocimiento por 1H RMN de los bins aislados ........................................ 89

Page 7: Jhonathan David Pazmiño Arteaga

4.4 Evaluación metabolómica del defecto de reposo en café verde por MALDI-ToF

(matrix-assisted laser desorption/ionization – time-of-flight) .......................................... 93

4.4.1 Características muestras de café verde utilizadas en el estudio...................... 94

4.4.2 Análisis MALDI-ToF MS .............................................................................. 95

4.4.3 Procesamiento, análisis y construcción del modelo de clasificación para el café

verde reposado/no reposado ......................................................................................... 98

5. CONCLUSIONES Y RECOMENDACIONES ......................................................... 109

6. BIBLIOGRAFÍA ........................................................................................................ 112

Page 8: Jhonathan David Pazmiño Arteaga

LISTA DE TABLAS

Tabla 1. Estudios de almacenamiento en café verde ............................................................ 11

Tabla 2. Estructura de la matriz de confusión ...................................................................... 29

Tabla 3. Condiciones de almacenamiento para los tratamientos de estabilidad forzada ...... 33

Tabla 4. Formas de asistencia en el método de extracción del aceite de café verde ............ 35

Tabla 5. Zonas del espectro de 1H RMN alineadas manualmente........................................ 42

Tabla 6. Métodos de binning aplicados a los datos espectroscópicos .................................. 42

Tabla 7. Parámetros de proceso evaluados en los datos espectrométricos ........................... 46

Tabla 8. Caracterización física del café verde fresco y del café verde sometido a diferentes

ciclos y condiciones de almacenamiento .............................................................................. 49

Tabla 9. Rendimiento en la extracción del aceite de café verde........................................... 53

Tabla 10. Características del café verde usado en el estudio lipidómico por 1H RMN........ 59

Tabla 11. Estructura de las tablas de datos denominadas matrices de características .......... 67

Tabla 12. Identificadores de los bins generados ................................................................... 68

Tabla 13. Propiedades de las matrices de características .................................................... 72

Tabla 14. Hiperparámetros y error de los modelos construidos ........................................... 73

Tabla 15. Descripción de las matrices de características y los nuevos modelos construidos

.............................................................................................................................................. 77

Tabla 16. Bins más importantes en la clasificación según cada modelo construido ............ 78

Tabla 17. Matriz de confusión del modelo de árbol de decisión .......................................... 82

Tabla 18. Matriz de confusión para el modelo de clasificación según el nivel de intensidad

del reposo .............................................................................................................................. 86

Tabla 19. Parámetros de desempeño de los modelos construidos ........................................ 88

Tabla 20. Área promedio de los bins más importantes en la clasificación. .......................... 90

Tabla 21. Abundancia relativa del bin centrado en 7,547 ppm, en muestras de café verde

reposado y no reposado ........................................................................................................ 91

Tabla 22. Abundancia relativa del bins B2, B3, B4 en muestras de café verde reposado y no

reposado ................................................................................................................................ 92

Tabla 23. Características del café usado en el estudio lipidómico por espectrometría de masas

.............................................................................................................................................. 95

Page 9: Jhonathan David Pazmiño Arteaga

Tabla 24. Modelo de matriz de características para los datos espectrométricos MALDI ToF

............................................................................................................................................ 102

Tabla 25. Parámetros de procesamiento de los datos MALDI-ToF MS después de

optimización ....................................................................................................................... 104

Tabla 26. Estadísticas de desempeño de los modelos de Random Forest .......................... 105

Page 10: Jhonathan David Pazmiño Arteaga

LISTA DE FIGURAS

Figura 1. Anatomía del fruto de café ...................................................................................... 6

Figura 2. Etapas de la cadena productiva y almacenamiento del café ................................... 8

Figura 3. Precursores sensoriales en el café verde ................................................................. 9

Figura 4. Finca cafetera "La Lupita", Barbosa-Antioquia .................................................... 30

Figura 5. Método de beneficio húmedo: café lavado ........................................................... 32

Figura 6. Método de beneficio semihúmedo: café honey rojo ............................................. 32

Figura 7. Curva de tueste del café para el análisis sensorial ................................................ 34

Figura 8. Muestras de café verde acondicionadas para el almacenamiento natural ............. 38

Figura 9. Espacio dispuesto para el almacenamiento de las muestras de café verde ........... 39

Figura 10. Muestras del café verde bajo estudio. ................................................................. 48

Figura 11. Análisis sensorial de las muestras sometidas a estabilidad. ................................ 51

Figura 12. Aceite de café verde ............................................................................................ 53

Figura 13. Cromatografía de capa fina fracciones aceite de café verde reposado ................ 54

Figura 14. Perfil lipidómico 1H RMN del aceite de café verde ............................................ 55

Figura 15. Perfil lipidómico 1H RMN del aceite de café verde - Zona campo bajo............. 55

Figura 16. Perfil lipidómico 1H RMN del aceite de café verde - Zona campo medio ......... 56

Figura 17. Perfil lipidómico H RMN del aceite de café verde - Zona campo alto ............... 57

Figura 18. Espectros 1H RMN fracciones cromatográficas .................................................. 58

Figura 19. Espectros de 1H RMN del aceite de café verde extraído por varios métodos ..... 59

Figura 20. Descriptores sensoriales usados en la perfilación de las muestras de café ......... 60

Figura 21. Condiciones ambientales registradas en el almacenamiento natural .................. 61

Figura 22. Espectros crudos 1H de todas las muestras de aceite de café verde .................... 63

Figura 23. Procesamiento de las señales espectroscópicas de 1H RMN .............................. 66

Figura 24. Frecuencia de observación del reposo en el almacenamiento natural ................. 69

Figura 25. Distribución del nivel de intensidad del reposo en cada tiempo de muestreo .... 70

Figura 26. Comportamiento individual de las muestras de café durante el almacenamiento

.............................................................................................................................................. 71

Figura 27. Variación del error OOB frente al cambio de hiperparámetros .......................... 73

Figura 28. Representación de la estrategia de votación del Random Forest ........................ 74

Page 11: Jhonathan David Pazmiño Arteaga

Figura 29. Votación asignada por el modelo de clasificación para una parte de las muestras

usadas ................................................................................................................................... 76

Figura 30. Representación de los bins más importantes en el espectro de 1H RMN ........... 79

Figura 31. Valores del área observados en los diez bins más importantes para las muestras de

café verde analizadas ............................................................................................................ 80

Figura 32. Árbol de decisión para la clasificación de muestras de café verde según los datos

1H RMN ................................................................................................................................ 83

Figura 33. Área promedio de los cuatro bins más importantes en la clasificación vs el tiempo

de almacenamiento natural. .................................................................................................. 84

Figura 34. Área de los cuatro bins más importantes vs tiempo de almacenamiento natural

para las muestras de café verde independientes ................................................................... 85

Figura 35. Área de los cuatro bins más importantes para discriminar entre los niveles de

intensidad del reposo ............................................................................................................ 87

Figura 36. Votación media asignada por los cuatro modelos de clasificación para las muestras

de validación ......................................................................................................................... 89

Figura 37 Espectro 1H RMN en las zonas de los cuatro bins más importantes en la

clasificación entre reposo y no reposo. Muestras de café verde fresco (café sin reposo), ciclos

humedad (café reposado) y ambiental 10 meses (café reposado). ....................................... 93

Figura 38. Tipos de co-cristalización obtenida en los diferentes ensayos ............................ 96

Figura 39. Espectro MALDI-ToF MS de cinco tipos de aceite vegetal. De arriba hacia abajo:

canola, cacao, palma, café verde, linaza. .............................................................................. 97

Figura 40. Contraste entre el espectro MALDI-ToF MS del aceite de café verde reposado y

no reposado ........................................................................................................................... 98

Figura 41. Transformación de los datos espectrométricos de intensidad ............................. 99

Figura 42. Cambio en el espectro MALDI-ToF MS en función del parámetro de suavizado

............................................................................................................................................ 100

Figura 43. Pasos en el procesamiento de los espectros MALDI ToF MS .......................... 101

Figura 44. Análisis de componentes principales para los datos espectrométricos MALDI-

ToF ..................................................................................................................................... 103

Figura 45. Clasificación según el día de análisis instrumental ........................................... 106

Page 12: Jhonathan David Pazmiño Arteaga

Figura 46. Resultados del modelo de clasificación con los datos completos MALDI ToF MS

............................................................................................................................................ 107

Figura 47. Mapa de calor para las 20 señales más importantes en la clasificación según el

Gini ..................................................................................................................................... 108

Page 13: Jhonathan David Pazmiño Arteaga

GLOSARIO

Aprendizaje automático: Conjunto de técnicas y algoritmos para el estudio del

comportamiento de los datos

Bin: Cada una de las divisiones de un espectro de señales instrumentales

Binning: Proceso de definición de los rangos para generar los bins

Café honey: Café obtenido por proceso de beneficio semihúmedo

Café lavado: Café obtenido por proceso de beneficio húmedo

Café reposado: Café que presenta en taza características sensoriales relacionadas

con la pérdida de calidad por envejecimiento

Café verde: Café excelso, granos de café procesados listos para ser tostados

Flavor Combinación de todas las sensaciones percibidas en las cavidades

bucal y nasal

Lipidómica: Ciencia ómica que estudia conjuntamente los metabolitos de tipo

lipídico de un sistema biológico

MALDI-ToF MS Técnica instrumental de espectrometría de masas

Matriz de confusión: Herramienta descriptiva para evaluar el desempeño de un modelo

de clasificación

Metabolómica: Ciencia ómica que estudia conjuntamente los metabolitos de un

sistema biológico

Random Forest: Algoritmo de aprendizaje automático supervisado

RMN Técnica instrumental de espectroscopía por resonancia magnética

nuclear

Page 14: Jhonathan David Pazmiño Arteaga

RESUMEN

En el almacenamiento del café verde se reconoce que el producto sufre alteraciones

sensoriales que se manifiestan por la aparición en taza de descriptores negativos como paja,

madera y papel y que generan el denominado “café reposado”. El análisis sensorial del café

verde es subjetivo debido a que depende de las capacidades, habilidades y sesgos del juez

catador. Dado que la expresión sensorial en taza depende de la composición química del

grano verde, la diminución de la calidad durante el almacenamiento indica que su

composición química cambia durante este periodo; sin embargo, no es fácil establecer cuáles

compuestos cambian. Se hace relevante obtener información basada en herramientas

instrumentales que generen resultados estandarizados y reproducibles que soporten los

enfoques sensoriales. Los lípidos del café verde destacan especialmente cuando se pretende

estudiar su calidad y los cambios durante el almacenamiento. Esta apreciación se cimenta en

la importancia de los aspectos químicos debido a su labilidad, biológicos en relación con su

intervención en rutas metabólicas y sensoriales por su papel como precursores.

En esta tesis se planteó usar la espectroscopía por resonancia magnética nuclear y la

espectrometría de masas para generar el perfil lipidómico del café verde sometido a diferentes

condiciones de almacenamiento con las cuales se generaron muestras diferenciadas de café

reposado y no reposado. Sobre los datos de los perfiles lipidómicos se aplicaron técnicas de

análisis de datos usando algoritmos de aprendizaje automático para discriminar entre las dos

características de interés.

Los modelos construidos usando algoritmos de Random Forest y alimentados con los datos

instrumentales permitieron discriminar con un muy buen nivel de exactitud las muestras de

café verde reposadas de las no reposadas.

Palabras clave: Café verde, reposo, 1H RMN, MALDI-ToF MS, Random Forest.

Page 15: Jhonathan David Pazmiño Arteaga

ABSTRACT

In the storage of green coffee it is recognized that the product undergoes sensory alterations

that are manifested by the appearance in the cup of negative descriptors such as straw, wood

and paper and that generate the so-called “rested coffee”. The sensory analysis of green

coffee is subjective because it depends on the skills, abilities, and biases of the tasting judge.

Since sensory expression in the cup depends on the chemical composition of the green grain,

the decrease in quality during storage indicates that its chemical composition changes during

this period; however, it is not easy to establish which compounds change. It is relevant to

obtain information based on instrumental tools that generate standardized and reproducible

results that support sensory approaches. Green coffee lipids stand out especially when it is

intended to study their quality and changes during storage. This assessment is based on the

importance of chemical aspects due to its lability, biological in relation to its intervention in

metabolic and sensory pathways because of its role as precursors.

In this thesis, it was proposed to use nuclear magnetic resonance spectroscopy and mass

spectrometry to generate the lipidomic profile of green coffee subjected to different storage

conditions with which differentiated samples of coffee reposed and not rested were

generated. Data analysis techniques were applied to the data of lipidomic profiles using

machine learning algorithms to discriminate between the two characteristics of interest.

The models constructed using Random Forest algorithms and fed with the instrumental data

allowed to discriminate with a very good level of accuracy the samples of rested green coffee

from those not repossessed

Keywords: Green coffee beans, rested, 1H NMR, MALDI-ToF MS, Random Forest.

Page 16: Jhonathan David Pazmiño Arteaga

PRODUCTOS DERIVADOS

De la realización de este trabajo de investigación se desprenden los siguientes productos:

• Producción bibliográfica - Artículo - Publicado en revista especializada: Pazmiño-

Arteaga, J.D., Chagolla, A., Gallardo-Cabrera, C. et al. Screening for Green Coffee with

Sensorial Defects Due to Aging During Storage by MALDI-ToF Mass Fingerprinting.

Food Anal. Methods 12, 1571–1576 (2019) doi:10.1007/s12161-019-01485-9.

• Producción bibliográfica - Artículo - Publicado en revista especializada: Jhonathan David

Pazmiño-Arteaga, Cecilia Gallardo Cabrera, Andrés Felipe Ruiz Márquez, Yina Marcela

Hernández Arcia, Yonadys Luna Pérez. Estudio de estabilidad acelerado en café verde

una aproximación sensorial. Revista Lasallista de Investigación, Vol. 16, Núm. 1 (2019).

https://doi.org/10.22507/rli.v16n1a13

• Evento internacional - Ponencia oral: Luna, Y. Hernández, Y. Gallardo, C. Ruiz, A.

Pazmiño, J. Una aproximación sensorial a la estabilidad acelerada y natural del café

verde. XIV Conferencia internacional sobre ciencia y tecnología de los alimentos. 2018.

La Habana, Cuba.

• Evento internacional – Ponencia tipo póster: Luna, Y. Hernández, Y. Gallardo, C. Ruiz,

A. Pazmiño, J. Estudio de estabilidad acelerado en café verde: Una aproximación

sensorial. IV Congreso internacional de investigación e innovación en ingeniería, ciencia

y tecnología de alimentos - IICTA 2018. Cali, Colombia.

Page 17: Jhonathan David Pazmiño Arteaga

1

1. INTRODUCCIÓN

El café es un producto ampliamente consumido en el mundo, es una industria que representa

más de 235 billones de dólares y es la base económica de muchos países tropicales (Morland,

2018). El mercado de este producto está en constante evolución, la calidad se ha posicionado

como un factor diferenciador por el cual los consumidores están dispuestos a pagar un mayor

precio y por tanto productores y comercializadores buscan generar estrategias para

desarrollar mejores atributos sensoriales en sus productos; los cafés de alta calidad sensorial,

denominados cafés especiales, constituyen un sector de amplio crecimiento con datos que

registran un incremento entre 2000 y 2014 de más de 17.5 billones de dólares (Hernández-

Aguilera et al., 2018).

El desarrollo de las características que definen la calidad sensorial de una taza de café,

derivadas de la composición química del grano verde obedece a diferentes aspectos

enmarcados en dos categorías particulares, el primero los factores biológicos y geográficos,

en donde se contempla la genética de la planta, el suelo de cultivo y las condiciones climáticas

de la zona (Kwon et al., 2015); el segundo, los factores tecnológicos y culturales expresados

como los procesos productivos de transformación (Cheng et al., 2016; Livramento et al.,

2017). Todos los procesos constituyen la cadena productiva del café que contempla una gran

cantidad de etapas y de variables tanto controlables como no controlables y que

potencialmente afectan la calidad final del producto; este proceso multietapas abarca la

cosecha, poscosecha, tueste y preparación de la bebida/extracción. De las fases en la cadena,

la cosecha y la poscosecha se realizan en los países productores y el tueste y preparación en

los países consumidores a donde el café es exportado.

Una actividad transversal a buena parte de la cadena productiva del café es el

almacenamiento. Este proceso se da en diversas condiciones en las que se puede encontrar el

producto, café pergamino, café verde, café tostado y café molido (Scheidig et al., 2007); su

relevancia a la hora de considerar el mantenimiento de la calidad del producto es reconocido,

sin embargo, los efectos del almacenamiento en las etapas tempranas de la cadena, cuando

Page 18: Jhonathan David Pazmiño Arteaga

2

se considera al café como una materia prima, están pobremente investigados (Broissin-

Vargas et al., 2018).

En los últimos años en el mercado del café especial se ha evidenciado que la calidad del café

verde se ve alterada de manera negativa durante los procesos de exportación; los

comercializadores y catadores usan los términos “cosecha vieja” y “cosecha actual” ("current

crop" y "past crop") para referirse al efecto del almacenamiento sobre el producto (Borém et

al., 2013). El “reposo” es el descriptor sensorial más usado para indicar que el café presenta

un defecto de calidad sensorial ligado al almacenamiento en el cual los catadores indican la

presencia de los descriptores negativos paja, madera y papel los cuales indican que el café

esta “viejo” y adquiere la denominación de “café reposado” (Borém et al., 2013; Rendón et

al., 2014).

La calidad de la taza disminuye cuando el café verde se almacena, este hecho indica que su

composición química cambia durante este periodo; sin embargo, dado que la calidad del café

verde no es un concepto absoluto y ésta no es medida de forma directa, no es fácil establecer

qué tipo de compuestos cambian durante el almacenamiento.

1.1 Planteamiento del problema

La evaluación de la calidad del café verde se realiza según protocolos que se enmarcan en

reconocer y describir las características físicas, donde se hace referencia a presencia, tipo y

número defectos (Casas et al., 2017; Kwon et al., 2015) y las características sensoriales

(Sunarharum et al., 2014); este enfoque hace que la determinación de la calidad sea poco

confiable pues la ausencia de defectos físicos no es garante de una elevada calidad sensorial.

Por otra parte, algunos autores indican que el análisis sensorial del café verde es subjetivo

debido a que la precisión depende de las capacidades y habilidades del catador; la asignación

de una etiqueta que condiciona el valor y el precio del producto está influenciada por el

conocimiento del producto, las habilidades de tueste y la experiencia y memoria sensorial del

juez catador (Feria-Morales, 2002; Ribeiro et al., 2011; Selmar et al., 2006; Tolessa et al.,

2016).

Page 19: Jhonathan David Pazmiño Arteaga

3

Por este motivo y dadas las dinámicas del mercado, el crecimiento del sector y la existencia

de recursos, en la actualidad se hace relevante obtener información basada en herramientas

químicas e instrumentales que permitan generar resultados estandarizados y sin sesgos que

soporten los enfoques sensoriales. El reconocimiento de la naturaleza biológica del café verde

así como la consideración de los procesos fisiológicos han dado paso a nuevas direcciones

para realizar el estudio de la calidad del producto (Bytof et al., 2007; Bytof & Peter, 2005).

Comprender los fenómenos, rutas y mecanismos que pueden llevarse a cabo durante el

almacenamiento requiere tomar un punto de vista que contemple la relegada naturaleza

biológica del café verde.

La amplia diversidad del café verde que contempla factores como la especie y variedad

vegetal, el área geográfica de origen y los procesos de poscosecha aplicados, sumado a los

diferentes elementos a los que se ve expuesto durante la cadena productiva plantean la

necesidad de realizar una exploración detallada, bajo la cual se analice la relevancia de los

factores del almacenamiento sobre entidades químicas con el potencial de ser las

responsables de tales alteraciones. Los lípidos del café verde destacan especialmente cuando

se pretende estudiar su calidad y los cambios durante el almacenamiento.

La fracción lipídica en el café verde representa aproximadamente el 15% (Speer & Kölling-

Speer, 2006) y enmarca diferentes compuestos de relevancia biológica para la semilla que

tienen también un significativo impacto sobre la calidad sensorial de la bebida, encontrando

afirmaciones como la de Flament (2002) quien indicó que la composición de los lípidos es el

factor más importante que afecta a la formación del flavor durante el tueste. Además, debido

a su conocido problema de inestabilidad química (Angelo, 1992) los hace un grupo candidato

para considerarlos como un factor determinante en la modulación de la calidad del café verde

durante el almacenamiento. Se requieren estudios que relacionen cambios en los lípidos con

el defecto sensorial del envejecimiento por el almacenamiento del café verde (Dussert et al.,

2006; Selmar et al., 2008).

El estudio con enfoque amplio y general de los compuestos químicos de matrices complejas

se ha encuadrado en una de las ciencias denominadas “ómicas”, particularmente la

Page 20: Jhonathan David Pazmiño Arteaga

4

metabolómica y que de manera más específica permite puntualizar en los lípidos y denominar

su estudio como lipidómica. De esta forma, el estudio de los lípidos en organismos biológicos

usando técnicas instrumentales como espectrometría de masas y espectroscopía de

resonancia magnética nuclear constituyen una alternativa sólida para el estudio de los

fenómenos que ocurren en el café verde.

En esta tesis se plantea la hipótesis de que las alteraciones químicas de los lípidos del café

verde tienen una estrecha relación con la manifestación sensorial del defecto originado por

el almacenamiento denominado reposo y que tales modificaciones pueden ser identificadas

y monitoreadas haciendo uso de métodos espectroscópicos y espectrométricos combinados

con el análisis de datos aplicando algoritmos de aprendizaje automático.

1.2 Objetivo general

El objetivo principal de este trabajo fue evaluar la viabilidad del uso conjunto de técnicas

instrumentales y de aprendizaje automático para discriminar químicamente los cambios

composicionales en la fracción lipídica que sufre el café verde durante su almacenamiento

con relación a la perdida de la calidad sensorial expresada en la bebida.

1.3 Objetivos específicos

Determinar la influencia de las principales variables de almacenamiento sobre la

manifestación del defecto sensorial de reposo.

Diseñar protocolos para obtener extractos de café verde y analizarlos por técnicas

instrumentales de resonancia magnética nuclear y espectrometría de masas.

Aplicar técnicas de análisis multivariado y machine learning para analizar la información

generada por las técnicas instrumentales de muestras de café con y sin defecto de

envejecimiento.

Page 21: Jhonathan David Pazmiño Arteaga

5

Monitorear y describir los cambios químicos en los lípidos del café verde almacenado en

condiciones naturales y su asociación con la calidad sensorial de la taza en el producto final.

Page 22: Jhonathan David Pazmiño Arteaga

6

2. MARCO TEÓRICO

2.1 El café y su cadena productiva

La fruta del café es botánicamente una drupa, el endospermo comprende dos semillas que

están cubiertas por una delgada capa de tejido que consiste en la epidermis del grano, llamada

capa plateada. Los frutos, comúnmente conocidos como “cerezas” están constituidos por tres

capas continuas (Figura 1): exocarpio, que es la capa exterior, denominada piel o cáscara;

mesocarpio, también conocido como mucílago, es la pulpa del fruto y tiene un alto contenido

de azúcares y de agua, y endocarpio, llamado comúnmente pergamino es la capa fibrosa que

rodea cada una de las semillas (Patui et al., 2014). Durante el proceso de poscosecha o

beneficio se eliminan todas las capas para obtener la semilla desnuda, comúnmente conocida

como grano de café, café verde o almendra de café.

Figura 1. Anatomía del fruto de café

(Fuente: Artista plástico Byron Pazmiño)

Page 23: Jhonathan David Pazmiño Arteaga

7

Existen tres métodos de poscosecha que originan a la vez tres tipos de cafés con perfiles

sensoriales bien diferenciados (Lee et al., 2015):

a) método de beneficio con proceso húmedo, origina un café comercialmente

denominado como café lavado. Para generar este café el exocarpio y parte del

mesocarpio se eliminan mecánicamente mediante un proceso conocido como

despulpado, el mesocarpio residual que por sus características físicas se queda

adherido al grano de café se elimina completamente mediante un proceso de

fermentación, para ello, el café es almacenado entre 6-12 horas en un tanque con

agua lo que permite que los microrganismos presentes en la mezcla degraden las

cadenas de polisacáridos del mucílago y posteriormente sea posible retirarlo

completamente mediante un proceso de lavado con agua; una vez que se dispone

de la semilla limpia, ésta se seca para disminuir el contenido de agua desde

aproximadamente 50% hasta 10% - 12% (Kramer et al., 2010).

b) método de beneficio con proceso semihúmedo, da lugar al café etiquetado como

café honey. Como en el beneficio húmedo, el café se despulpa y se fermenta

manteniendo control del tiempo y del nivel de agua utilizado en el proceso, mucho

menor que en el caso del beneficio en húmedo, en este caso el café no se lava y

se permite que se seque teniendo adherido a su exterior el mucilago residual

(Knopp et al., 2006; Sunarharum et al., 2014).

c) método de beneficio con proceso seco, el tipo de café obtenido se conoce como

café natural. Es el método de beneficio más simple, aquí la fruta entera se

fermenta almacenándola con diferentes niveles de agua y se seca sin remover

ninguna de sus capas (Bytof et al., 2007; Dias et al., 2012).

La poscosecha termina cuando se obtiene el café seco y en las condiciones para su

comercialización. Desde este punto, el café se somete varias veces a etapas de

almacenamiento en las cuales puede potencialmente sufrir procesos que alteren su calidad

(Figura 2).

Page 24: Jhonathan David Pazmiño Arteaga

8

Al finalizar la etapa de secado, para cualquiera de los métodos de beneficio, se da lugar al

primer periodo de almacenamiento que transcurre directamente en la finca del productor,

aquí el café se almacena en bolsas de fique o de polietileno y se sitúa en lugares mínimamente

acondicionados para controlar la temperatura, la humedad y la luz. La duración del

almacenamiento en la finca depende del precio del café pues el agricultor espera encontrar el

mejor momento para venderlo y en ocasiones esto puede tardar varios meses. El segundo

periodo de almacenamiento se da después de la trilla, aquí ya se dispone del café verde y es

un punto del almacenamiento en donde el grano ha perdido todas sus capas de protección y

por tanto es altamente vulnerable a los factores ambientales. Los granos de café se

seleccionan y clasifican de acuerdo con su tamaño y su apariencia física y son empacados en

bultos o sacos de fique por periodos de dos a cinco días. Luego, en la exportación, los sacos

son dispuestos en contenedores de metal y enviados vía marítima. La duración del transporte

depende del destino y de las condiciones del mar, pero en promedio el café verde puede

permanecer en altamar por entre 20 a 45 días (Borém et al., 2013; Ribeiro et al., 2011). Una

vez el café llega al puerto de descarga el exportador entrega el producto al comprador

internacional, un agente de la cadena productiva que aún debe almacenar el producto en

espera de la demanda necesaria para realizar el proceso de tueste, tiempo que oscila entre

unos pocos días hasta 10 o 12 meses; el almacenamiento en este punto suele darse en las

mejores condiciones manteniendo bajo control la temperatura y la humedad relativa de los

almacenes (Scheidig et al., 2007; Selmar et al., 2008).

Figura 2. Etapas de la cadena productiva y almacenamiento del café

Page 25: Jhonathan David Pazmiño Arteaga

9

2.2 La calidad del café y los cambios durante el almacenamiento

La calidad sensorial de una taza de café es la expresión de más de 1000 compuestos presentes

en el café tostado (Mestdagh et al., 2014) y estos compuestos se forman a partir de los

precursores presentes en el café verde. Durante el tueste el grano de café verde se somete a

temperaturas de hasta 220 °C donde los precursores sufren un amplio espectro de reacciones

químicas como la reacción de Maillard y de Strecker, caramelización, oxidación, hidrólisis y

degradación térmica de proteínas, aminoácidos, trigonelina, ácido quínico, lípidos,

polisacáridos y ácidos clorogénicos y dan lugar a compuestos que generan aroma, color,

textura y sabor (Figura 3) (Buffo & Cardelli-Freire, 2004).

Figura 3. Precursores sensoriales en el café verde

Es importante enfatizar que las reacciones que ocurren durante el tueste no han sido

totalmente elucidadas y por tanto aún no existe una forma de relacionar completamente a los

precursores del café verde con la calidad sensorial de la taza (Buffo & Cardelli-Freire, 2004;

Iwasa et al., 2015). El hecho de que la calidad de la taza disminuya cuando el café verde es

almacenado indica que su composición química cambia durante este periodo; sin embargo,

Page 26: Jhonathan David Pazmiño Arteaga

10

dado que la calidad del café verde no es medida de forma directa, no es fácil establecer qué

tipo de compuestos cambian durante el almacenamiento.

Un estudio detallado de las afectaciones del café verde requiere contextualizar a qué se refiere

la calidad del producto en este estado. La calidad del café verde no es un concepto absoluto,

pues se encuentra definida en función de características de los granos que determinan el grado

de aceptabilidad que le da el consumidor al producto después del tueste; tales rasgos se

evalúan en dos momentos. Primero, los granos de café son valorados de acuerdo a su

apariencia física: color, forma, integridad y presencia de material extraño; esto permite

discriminar entre granos con y sin defectos físicos (Casas et al., 2017; Kwon et al., 2015).

Segundo, el café verde se tuesta, se muele y se extrae con agua caliente para preparar la

bebida y continuar con la evaluación de los atributos sensoriales a cargo de un panel sensorial

de catadores entrenados (Specialty Coffee Association, 2019). Mori et al., 2003 (en

Sunarharum et al., 2014) estableció que: “el flavor de un café de buena calidad se describe

como una sensación placentera, una combinación balanceada de sabor, cuerpo y aroma en

ausencia de defectos”.

Las dos evaluaciones antes mencionadas no tienen una relación bicondicional, es decir que

granos de café con un número significativo de defectos físicos dan una mala calidad en taza,

sin embargo, una muestra que no tenga granos defectuosos no garantiza una calidad en taza

superior (Iwasa et al., 2015; Tolessa et al., 2016). Se conoce que los granos inmaduros

favorecen la aparición de notas a fermento; los granos que han sido atacados por Broca

manifiestan un sabor amargo y un aroma nauseabundo; los granos que no tuvieron un buen

proceso de lavado o secado generan sabor agrio y aroma a vinagre; los granos decolorados o

blanquecinos usualmente dan aromas y sabores amargos, baja acidez y cuerpo pesado

(Mazzafera, 1999).

Se puede observar que la calidad del café verde no se establece directamente, sino que se

define de manera indirecta mediante la evaluación de los atributos sensoriales de la taza de

café. Lo anterior se convierte en un problema subjetivo y multifactorial, la asignación de una

etiqueta que condiciona el valor y el precio del producto está influenciada por el

Page 27: Jhonathan David Pazmiño Arteaga

11

conocimiento del producto, las habilidades de tueste y la experiencia y memoria sensorial del

juez catador (Tolessa et al., 2016).

La disminución de la calidad sensorial del café se ha observado cuando este es almacenado

durante periodos prolongados incluso cuando se garantizan las condiciones de estabilidad

microbiológica, las cuales son especialmente controladas en los procesos de

comercialización, los granos deben tener entre 10% y 12% de contenido de agua (Bucheli et

al., 1998; Scheidig et al., 2007)

La pérdida de la calidad ocurre de dos maneras: a) aplanamiento de la taza, lo que significa

una pérdida o disminución de un atributo positivo, como la fragancia floral y frutal o el sabor

vinoso entre otros, b) la aparición de descriptores sensoriales negativos denominados off-

notes como son paja, madera y papel, los cuales indican tener un “café viejo” (Borém et al.,

2013) o “café reposado” (Rendón et al., 2014). Estudios de estabilidad en café verde

formalmente estructurados no se reportan en la literatura, sin embargo, algunos diseños

efectuados para evaluar los cambios en la calidad del café durante el almacenamiento pueden

verse en la Tabla 1.

Tabla 1. Estudios de almacenamiento en café verde

Estudio Tipo de

café/origen

Condiciones de

almacenamiento

Cambios

sensoriales

Referencia

Efecto del

almacenamiento en silos

industriales y en bolsas

en condiciones de clima

tropical

Robusta /

Tailandia

30 °C /

60% HR /

8 meses

Incremento en

nota a madera

Bucheli et

al., 1998

Monitoreo de los

cambios en las

concentraciones de

odorantes seleccionados

durante el

Arábica /

Colombia

25 °C y 40 °C /

9 meses

Aumentó el

afrutado,

picante y

manzana

horneada;

Scheidig et

al., 2007

Page 28: Jhonathan David Pazmiño Arteaga

12

almacenamiento de café

verde

disminuyó el

verde, arveja y

terroso.

Análisis las diferencias

entre los métodos de

poscosecha en el

almacenamiento bajo

condiciones estándar

Arábica /

Brasil

22 °C /

63% HR/

24 meses

Aplanamiento

de los aromas,

notas a viejo,

madera y

cuerpo rasposo

Selmar et

al., 2008

Evaluación de un nuevo

sistema de

almacenamiento en

escala comercial usando

bolsas herméticas

grandes con condiciones

de atmosfera

modificada

Arábica /

Brasil

22 °C - 30 °C /

60% - 85% HR/

12 meses

Leve

disminución en

el total del

puntaje SCA

Ribeiro et

al., 2011

Evaluación de los

cambios sensoriales en

el café natural y honey

durante el

almacenamiento

Arábica /

Brasil

22 °C - 26 °C /

60% - 80% HR/

12 meses

Intensidad alta

en el flavor de

café reposado

Rendón et

al., 2014

Evaluación de la

eficacia de bolsas

herméticas de tipo

Purdue Improved Crop

Storage (PICS) en el

almacenamiento del

café verde

Arábica /

Colombia

Condiciones

ambientales /

7 meses

Disminución

del dulzor y

cambios en la

taza

Donovan

et al., 2019

Los estudios del almacenamiento del café verde que se han reportado se enfocan en realizar

comparaciones entre distintas condiciones de almacenamiento, ya sea en términos de

Page 29: Jhonathan David Pazmiño Arteaga

13

temperatura y humedad o de tipos y características de los empaques, sin embargo, es

necesario que se comprendan los fenómenos subyacentes al deterioro de la calidad del

producto para que de esta manera se planteen intervenciones bien direccionadas a retardar

los mecanismos de degradación.

Algunos autores indican que el análisis sensorial del café verde es subjetivo debido a que la

precisión depende de las capacidades y habilidades del catador (Feria-Morales, 2002; Ribeiro

et al., 2011; Selmar et al., 2006); por este motivo, en la actualidad es relevante obtener

información mediante el uso de herramientas químicas e instrumentales que permitan generar

resultados estandarizados y sin sesgos que soporten los resultados sensoriales. Se han

realizado análisis con un alto nivel de confiabilidad en el café, una variedad de técnicas

analíticas como espectrometría de masas, cromatografía de gases, resonancia magnética

nuclear y espectroscopía de infrarrojo se han utilizado principalmente para estudiar las

diferencias entre las especies botánicas y el origen geográfico del café (Arana et al., 2015;

Bertone et al., 2016; Consonni et al., 2012; Defernez et al., 2017; Wang et al., 2011); sin

embargo, hay poco progreso en la implementación de técnicas analíticas sofisticadas para

describir la calidad del café verde y sus atributos sensoriales desde una perspectiva amplia,

y aún menos para evaluar el efecto de las variables de almacenamiento.

Comprender los fenómenos, rutas y mecanismos mencionados requiere tomar un punto de

vista que contemple la naturaleza biológica del café verde. En el aspecto particular se

reportan desde hace más de 50 años estudios de almacenamiento del café verde enfocados

únicamente en entender su comportamiento como semilla: estudios sobre la longevidad, la

tolerancia a la desecación y las repercusiones de la temperatura de almacenamiento y el

contenido de humedad. Estos estudios se han enmarcado en brindar soluciones a las

necesidades de los tecnólogos de semillas y de los productores de café quienes requieren de

material biológico viable para reproducir y extender los cultivos (Fantazzini et al., 2018); su

objetivo no es comprender la conservación de las características sensoriales ni vislumbrar la

relación entre la longevidad y los precursores sensoriales.

Page 30: Jhonathan David Pazmiño Arteaga

14

En referencia al periodo de tiempo sobre el cual el embrión en las semillas se encuentra en

capacidad de germinar y generar una nueva planta, Roberts (1973) clasificó a las semillas

como ortodoxas y recalcitrantes según la capacidad de sobrevivir a periodos largos y cortos

de almacenamiento respectivamente. Las ortodoxas tienen un comportamiento predecible y

su longevidad está en función de la temperatura de almacenamiento y del contenido de agua

de la semilla; la longevidad aumenta cuando estos factores disminuyen, así se posibilita la

existencia de bancos de semillas con condiciones de almacenamiento de -18 °C y 3% - 7%

de contenido de humedad. En contraste, el comportamiento de las recalcitrantes no puede ser

modelado como función de los parámetros del almacenamiento, éstas no pueden almacenarse

con contenidos de humedad menores al 20% o 30% y no sobreviven a bajas temperaturas,

por tanto, conservarlas por periodos de tiempo largos es un reto.

Ellis, Hong, & Roberts, (1990) fueron los primeros investigadores que describieron el

comportamiento del café como una semilla extraña, pues no es ni ortodoxa ni recalcitrante.

Ellos introdujeron una nueva categoría de la cual el café es el principal representante y las

denominó semillas intermedias. Según Ellis y su equipo, las semillas de café reducen su

longevidad cuando la temperatura y el contenido de agua disminuyen, por esta razón no son

semillas ortodoxas, pero tampoco son recalcitrantes porque sobreviven a condiciones de

desecación más altas que cualquier semilla recalcitrante conocida.

El café verde como las demás semillas dispone de un amplio espectro de mecanismos

bioquímicos para permanecer viable ante la pérdida de agua durante el almacenamiento hasta

el momento de la germinación, estos mecanismos se denominan tolerancia a la desecación y

se adquieren durante el proceso de desarrollo de la semilla en la planta. Tales mecanismos

de control metabólico hacen que la composición química del grano de café cambie

constantemente en respuesta a los estímulos del medio, por tanto, el estudio de la calidad del

café expresado en la bebida debe contemplar que este es un producto químicamente dinámico

y biológicamente activo y reactivo.

El reconocimiento de la naturaleza biológica del café verde así como la consideración de los

procesos fisiológicos han dado paso a nuevos enfoques para realizar el estudio de la calidad

Page 31: Jhonathan David Pazmiño Arteaga

15

del producto (Bytof et al., 2007; Selmar et al., 2006). Los procesos posteriores a la cosecha

modifican el metabolismo de la semilla y, por lo tanto, se pueden obtener diferentes perfiles

sensoriales cuando se aplican diferentes métodos de postcosecha a una materia prima

idéntica. El estado bioquímico de la semilla al final de la postcosecha dependerá del nivel de

daño mecánico, del proceso de imbibición, de la privación de oxígeno, de la velocidad de

secado entre otros; la germinación y el metabolismo ligado al estrés son procesos fisiológicos

relevantes en esta etapa (Selmar et al., 2014). En suma, diferentes procesos de poscosecha

dan lugar a granos de café con diferentes estados bioquímicos y por lo tanto cabe esperar

tener diferentes comportamientos durante el almacenamiento que son condicionantes para la

longevidad de las semillas y que probablemente afectarán la vida útil del café verde con

relación a la conservación de sus características sensoriales; estas son claves para tener en

cuenta para la evaluación de la pérdida de la calidad mencionada en esa tesis.

2.3 Los lípidos y su relevancia en el estudio de la calidad del café verde

Como ya se ha mencionado, la calidad sensorial de la bebida de café disminuye cuando se

almacena el grano verde, tal fenómeno indica que su composición química cambia durante

este período (Rendón et al., 2014). Se pueden esperar variaciones en la naturaleza y

concentración de los precursores debidas a los procesos de descomposición química

promovidos por factores del almacenamiento como la temperatura, la luz, el oxígeno y la

humedad; además, se requiere también considerar la naturaleza biológica y por lo tanto

estructurar un problema dinámico (Bertrand et al., 2012; Patui et al., 2014; Ribeiro et al.,

2011; Selmar et al., 2008).

Teniendo en cuenta los aspectos químicos, relevantes debido a la labilidad; biológicos, con

relación a mecanismos de almacenamiento de energía y de construcción de estructuras

celulares, y sensoriales, por la importancia como precursores, los lípidos del café verde

destacan de manera importante cuando se pretende estudiar los fenómenos de calidad y

alteraciones de ésta; a continuación, se presentan algunos puntos reportados en la literatura

que abordan dichos aspectos.

Page 32: Jhonathan David Pazmiño Arteaga

16

Las semillas de café arábica contienen aproximadamente 15% de lípidos. El 75% de ellos

corresponden a ésteres de glicerol, principalmente triacilgliceroles; el 20% son ésteres de

diterpenos y diterpenos libres; solo una fracción inferior al 1% son ácidos grasos libres y el

4% restante está constituido por otros compuestos como tocoferoles, esteroles y fosfolípidos

(Nikolova-Damyanova et al., 1998; Shibamoto, 2015; Speer & Kölling-Speer, 2006). La

fracción insaponificable es relativamente mayor que en los aceites vegetales comestibles

comunes, se reporta hasta del 18.5% (D’Amelio et al., 2013).

Los lípidos del café verde se destacan como precursores de diversos compuestos con

características sensoriales, por ejemplo, aldehídos de cadena corta, furanos y ácidos

carboxílicos volátiles (Flament, 2002; Holscher & Steinhart, 1995; Patui et al., 2014; Preedy,

2015). Además, los productos de oxidación de los ácidos grasos reaccionan con

intermediarios de la ruta de Maillard dando lugar a compuestos aromáticos adicionales

durante el tueste (Joët et al., 2010). Los terpenos como el linalol, un compuesto volátil que

proporciona una nota floral a la bebida, pueden resistir las altas temperaturas del tueste y se

han encontrado tanto en café verde como en café tostado.

Nikolova-Damyanova et al., (1998) mencionó que la menor calidad de la taza de café está

asociada con los cambios indeseables en los lípidos de las semillas durante el

almacenamiento, esto debido a la hidrólisis de los ésteres de glicerol y al aumento de los

ácidos grasos libres que son más susceptibles a procesos de oxidación. De esta forma,

básicamente se han propuesto dos mecanismos para explicar los cambios que sufre el material

lipídico durante el almacenamiento: oxidación e hidrólisis; ambos están enmarcados en los

fenómenos químicos y biológicos experimentados por las matrices de alimentos, pero

ninguno confirmado con evidencias sólidas. Algunos estudios presentan que la concentración

de ácidos grasos libres de los granos de café verde aumenta durante el almacenamiento (Patui

et al., 2014; Rendón et al., 2014). Aunque los fosfolípidos son el 0.4% de los lípidos totales

en el endospermo del café verde, se propusieron como una fuente potencial de ácidos grasos.

Dussert et al., (2006) evaluó la acción de la enzima fosfolipasa A2 que produce un

lisofosfolípido por acción de la hidrólisis; se encontró que la cantidad de ácidos grasos libres

Page 33: Jhonathan David Pazmiño Arteaga

17

aumentó, pero los lisofosfolípidos no cambiaron por lo que se descartó la acción enzimática

sobre el sustrato.

La oxidación de lípidos es uno de los mecanismos de degradación más frecuentes en los

alimentos, sin embargo, hasta el momento exceptuando el estudio realizado por Rendón et

al., (2014) que utilizó la prueba TBARS para determinar la oxidación de los lípidos durante

el almacenamiento, no hay estudios suficientes en el campo del café verde. Rendón et al.

identificaron que la oxidación de los lípidos aumentó durante el almacenamiento,

probablemente favorecida en etapas tempranas debido al estrés por secado. Del mismo modo,

Patui et al., (2014) reportó que la disminución de la capacidad antioxidante podría deberse a

la oxidación de los lípidos, aunque no observó este fenómeno directamente.

Además del impacto por sí mismos, dada la naturaleza reactiva de los radicales libres y los

hidroperóxidos lipídicos estos pueden afectar a otros constituyentes del café verde. Rendón

et al., (2014) encontró reducción de la concentración de ácidos clorogénicos y observó la

oxidación de proteínas en las primeras etapas de almacenamiento. Se ha propuesto también

que la degradación de los lípidos del café verde está implicada en el deterioro de la estructura

celular, es posible que bajo estrés oxidativo la permeabilidad de la membrana celular a los

gases ambientales como el oxígeno aumente y que el agua pueda ingresar a la semilla,

conduciendo a un refuerzo de la oxidación de compuestos sensibles y al daño de otras

estructuras celulares, generando así un mecanismo de deterioro cíclico. La evaluación de la

integridad de la membrana celular en semillas de café mediante la prueba de lixiviación de

potasio y la conductividad eléctrica (Ribeiro et al., 2011) y mediante microscopía electrónica

de transmisión (Rendón et al., 2014) mostró cambios como la fusión de los cuerpos lipídicos

y la pérdida de integridad de la membrana celular.

Los estudios realizados por especialistas en ciencia de semillas conducen a proponer que la

viabilidad de la semilla de café, es decir la capacidad para germinar y producir una nueva

planta, se vincula con el estrés oxidativo y con la oxidación de lípidos, además, la pérdida de

viabilidad se relacionó con la baja calidad sensorial. Aún son necesarios estudios que

Page 34: Jhonathan David Pazmiño Arteaga

18

relacionen la alteración de lípidos con el defecto sensorial del envejecimiento en el

almacenamiento del café verde (Dussert et al., 2006; Selmar et al., 2008).

2.4 Metabolómica

La necesidad por comprender los procesos y fenómenos biológicos ha llevado al

planteamiento de preguntas que requieren la construcción de campos de trabajo

multidisciplinarios en los cuales se ponga en común las capacidades de diferentes ciencias

en pro de resolver un problema transversal. Esto fue lo que puede decirse sucedió en la década

de los 60 cuando comenzó el proyecto del genoma humano, y en este punto se dio origen a

lo que en la actualidad se conocen como las ciencias “ómicas”. Hoy en día se habla de

genómica, transcriptómica, proteómica y, la última de esta familia es la metabolómica.

El estudio interdisciplinario de los metabolitos de un sistema biológico mediante el uso de

técnicas analíticas sofisticadas y el análisis de datos usando estadística multivariada

constituye lo que se denomina metabolómica. Este enfoque contempla las pequeñas

moléculas (en media <1500 Da) que son resultado de los procesos metabólicos de los

organismos vivos y por tanto su nombre de metabolitos (Markley et al., 2017; Prama &

Fukusaki, 2015; Sandusky, 2017). El conjunto completo de los pequeños metabolitos

sintetizados por un organismo biológico o una parte de este se denomina metaboloma, entre

estos se incluyen moléculas como carbohidratos, ácidos grasos, aminoácidos, nucleótidos,

ácidos orgánicos, vitaminas, antioxidantes entre otros; para su estudio, este puede ser

dividido según el nivel de complejidad en el cual se encuentra enmarcado, así se considera

el organismo, el tejido, la célula y los compartimientos celulares (Boufridi & Quinn, 2016;

Ibarra-Estrada et al., 2016; Klupczynska et al., 2015).

El metaboloma es dinámico y susceptible a las condiciones internas y externas del organismo,

dado su aspecto cuantitativo y cualitativo, la información que permite obtener la

metabolómica se puede usar para evaluar la función y las respuestas biológicas del organismo

a las condiciones en las cuales se desarrolla. El metaboloma constituye una herramienta para

Page 35: Jhonathan David Pazmiño Arteaga

19

entender el estado o la condición de un sistema orgánico; los compuestos suelen ser el

resultado final de procesos de regulación y por tanto representan el modo de interactuar con

su medio interno y externo. El metaboloma es por tanto considerado como el puente entre el

genotipo y el fenotipo (Fiehn, 2002; Ibarra-Estrada et al., 2016).

En contraste con las otras ciencias ómicas, las cuales se enfocan en unas pocas entidades

químicas, la genómica por ejemplo, limita sus técnicas analíticas a la detección de solo cuatro

compuestos particulares, la metabolómica tiene el reto de enfrentarse a una cantidad muy

amplia y además variada de compuestos, así, estimaciones del tamaño del metaboloma de

una especie vegetal dan valores de entre 5000 y 25000 compuestos diferentes (Rolin et al.,

2013; Schripsema, 2010). La metabolómica cuenta con distintos enfoques de trabajo que

abordan la complejidad de este problema y los cuales se direccionan a obtener datos y de

estos, derivar información que permita el desarrollo del conocimiento de manera

estructurada.

Estos enfoques, metodologías o también llamados experimentos metabolómicos se enmarcan

en dos categorías generales, la metabolómica no dirigida, implica que no hay un estudio

particular o enfocado en moléculas exactamente conocidas, es de interés el reconocimiento

de patrones y la manera de realizarlo es mediante la huella digital metabólica (metabolic

fingerprinting). La categoría de la metabolómica dirigida, en la cual se conoce o se estudian

metabolitos de naturaleza determinada y requiere de la identificación y cuantificación, se

realiza mediante el perfilamiento de metabolitos (metabolite profiling) y la metabolómica de

objetivos (targeted metabolomic) (Dona et al., 2016; Klupczynska et al., 2015; Ribbenstedt

et al., 2018; Rolin et al., 2013).

El análisis no dirigido de una muestra biológica mediante la adquisición rápida y general del

su huella digital metabolómica es especialmente útil para relacionar los constituyentes

químicos de un organismo y los factores diferenciadores de su ambiente, esto permite

comparar perfiles de metabolitos en forma de patrones de señales analíticas para identificar

diferencias entre grupos o muestras que conduzcan a generar hipótesis que expliquen tales

variaciones (Boufridi & Quinn, 2016). El principal objetivo es realizar una clasificación o

Page 36: Jhonathan David Pazmiño Arteaga

20

discriminación entre muestras con diferente estado biológico; su aplicación no requiere que

se conozca la composición previa de la muestra ni tampoco hace relevante la identificación

posterior, lo ideal es desarrollar un método lo más simple y reproducible posible. Dado el

alcance y el rango amplio de compuestos que se consideran, la metabolómica de huella digital

es en sí misma una verdadera aproximación ómica (Dona et al., 2016; Klupczynska et al.,

2015).

El perfilamiento de metabolitos es una estrategia no dirigida. Se concentra en un rango más

o menos amplio de compuestos de los cuales no se conoce su identidad previamente, pero su

objetivo es identificar y cuantificar tantos como sea posible. El enfoque requiere de técnicas

y métodos analíticos de alto rendimiento y generalmente la separación cromatográfica se

hace necesaria. Con este enfoque se ayuda a la identificación de alteraciones en el

metaboloma que conducen a descubrir biomarcadores (Klupczynska et al., 2015; Ribbenstedt

et al., 2018).

La metabolómica de objetivos se enfoca en monitorear varios analitos previamente definidos

y conocidos y por ello se requiere la identificación y cuantificación precisa de estos. Se

necesitan métodos de preparación de muestra elaborados y técnicas analíticas sensibles,

selectivas y con capacidad de detectar y cuantificar bajos niveles de los analitos

(Klupczynska et al., 2015; L. D. Roberts et al., 2012).

En la realización de un estudio metabolómico se ha propuesto un flujo de trabajo que busca

optimizar la calidad de la información que puede obtenerse con estas metodologías

procurando el uso eficiente de los recursos. Las etapas a seguir comienzan con la definición

del objetivo del estudio y la elaboración del diseño experimental, después se realiza la

recolección y almacenamiento de la muestra; la preparación de la muestra y/o la extracción

y aislamiento de compuestos de interés, una vez se dispone de la matriz a analizar se realiza

la adquisición de los datos utilizando la técnica analítica deseada, que puede requerir o no el

uso de herramientas de separación como la cromatografía según sea el objetivo del estudio;

después debe realizarse el preprocesamiento espectroscópico de los datos que contempla

aplicar la transformada de Fourier, el ajuste de la línea base y la referenciación entre otros;

Page 37: Jhonathan David Pazmiño Arteaga

21

luego se realiza el preprocesamiento estadístico de los datos al realizar la alineación,

escalado, normalización y segmentación, posteriormente se aplica el análisis estadístico y

luego la identificación de los metabolitos o perfiles según sea el caso y se finaliza con la

interpretación biológica de la información y la elaboración de un reporte (Dona et al., 2016;

Ribbenstedt et al., 2018).

Cada vez las aplicaciones de la metabolómica se expanden en diversas áreas como el control

de calidad, la quimio taxonomía, el tamizaje de productos naturales y la identificación de

nuevos principios activos (Boufridi & Quinn, 2016). En la agricultura se enfocan en estudiar

los procesos de desarrollo y diferenciación, la maduración de los frutos, la resistencia a

factores ambientales adversos y el estrés y sus consecuencias (Ibarra-Estrada et al., 2016).

Uno de los objetivos y retos de la metabolómica es descubrir nuevos biomarcadores que

permitan la detección y el monitoreo de diferentes condiciones biológicas en los sistemas. El

desarrollo de nuevos métodos instrumentales y técnicas analíticas que permitan la

identificación y cuantificación de muchos compuestos al mismo tiempo y la incorporación

de algoritmos y técnicas de procesamiento de datos hace de este campo uno con gran

potencial.

Las técnicas más útiles para el estudio del metaboloma son la espectrometría de masas y la

espectroscopía de RMN, sin embargo dado que las dos técnicas ofrecen diversos puntos

fuertes y tienen debilidades complementarias, usarlas de manera conjunta suele ser la

estrategia más recomendada (Markley et al., 2017; Rolin et al., 2013).

En la actualidad “el estudio del metaboloma basado en RMN es aceptado como una eficiente

herramienta analítica para el estudio de sistemas biológicos” (Ibarra-Estrada et al., 2016). La

resonancia magnética nuclear es una de las metodologías analíticas más utilizadas en el

campo de la metabolómica. Esta técnica permite el análisis de simultáneo de diversos

compuestos de distinta naturaleza presentes en una misma muestra, es un método rápido,

simple y altamente reproducible que reduce al mínimo las posibles alteraciones a la muestra.

Las ventajas que tiene esta técnica son que no destruye la muestra y esta requiere una mínima

preparación, no se requiriere separación o purificación, la matriz o acompañantes de los

Page 38: Jhonathan David Pazmiño Arteaga

22

analitos ejercen poco efecto en la intensidad de las señales; además, permite identificación y

discriminación entre compuestos con la misma masa molecular, se puede realizar

cuantificación y es fundamental para elucidar la estructura química de nuevos compuestos.

La mayor limitación se encuentra en su baja sensibilidad (Klupczynska et al., 2015; Markley

et al., 2017).

La 1H RMN unidimensional (1D) es el enfoque de RMN más utilizado en metabolómica. Un

espectro de protón suministra una importante cantidad de información para realizar un

análisis metabolómico. Se incluye la información del desplazamiento químico, la

multiplicidad de las señales, las constantes de acoplamiento homonuclear (1H-1H) y la

integral de la señal. El desplazamiento químico hace referencia cada núcleo de hidrogeno

distinto en cada uno de los metabolitos en una muestra medida en forma de una señal

característica en una frecuencia de resonancia. Dado que el desplazamiento químico exacto

de una señal de RMN para un protón de un metabolito es independiente de la fuerza del

campo magnético aplicado, esta técnica es altamente reproducible y caracteriza de forma

precisa el núcleo estudiado de un metabolito en una muestra específica. Además, esto hace

posible que se pueda relacionar a través de diferentes fuentes bibliográficas y bases de datos

la estructura química y el desplazamiento de una señal de RMN.

Adicional al desplazamiento químico o la ubicación que tiene una señal en el espectro de

RMN, se cuenta con el patrón que tienen dichas señales, este patrón se refiere a la

multiplicidad; la forma y relación en intensidad de las señales de un mismo núcleo de

hidrógeno suministran información muy útil para la identificación de señales específicas de

una molécula o parte de una molécula. También se cuenta con la información de la separación

exacta entre las señales de un patrón, que se denomina acoplamiento, esta información

caracteriza a los protones y a sus grupos en las moléculas permitiendo hacer una

identificación precisa. La naturaleza de la espectroscopía de RMN hace de ella una técnica

inherentemente cuantitativa, esto es una gran ventaja para realizar estudios de metabolómica.

La información de la concentración de los analitos se extrae desde la integración de las

señales del espectro, el área bajo la curva está relacionada con la cantidad de núcleos que

generan dicha señal (Dona et al., 2016; Markley et al., 2017; Rolin et al., 2013).

Page 39: Jhonathan David Pazmiño Arteaga

23

La espectrometría de masas tiene la capacidad de analizar diferentes compuestos a la vez, sin

embargo, se requiere que estos tengan la misma o similar naturaleza química. Generalmente

se requieren largos procesos de preparación de las muestras y la separación suele ser un paso

previo al análisis. Es una técnica destructiva, pero requiere muy bajas cantidades de muestra,

en el orden de microlitros. Las principales ventajas son la alta sensibilidad y resolución y el

rango dinámico amplio. Suele necesitarse su uso en conjunto con técnicas de separación en

función de la naturaleza de los metabolitos que se estudian, así por ejemplo la cromatografía

de gases (GC) después de la derivatización química, la cromatografía líquida (LC) y

cromatografía líquida ultra alta presión (UPLC) y la electroforesis capilar (CE) que más allá

de incrementar la complejidad de la técnica le aportan desempeño y maniobrabilidad con

miras a identificar compuestos desconocidos; para ello además se dispone de herramientas

en tándem para la evaluación de fragmentos de iones y el uso de masas con transformada de

Fourier para una determinación de masas muy precisa (Klupczynska et al., 2015; Nicholson

et al., 2007; Prama & Fukusaki, 2015).

Por otro lado, debido a que las técnicas instrumentales proporcionan un conjunto de datos

grande es necesario recurrir a los métodos modernos de análisis de datos, los cuales permiten

manipular la información y generar conclusiones válidas que no son posibles utilizando solo

herramientas estadísticas estándar. Con la combinación de estos métodos y técnicas, la

metabolómica, puede ayudar a resolver problemas antes no contemplados, como la relación

entre el perfil químico del café verde y las características sensoriales del café tostado (Hoyos-

Ossa et al., 2018; Pazmiño-Arteaga et al., 2019; Sandusky, 2017; Schripsema, 2010).

El estudio del envejecimiento del café verde desde una perspectiva global es difícil utilizando

solo métodos convencionales, especialmente si se considera la complejidad de la matriz y la

complejidad de las rutas de deterioro de la calidad, que abarcan procesos de alteración

metabólica, daño mecánico y procesos de alteración química. Solo la intervención de técnicas

modernas de bioquímica vegetal, biología molecular y metabolómica, podría revelar

resultados novedosos para aclarar esta cuestión.

Page 40: Jhonathan David Pazmiño Arteaga

24

2.4.1 Lipidómica

Los lípidos desempeñan importantes papeles en la biología de los organismos, estos

compuestos se encuentran como constituyentes en muchas estructuras celulares, la bicapa

lipídica principalmente, además tienen diversas funciones metabólicas como ser

contenedores de energía química almacenada y ser segundos mensajeros en los procesos de

comunicación intracelular (Han & Gross, 2005; Schiller et al., 2004).

La gran diversidad estructural de los lípidos que se pueden encontrar en una muestra

biológica es un reto para las técnicas analíticas principalmente debido a las diferencias

fisicoquímicas (Lísa & Holčapek, 2015). La amplitud del campo de estudio de estos

compuestos químicos da paso a considerar la particularización de la metabolómica sin limitar

sus alcances ni procedimientos básicos. La lipidómica se considera un brazo de la

metabolómica, la cual estudia los metabolitos no solubles en agua y que se desarrolla para

entender mejor los cambios en cuanto a la composición de estas moléculas en los organelos,

células, tejidos y organismos como respuesta al estrés o a las alteraciones del metabolismo

(Kishimoto et al., 2001; Taguchi et al., 2007; Welti et al., 2007).

La relevancia biológica creciente de los lípidos en muchas áreas de aplicación,

principalmente la medicina, y la enorme variedad de estructuras genera las necesidades para

el desarrollo de métodos de perfilación y cuantificación que permitan reducir la complejidad

de la muestra a analizar y el tiempo en el cual se realiza (Rampler et al., 2018).

El análisis de lípidos en matrices que suelen ser aceites, utiliza diferentes técnicas

instrumentales como NIR, RMN y masas; esta última es la de mayor extensión y uso debido

a la disponibilidad de diferentes modificaciones cuando se combina con métodos de

separación cromatográfica (Lara-Ortega et al., 2018). La espectrometría de masas es una

Page 41: Jhonathan David Pazmiño Arteaga

25

herramienta muy importante en los análisis lipidómicos, esta permite un rango dinámico de

pesos moleculares suficientemente extenso para cubrir desde los sencillos ácidos grasos de

cadena corta hasta los complejos sistemas de ésteres de glicerol o fosfolípidos, además, tiene

una muy buena selectividad permitiendo trabajar con diferentes modos de ionización como

la ionización electrónica, la desorción con láser asistida por matriz ionización, la ionización

por electro pulverización y la ionización química a presión atmosférica, cada una con

ventajas y desventajas que deben considerarse según los requerimientos de la investigación

(Jin et al., 2011; Murphy & Axelsen, 2011; Schmelzer et al., 2007).

Cuando el requerimiento lipidómico está enfocado en realizar un acercamiento no dirigido

pretendiendo obtener la mayor cantidad de información con el menor tratamiento de la

muestra, las herramientas desarrolladas para el control de calidad de aceites vegetales

destacan por sus aplicaciones. Aquí, nuevamente la técnica más usada y adecuada para

realizar la adquisición de perfiles químicos y compararlos con los de otras muestras es la

resonancia magnética nuclear y en menor medida la espectrometría de masas que aplica el

denominado “shotgun” donde se lleva al analizador la mayor cantidad de compuesto en un

solo paso, MALDI es la principal herramienta usada para ello (Cozzolino & De Giulio, 2011;

Han & Gross, 2005).

2.5 Herramientas modernas para el análisis de los datos: Aprendizaje automático

(machine learning)

El doctor Lewis indica que el aprendizaje automático es un conjunto de algoritmos con los

cales se puede extraer información de los datos, información que posteriormente puede ser

usada por las personas o por computadoras para tomar alguna decisión (Lewis, 2017). Este

campo de estudio requiere de la existencia de tres componentes que interactúan

constantemente para generar información que puede ser convertida en acciones inteligentes.

Se necesita la existencia o disponibilidad de datos, la aplicación de métodos estadísticos y el

uso de capacidad de cómputo informático (Lantz, 2013).

Page 42: Jhonathan David Pazmiño Arteaga

26

Los modelos de aprendizaje automático suelen producir resultados utilizando técnicas de

cómputo y cálculo que no se utilizan con las metodologías de análisis de datos tradicionales,

esto les permite utilizarse para solucionar una gran cantidad de problemas en especial donde

se tienen muchos datos con muchas variables de interés, sin embargo, esto implica

dificultades en cuanto a la interpretación que puede hacerse del porqué de los resultados que

se obtienen.

La segmentación de los tipos de problemas que se pueden abordar usando el aprendizaje

automático, se realiza al considerar un paradigma que expone dos tipos de aprendizaje: el

supervisado y el no supervisado. En función del tipo o de la naturaleza de la interacción entre

los datos y el proceso que hace el algoritmo, este puede aprender por guía de un ente externo

o de forma autónoma. La guía que se suministra al algoritmo se hace en forma de información

adicional que describe un estado particular de las observaciones que se estudian, dicha

información se denomina etiqueta (Shalev-Shwartz & Ben-David, 2014). Las técnicas de

aprendizaje supervisado predicen atributos, las no supervisadas identifican patrones o

estructuras (Usuelli, 2014).

Los algoritmos de aprendizaje supervisado se utilizan para construir modelos que permitan

realizar predicciones, estos se dividen en dos conjuntos cuyo principal diferenciador es el

tipo de variable objetivo que se contempla de interés; cuando la variable es de tipo

cuantitativa se habla de técnicas de regresión y cuando la variable es cualitativa o categórica

las técnicas son de clasificación. Los principales algoritmos utilizados en problemas de

aprendizaje supervisado son regresión lineal, regresión logística, k vecinos cercanos,

máquinas de soporte vectorial, árboles de decisión y bosques aleatorios (Bali & Sarkar, 2016;

Gron, 2017).

El agrupamiento o clustering es el principal enfoque de las técnicas de aprendizaje

automático no supervisado. Son diferentes los algoritmos que se utilizan en este campo donde

el principal objetivo es la división de un conjunto de datos sin etiquetas en grupos que sean

lo más similares posible formando los denominados clúster (Rabelo et al., 2017). Los

algoritmos trabajan usando métricas para medir la similitud o disimilitud entre las diferentes

Page 43: Jhonathan David Pazmiño Arteaga

27

observaciones y generando divisiones de forma iterativa buscando reducir la varianza dentro

de los grupos y extender la varianza entre los grupos. Los algoritmos más representativos de

esta categoría son el análisis de componentes principales, k medias, análisis de clúster

jerárquico (Gron, 2017).

2.5.1 Algoritmo de Random Forest (bosques aleatorios)

Random Forest es un tipo de algoritmo de aprendizaje automático supervisado que permite

solucionar problemas de regresión y de clasificación. Este es un algoritmo que requiere que

los datos con los que se construye el modelo incluyan una etiqueta con el valor asignado por

el investigador con el cual la maquina puede aprender de los datos y buscar las mejores reglas

que basadas en sus características le permiten realizar la predicción. Como su nombre lo

indica este algoritmo es una generalización o una ampliación de las reglas que componen un

árbol de decisión, este último es un conjunto de pasos de decisión estructurados

jerárquicamente para tomar una decisión. El bosque aleatorio se compone entonces de

muchos árboles de decisión los cuales se construyen utilizando una muestra aleatoria de los

datos disponibles y también seleccionando de forma aleatoria un pequeño conjunto de las

variables o características (features) que determinan las reglas de decisión (Hartshorn, n.d.).

Las reglas de decisión de los árboles indican el flujo de información a través de su estructura.

En cada uno de los nodos se realiza una partición o split y esta división se define por

comparación entre el valor de un dato particular y un umbral establecido por la característica

o variable que se posiciona en ese nodo. La razón de ser de cada partición es lograr conducir

a cada dato por un camino que llegue finalmente a clasificarlo correctamente con la etiqueta

que este posee.

La aleatoriedad con la cual el algoritmo estructura su entrenamiento es una particularidad

que le permite un muy buen desempeño cuando la cantidad de características en un set de

datos es muy amplia. Cada árbol que compone el bosque se entrena con una parte del total

de los datos, pero siempre se mantiene el mismo número de observaciones, la selección de

los datos para entrenar el modelo se hace de manera aleatoria con reemplazo, es decir se hace

Page 44: Jhonathan David Pazmiño Arteaga

28

un bootstraping. En el conjunto de datos tomado para entrenar cada árbol se puede tener

varias veces la misma observación, por eso el muestreo con reemplazo, pero al repetir este

proceso muchas veces se puede establecer que en promedio el 63.2% de los datos originales

se utilizan en cada árbol, mientras que el otro 36.8% son datos que no se utilizan para el

entrenamiento pero si para la validación, aquí una característica más de este algoritmo, que

internamente realiza un proceso de validación cruzada (Hartshorn, n.d.).

Otra forma como el algoritmo incluye aleatoriedad en el proceso de entrenamiento del

modelo es al seleccionar cuáles características utilizar para los nodos de cada árbol. En cada

nodo el algoritmo selecciona solo unas cuantas características, por defecto un número

máximo igual a la raíz cuadrada del total de características disponibles; esto hace posible que

cada uno de los árboles sea totalmente diferente a los demás.

La arquitectura con la cual se construye el modelo, que deja de lado un 36.8% de los datos

en el entrenamiento permite realizar a la vez el proceso de validación cruzada para el cual se

dispone de una métrica denominada error fuera de la bolsa (out of bag - OOB), llamada así

por los datos que no se tuvieron en cuenta. De esta forma, cada árbol utiliza 2/3 de los datos

para su entrenamiento, proceso en el cual construye las reglas de decisión y aprende a

clasificar cada observación particular en función a la etiqueta que esta posee, después, utiliza

el 1/3 restante para validar si las reglas planteadas funcionan correctamente y genera una

medida del error en dicha clasificación. El error promedio de todos los árboles del bosque

será la medida de desempeño interna que se genera con este algoritmo.

Una herramienta que ayuda a resumir el desempeño de los modelos de clasificación es la

denominada matriz de confusión (Tabla 2). En el caso más simple, la clasificación en dos

grupos usando una variable dicotómica con valores “positivo” y “negativo”, la matriz es una

tabla de 2X2 en la cual se puede observar la información respecto a los valores que fueron

clasificados de manera correcta e incorrecta y además discriminar el desempeño logrado para

cada categoría. Las entradas de la matriz suelen indicarse como conteo de observaciones o

como fracción o porcentaje de estas.

Page 45: Jhonathan David Pazmiño Arteaga

29

Tabla 2. Estructura de la matriz de confusión

Referencia

Positivo Negativo

Predicción Positivo Verdadero positivo Falso positivo

Negativo Falso negativo Verdadero negativo

Page 46: Jhonathan David Pazmiño Arteaga

30

3. METODOLOGÍA

3.1 Evaluación del impacto de los factores del almacenamiento en el café verde

El estudio busca obtener un material vegetal lo más consistente posible respecto a sus

propiedades organolépticas, por ello, la asesoría de un experto en el área, el Magister Andrés

Ruíz, indicó que “Elkin es un excelente caficultor, es muy riguroso y siempre lleva muy buen

control de sus procesos en la finca”. Por lo anterior, la finca “La Lupita” propiedad del señor

Elkin Henao se seleccionó como proveedor del café que se estudió en esta etapa (Figura 4).

El lugar es un predio localizado en el paraje El águila, municipio de Barbosa, departamento

de Antioquia – Colombia; se encuentra sobre la ladera de las montañas antioqueñas a

aproximadamente 1800 m.s.n.m. En el lugar hay sembrados 15 mil árboles de café (Coffea

arabica L.) variedad Castillo de los cuales nueve mil se encontraban en producción; la edad

del cultivo era de cuatro años.

Figura 4. Finca cafetera "La Lupita", Barbosa-Antioquia

Page 47: Jhonathan David Pazmiño Arteaga

31

En la finca “La Lupita” se realiza el beneficio del café mediante dos métodos que dan origen

al denominado café lavado y al café honey rojo, los cuales fueron seleccionados para realizar

el estudio de identificación del efecto de los factores asociados al almacenamiento.

La recolección se realizó entre los meses de noviembre y diciembre del año 2016, se

seleccionaron manualmente sólo las cerezas maduras identificadas según su color e índice de

grados Brix (18° - 20°), luego se dividió la cosecha en dos partes con la misma masa de

cerezas, una parte fue beneficiada mediante el método en húmedo para obtener café lavado

y la otra parte se benefició por el método semihúmedo obteniendo así café honey rojo. Los

protocolos de beneficio no se describen en detalle dado que son el valor agregado del cual

dispone el caficultor para generar un producto diferenciado. Brevemente, el método para

obtener café lavado consta de las siguientes etapas (Figura 5):

a. Recolección, selección manual de las cerezas maduras.

b. Despulpado, para retirar la cáscara y parte de la pulpa del fruto.

c. Fermentación, bajo la cual se genera la proliferación de microorganismos que

degradan los componentes del mucílago que recubre la semilla.

d. Lavado con agua potable y agitación para remover el mucílago del café.

e. Secado, es realizado en camas de secado donde el contenido de agua de las semillas

se reduce desde aproximadamente 50% hasta 11%.

La producción del café honey rojo (Figura 6) se realiza una modificación en el proceso de

beneficio; después de la recolección la cereza entera se fermenta durante 10 a 20 horas, luego

se procede al despulpado y el grano no se lava, sino que se seca directamente; en este caso el

café queda con la capa externa denominada mucílago adherida sobre el pergamino de la

semilla.

Page 48: Jhonathan David Pazmiño Arteaga

32

Figura 5. Método de beneficio húmedo: café lavado

Figura 6. Método de beneficio semihúmedo: café honey rojo

3.1.1 Almacenamiento bajo condiciones de estabilidad forzada y de estabilidad

natural

El café en pergamino lavado y honey rojo fue proporcionado por la Finca “La Lupita”, 50 kg

respectivamente. Luego, 5 kg de cada tipo se procesaron en trilladora escala laboratorio

(Trilladora M250, Magra) para retirar el cisco o pergamino y así obtener el café verde. La

granulometría de estos se determinó usando tamices en serie (Magra); porciones

independientes de 180 g de café excelso malla 18 (café supremo) fueron expuestas a

diferentes tratamientos de estabilidad forzada durante 10 semanas según las condiciones de

Page 49: Jhonathan David Pazmiño Arteaga

33

almacenamiento que se especifican en la Tabla 3; cada tratamiento fue realizado de manera

cíclica, con un periodo de exposición al factor de almacenamiento y un periodo de

recuperación a condiciones ambientales. Después de las 10 semanas, las muestras se

empacaron en bolsas herméticas (Ecotalc®) y se almacenaron a temperatura ambiente en la

oscuridad. Cada uno de los tratamientos de estabilidad se realizó en cinco réplicas.

Tabla 3. Condiciones de almacenamiento para los tratamientos de estabilidad forzada

Tratamiento Condiciones Exposición/recuperación Materiales

Ciclos de

temperatura

40 °C ± 5 °C 6 h/18 h Horno Piron

(Cadoneghe, Italia)

Ciclos de

humedad

75 % ± 5 % 5 días/ 2 días Fermentador Piron

(Cadoneghe, Italia),

Ciclos de luz 250 W/m2 ∗ h 2 h/ 22 h Cámara de

simulación solar

Erichsen SolarBox

1500e (Alemania)

Oxígeno Ambiente

saturado

6 días/ 1 día Bolsa hermética

Ecotalk® saturada

con oxigeno grado

analítico

Almacenamiento

natural

Ambiente Temperatura y humedad

relativa ambiental

Bolsa hermética

Ecotalk®

Muestras independientes de 20 kg de café honey rojo y café lavado en pergamino fueron

empacadas en bolsas GrainPro® y se almacenaron protegidas de la luz durante 10 meses bajo

las condiciones ambientales del laboratorio del Grupo de Estabilidad de Medicamentos,

Cosméticos y Alimentos (Medellín - Antioquia), temperatura media de 25 ºC y humedad

relativa promedio de 65%, durante los meses de diciembre de 2016 a octubre de 2017.

Page 50: Jhonathan David Pazmiño Arteaga

34

3.1.2 Evaluación de cambios físicos y sensoriales de las muestras

La evaluación física y sensorial de las muestras se realizó para el material fresco (sin

almacenamiento o tiempo cero) y para el café sometido a los tratamientos de almacenamiento

natural y forzado. Se determinó el color y la humedad utilizando un colorímetro ColorFlex

EZ (HunterLab®) y balanza analítica con lámpara infrarroja (Lexus, Axis® BTS110D)

respectivamente.

La perfilación sensorial se realizó en el Laboratorio de Café del SENA Centro de los

Recursos Naturales Renovables - La Salada (Caldas - Antioquia) siguiendo el protocolo de

tostado y catación de la Specialty Coffee Association (SCA) que define el nivel de tueste, el

grado de la molienda, la temperatura del agua y el tiempo de infusión (Specialty Coffee

Association, 2019). Brevemente, 100 g de café verde fueron procesados en un horno tostador

de tambor rotatorio escala laboratorio (Quantik®) hasta un nivel de tueste medio según la

escala colorimétrica Agtron®: las curvas de tueste usadas para cada método de beneficio se

observan en la Figura 7. Se prepararon 5 réplicas (5 tazas) por muestra para la catación de la

bebida así: 12 g de café en molienda media fueron dispuestos en una taza de porcelana, se

adicionaron 100 mL de agua caliente (90 °C) y después de 4 minutos de extracción se

procedió a la evaluación de las muestras. La prueba se contó con tres catadores certificados

“Q grader” quienes describieron y calificaron de forma independiente en una escala continua

de cero a diez los atributos fragancia/aroma, sabor, residual, acidez, cuerpo, balance y

asignaron un puntaje personal.

Figura 7. Curva de tueste del café para el análisis sensorial

Page 51: Jhonathan David Pazmiño Arteaga

35

3.2 Acondicionamiento de las muestras para análisis instrumental

Las muestras de café verde seleccionadas del estudio forzado que presentaron los

descriptores sensoriales del reposo en taza fueron sometidas a experimentos de 1H RMN, con

el objeto de determinar señales características asociadas a este defecto.

La extracción del aceite de café verde se realizó modificando el método reportado por Patui

et al., (2014). El café verde se sometió a ultracongelación sumergiendo el material vegetal en

nitrógeno líquido por aproximadamente 5 minutos, después los granos fueron molidos

durante 30 segundos usando un molino de cuchillas (IKA® A11 basic). Diez gramos del

polvo se mezclaron con 20 mL de una solución hexano/éter de petróleo 1:1 (v/v), la

extracción se realizó aplicando las tres formas de asistencia que se relacionan en la Tabla 4

(Hu et al., 2019; Speer & Kölling-Speer, 2006; Tian et al., 2013; Zhang et al., 2017). El

extracto se filtró utilizando membranas de Nylon (tamaño de poro 0.22 μm) y el líquido

recuperado se transfirió a frascos de vidrio. El extracto fue llevado a sequedad usando una

corriente de nitrógeno gaseoso grado 5.0 analítico.

Tabla 4. Formas de asistencia en el método de extracción del aceite de café verde

Método Condiciones Equipo

Temperatura (°C) Tiempo

Extracción con ultrasonido

- Baño

10 – 20 20 - 40

minutos

Branson 3510,

Bransonic® m 3510R-

DTH 100W, 42 KHz

Extracción con ultrasonido

- Sonda

10 – 20 2 - 3

minutos

Operando a 20 KHz y

750 Vatios, sonda 1/8”

Microtip

Extracción por Soxhlet 40 - 60 2 - 3 horas Equipo de vidrio,

condensador de 50 mL,

balón fondo redondo de

50 mL

Page 52: Jhonathan David Pazmiño Arteaga

36

3.2.1 Fraccionamiento del aceite por cromatografía preparativa

El fraccionamiento del aceite de café verde se realizó utilizando cromatografía de columna y

cromatografía de capa fina. Para la primera, se utilizó una columna de vidrio de 25 cm de

largo y 5 cm de diámetro; la muestra fue preparada solubilizando 1000 mg de aceite en 3 mL

de hexano: acetato de etilo 6:1 y mezclando la muestra con 2 g de sílica gel; después de

evaporar el solvente la sílica gel impregnada fue utilizada como cabeza de columna. La fase

estacionaria fue sílica gel y se realizó la elución utilizando mezclas de hexano: acetato de

etilo como la fase móvil, las cuales fueron adicionadas como un gradiente descendente en

proporciones 6:1, 5:1, 4:1, 3:1, 2:1, 1:1; se usó 100 mL de cada composición. Se recolectaron

las fracciones a la salida de la columna tomando volúmenes independientes y consecutivos

de 20 mL cada uno para disponer de 30 fracciones diferentes.

La cromatografía de capa fina se llevó a cabo utilizando placas de sílica gel como fase

estacionaria y dos fases móviles diferentes, una de hexano: acetato de etilo 6:1 y la otra de

hexano: acetato de etilo 3:1; aproximadamente 5 mg de cada una de las fracciones separadas

en la columna se utilizaron como muestras. Las placas se observaron utilizando luz

ultravioleta y vapores de yodo como revelador.

3.3 Análisis espectroscópico por resonancia magnética nuclear

La preparación de las muestras requirió 25 mg de aceite de café disueltos en 550 µL de

cloroformo deuterado 0.03% volumen TMS (Merck®, MagnoSolv™), la solución se dispuso

en tubos de vidrio porta muestras de 7 pulgadas de longitud, 5 mm de diámetro externo y

0.43 mm de espesor de pared (Wilmad LabGlas®, USA).

Los experimentos de resonancia magnética nuclear se llevaron a cabo en el equipo Ascend™

600 (Bruker Corporation, USA). Las condiciones de operación del equipo fueron

programadas de forma automática (programa de pulsos zg30, número de puntos crudos TD

65536, número de scans 64, ancho espectral 8417,509 Hz, tiempo de adquisición 3.89

segundos).

Page 53: Jhonathan David Pazmiño Arteaga

37

La identificación y asignación de las señales características se realizó mediante los diferentes

experimentos de RMN; así, aceite de café: 1H, 13C, DEPT 135, COSY, HSQC y HMBC;

fracciones obtenidas mediante cromatografía preparativa, 1H. Los datos fueron exportados

por el equipo como archivos .1r spectrum y analizados utilizando los softwares MestReNova

(versión de prueba 9.0.1-13254) y el ACD Labs 11.0. (licenciamiento Universidad de

Antioquia).

3.3.1 Confirmación del método de extracción mediante 1H RMN

Utilizando una única muestra de café verde y considerando las tres formas de asistencia de

extracción presentadas en la sección “Acondicionamiento de las muestras para análisis

instrumental” se realizó la adquisición de los espectros de 1H RMN del aceite. Este ensayo

se realizó para determinar si la selección del método de extracción fue realizada

correctamente o si este podría generar alteraciones en la composición de los extractos de

aceite debido a los parámetros de operación, además de establecer la forma óptima de

preparación de muestras con el mejor uso de recursos, incluyendo el tiempo. El análisis de

los espectros normalizados se hizo de forma visual señal por señal.

3.3.2 Análisis lipidómico de muestras de café por resonancia magnética nuclear de

protones 1H RMN

130 muestras diferentes de cafés en pergamino (masas entre 700 g y 1000 g) procedentes de

diferentes regiones del departamento de Antioquia (Abejorral, Amalfi, Andes, Caicedo,

Ciudad Bolívar, Giraldo, Jericó, Santa Fe de Antioquia, Santo Domingo, Sonsón, Támesis y

Urrao) se recibieron directamente del Programa para la Especialidad del Café - PEC, una

iniciativa de la Federación Nacional de Cafeteros – Comité de Cafeteros de Antioquia, la

Cámara de Comercio de Medellín para Antioquia, la Fundación Fraternidad Medellín, el

SENA, el Laboratorio de Café, Comfama y las Cooperativas de Caficultores de los Andes,

Occidente y Salgar que convoca a los jóvenes caficultores del departamento a un programa

Page 54: Jhonathan David Pazmiño Arteaga

38

de formación y capacitación para que se vinculen a los nuevos emprendimientos en la

dinámica del Clúster de Café y se promueva el empalme generacional del sector.

El acondicionamiento y el análisis sensorial de las muestras fue realizado por el personal

experto de laboratorio de análisis sensorial de café en la empresa Racafé & CIA. S.C.A.

(Medellín - Antioquia). Los protocolos implementados para el análisis sensorial fueron los

mismos descritos en la sección “evaluación de cambios físicos y sensoriales de las muestras”.

Para realizar una aproximación a la evolución del defecto de reposo, se pidió a los catadores

que en el caso de encontrar el defecto de reposo puntuaran su intensidad en una escala de uno

a cinco, siendo uno leve pero perceptible y cinco muy intenso.

Las muestras de café pergamino (700 g-1000 g) fueron procesadas usando trilladora a escala

laboratorio (Trilladora M250, Magra), se obtuvo aproximadamente 600 g de café verde en

cada caso que se dividieron en porciones de 120 g. Las condiciones de almacenamiento

fueron recreadas empacando el café verde en bolsas plásticas de polietileno resellables (20

cm x 20 cm) (Figura 8). Las muestras fueron dispuestas uniformemente en armario metálico

de cinco niveles con aislamiento de la luz y llevar a cabo los experimentos de

almacenamiento (Figura 9).

Figura 8. Muestras de café verde acondicionadas para el almacenamiento natural

Page 55: Jhonathan David Pazmiño Arteaga

39

Figura 9. Espacio dispuesto para el almacenamiento de las muestras de café verde

Para la recolección de los datos se planteó un diseño de muestreo contemplando cinco

periodos de muestreo así: las muestras disponibles se rotularon con un identificador único

para realizar el muestreo en el tiempo de análisis específico; una muestra se refiere a una

bolsa con 120 g de café verde. En cada uno de los tiempos programados, aproximadamente

cada 30 días a partir del segundo mes de almacenamiento, se realizó una selección aleatoria

de 45 muestras sin repetición. Las 270 muestras obtenidas se clasificaron como muestras de

entrenamiento y fueron usadas posteriormente para construir el modelo de análisis de datos

metabolómicos.

Un segundo muestreo, donde se seleccionaron aleatoriamente sin repetición seis muestras

por tiempo de observación sin contar el tiempo inicial, formó el conjunto de muestras

denominado muestras para validación de las cuales solo se tuvo una observación en el

tiempo. En total se recolectaron 30 muestras.

Page 56: Jhonathan David Pazmiño Arteaga

40

Durante el estudio se registraron las condiciones de humedad relativa y de temperatura

ambiente en el lugar del almacenamiento, mediante un termohigrómetro con registrador de

datos (EA25 Easyview, Extech Instruments, USA).

Se modificó la cantidad de material utilizado para la extracción dado que se requiere poca

cantidad de muestra para la obtención de los espectros 1H RMN. Así, para disponer de una

única muestra de aproximadamente 25 mg de aceite, se usaron 500 mg del polvo de café

verde que se mezclaron con 1.0 mL de una solución hexano/éter de petróleo 1:1 (v/v) en un

tubo de microcentrífuga de 2 mL. Grupos de 32 tubos se dispusieron en el baño de ultrasonido

para la extracción; la filtración y el secado y se realizó según el protocolo antes descrito. La

adquisición de los espectros de 1H RMN se realizó utilizando los parámetros de adquisición

establecidos por el equipo (sección Análisis espectroscópico por resonancia magnética

nuclear).

3.3.3 Procesamiento de los espectros 1H RMN

El procesamiento de los espectros con el enfoque metabolómico de huella digital se realizó

según el protocolo reportado por Jacob et. al, con algunas modificaciones. Para procesar los

espectros de 1H RMN adquiridos en este trabajo se utilizó la herramienta computacional

NMRProcFlow: Spectral processing for 1D NMR - ver. 1.2.30 (https://nmrprocflow.org). El

software permite la visualización y la manipulación conjunta de los espectros de 1H RMN

permitiendo un tratamiento de la información automatizado y en un entorno visual amigable.

El módulo de procesamiento de los espectros está basado fundamentalmente en el uso de

algoritmos implementados en el software R. El entorno de visualización de la información

espectroscópica se basa en la generación de imágenes en formato PNG directamente desde

los datos binarios, para lo cual se hace uso del software open-source Gnuplot (Jacob et al.,

2017).

Los datos crudos de los espectros en el formato original del equipo Ascend™ 600

(TopSpin/X-winnmr, 1r spectrum - espectros crudos preprocesados) se cargaron al software

permitiendo que adquiera la información del preprocesamiento según los parámetros de

Page 57: Jhonathan David Pazmiño Arteaga

41

operación por defecto del equipo (transformación de Fourier y corrección de fase: frecuencia

espectral de referencia 600.13 MHz, ef LB = 0.3, FT_mod = 6, PKNL = 1, SI = 64K). Los

espectros fueron acompañados con un archivo de texto plano (.txt) que contenía la

información de identificación de cada muestra con relación al estudio de estabilidad. Un total

de 199 espectros fueron utilizados para construir dos matrices de características diferentes,

la primera con un conjunto de 176 espectros que se utilizaron para entrenar los modelos y la

segunda con un grupo de 23 espectros que corresponden a las muestras asignadas en el diseño

experimental como muestras para la validación.

Todo el proceso de alistamiento de los espectros se realizó sobre el conjunto de los espectros

de entrenamiento, en esta manipulación se generó un archivo de texto plano denominado

archivo de macroparámetros en el cual se condensan todas las instrucciones dadas al

software y es el que se utiliza para el procesamiento de los datos posteriores analizados por

el modelo desarrollado.

El primer paso del procesamiento de los espectros fue realizar la corrección de la línea base,

el valor de referencia para el ruido de fondo se estableció entre 10.5 ppm y 10.3 ppm, el

método utilizado fue global correction y high correction. Para generar la alineación de los

picos en todos los espectros adquiridos se requiere asignar una señal de referencia para el

desplazamiento químico, es decir realizar la calibración de la escala ppm; para ello se

seleccionó un doblete plenamente identificado en la etapa de asignación de las señales, el

protón número uno del kahweol que se ubica en 5.9 ppm. Después de seleccionar el pico de

referencia se requiere realizar un ajuste fino para completar el proceso. El espectro se trató

paso a paso, observando cada una de las señales de interés. La alineación se realizó

empleando el algoritmo de least square permitiendo una variación máxima relativa del 5%

(Tabla 5).

Page 58: Jhonathan David Pazmiño Arteaga

42

Tabla 5. Zonas del espectro de 1H RMN alineadas manualmente

Rango (ppm)

5.20 - 5.50

4.34 - 4.24

4.20 - 4.08

3.62 - 3.55

2.84 - 2.70

2.69 - 2.54

2.37 - 2.27

2.11 - 1.96

1.76 - 1.48

1.40 - 1.17

1.01 - 0.95

0.93 - 0.78

Las señales entre 7.22 - 7.32 ppm CDCl3 y (-0.20) - 0.20 ppm TMS fueron eliminadas por

no aportar información relevante al generar la matriz de características.

El proceso conocido como binning, realizado como paso final antes de obtener la matriz de

características o tabla de datos, fue realizado para definir los diferentes rangos o “cajas”

dentro los cuales se realizó la integración del espectro para así obtener un valor del área bajo

la curva, esto se realizó contemplando cuatro escenarios diferentes los cuales se pueden ver

en la Tabla 6. La región definida para capturar el ruido fue 10.3 ppm - 10.5 ppm y la relación

señal/ruido fue de tres. El rango del espectro considerado para el binning fue 8.00 ppm - 0.02

ppm para los cuatro escenarios.

Tabla 6. Métodos de binning aplicados a los datos espectroscópicos

Método Factor de

resolución

Amplitud

(ppm)

Uniforme NA 0.04

Page 59: Jhonathan David Pazmiño Arteaga

43

Inteligente 0.5 NA

Uniforme NA 0.02

Inteligente 0.3 NA

Después de generar la división de los espectros utilizando el binning se realizó la

normalización de los datos utilizando el método de Constant Sum Normalization el cual

considera el área total del espectro como el 100% y define el valor de cada zona del binning

como una porción de esta según sea el área de dichas zonas. Finalmente se realizó la

exportación de los datos en un archivo de texto plano (.txt).

Como se mencionó anteriormente, el conjunto de los 23 espectros de las muestras externas

se procesó con el archivo de macroparámetros generado arriba y se obtuvo también la matriz

de características correspondiente a estas muestras.

3.3.4 Análisis de los datos sensoriales e instrumentales y construcción de los modelos

de clasificación para café verde reposado y no reposado

La construcción de los modelos de aprendizaje automático para extraer la información desde

los datos espectrométricos se llevó acabo utilizando el software R (https://www.r-

project.org/) y una serie de paquetes acordes con cada análisis: dplyr, tidyr,

stringr para la manipulación de las estructuras de datos; ggplot2, factoextra,

pheatmap, rpart.plot para la construcción de gráficas y herramientas visuales;

caret, doParallel, caTools, rpart, randomForest para el procesamiento

de datos, construcción y validación de modelos.

Todos los análisis que implicaron procesos aleatorios fueron estandarizados utilizando

semillas de iniciación para obtener resultados reproducibles. Los modelos de clasificación

Random Forest se entrenaron utilizando todos los datos disponibles dado que debido a la

naturaleza de sus algoritmos este recurre a la validación cruzada y no es necesario realizar

una partición en datos de entrenamiento y prueba. Para la construcción del árbol de decisión,

se dividió el conjunto en 70% datos de entrenamiento y 30% datos de prueba considerando

Page 60: Jhonathan David Pazmiño Arteaga

44

las proporciones de cada categoría (reposo/ no reposo) en los grupos y generando divisiones

equilibradas.

3.4 Evaluación metabolómica del defecto de reposo en café verde por MALDI-ToF

(matrix-assisted laser desorption/ionization – time-of-flight)

Diferentes muestras de café en pergamino fueron recolectadas en municipios de los

departamentos de Nariño y Antioquia (Colombia), 65 muestras en total representan las

principales variedades botánicas de café sembradas en estas regiones, así como también

métodos de beneficio, altitudes de siembra y tiempo y condiciones de almacenamiento.

La clasificación entre café reposado y no reposado de las muestras se realizó mediante el

protocolo SCA, Laboratorio del Café del SENA La Salada (Caldas, Antioquia) (ver sección

Evaluación de cambios físicos y sensoriales de las muestras). El catador (x3) evaluó cinco

tazas por cada muestra de café y determinó la presencia o ausencia del defecto de reposo. A

las muestras que presentaron el defecto se les realizó la descripción sensorial individual. Los

evaluadores no tuvieron ningún tipo de información de identificación de las muestras antes

de realizar la evaluación. Después de la catación, las muestras de café verde fueron separadas

en dos grupos, las que presentaron el defecto de reposo y las que no lo presentaron; un

kilogramo de cada muestra de café verde se almacenó en bolsas Ecotact® a 4 °C hasta el

análisis químico.

3.4.1 Análisis MALDI-ToF MS

El proceso de extracción del aceite se realizó según el protocolo presentado en la sección

“Acondicionamiento de las muestras para análisis instrumental” utilizando dos gramos de

café verde en polvo. El líquido recuperado se transfirió a viales de vidrio de masa conocida

y se secó usando una corriente de nitrógeno gaseoso, la masa del aceite de café verde se

determinó por diferencia de peso.

Page 61: Jhonathan David Pazmiño Arteaga

45

El método de espectrometría de masas MALDI-ToF fue optimizado partiendo del reportado

por Kaufman & Wiesman (2007) buscando obtener una cristalización homogénea y regular

de la mezcla matriz-analito. Cada una de las muestras de aceite de café verde se disolvieron

en una mezcla de cloroformo/metanol 2:1 (v/v) hasta una concentración final de 1.0 mg/mL.

Una solución de ácido 2,5-dihidroxibenzóico en acetonitrilo (20 mg/mL) se usó como matriz

MALDI. El aceite de café verde y la matriz se mezclaron en relación de 1:1 y 1.0 μL de la

mezcla fue dispuesta sobre una placa porta muestras de acero (Bruker Daltonik, Bremen,

Alemania) que se llevó al equipo de análisis, la placa tenía una capacidad de 384 pozos para

analizar diversas muestras en un solo ciclo de lecturas. Las muestras se analizaron en un

espectrómetro de masas Autoflex III smartbeam MALDI-ToF (Bruker Daltonik, Bremen,

Alemania). Para el MALDI se utilizó un láser de nitrógeno a 337 nm y un voltaje de

aceleración de 20 kV.

Para realizar una correcta adquisición de los espectros de masas, y contando con la

posibilidad operativa que permite el equipo instrumental, se realizó un promedio de cinco

disparos del láser de nitrógeno sobre diferentes secciones de la muestra cristalizada, en cada

disparo se realizó la adquisición del espectro y el promedio de estos fue considerado como

el espectro de la muestra. Los espectros se adquirieron en modo reflectron contemplando un

rango de masa/carga desde 550 hasta 1600 y la mezcla de calibración utilizada contenía seis

analitos con masas de referencia entre 260.1645 m/z y 1570.6700 m/z. La supresión de la

matriz se realizó debajo de los 500 m/z usando deflection. Para distribuir homogéneamente

las variaciones debido a las diferencias en la extracción del aceite, la cocristalización de las

muestras en la placa de medida y las mediciones en el instrumento, las muestras se analizaron

en tres días diferentes asignando a cada día muestras de forma aleatoria.

3.4.2 Procesamiento de los datos espectrométricos

Los datos crudos de la espectrometría de masas MALDI-ToF se convirtieron en archivos de

extensión .mzXML utilizando la versión gratuita del software msconvert (Kessner et al.,

Page 62: Jhonathan David Pazmiño Arteaga

46

2008). Para el procesamiento de los datos se utilizó el lenguaje estadístico R (https://www.r-

project.org/) y el paquete para R MALDIquant (Gibb & Strimmer, 2012).

Los datos numéricos crudos representan la versión visual de un espectro de masas que

relaciona la intensidad vs la masa/carga. En el proceso de trasformación detallado en esta

sección se relacionan los espectros de masas asociados con todas las muestras de aceite de

café bajo estudio.

Las magnitudes de la intensidad de cada señal se transformaron usando el método

logarítmico. Para el suavizado de la señal se aplicó un filtro SavitzkyGolay. La corrección de

la línea base fue realizada con el algoritmo TopHat. Los datos fueron normalizados usando

la corriente total de iones (TIC). Para optimizar el procesamiento de los datos buscando

obtener la mejor matriz de características, se generó una malla de prueba (grid), es decir una

tabla con todas las posibles combinaciones de parámetros a optimizar, la cual contó con 800

combinaciones diferentes a testear (Tabla 7), cada combinación resultó en una matriz de

características particular.

Tabla 7. Parámetros de proceso evaluados en los datos espectrométricos

Parámetro Valores

Método de estimación del ruido MAD; SuperSmoother

Relación señal-ruido 3; 4; 5; 6

Ventana de detección de picos (m/z) 5; 10; 15; 20; 30

Tolerancia del binning (m/z) 100; 10; 1; 0.01; 0.001

Mínima frecuencia de remoción de picos 0.1; 0.2; 0.3; 0.4

3.4.3 Análisis y modelo de clasificación para el café verde reposado/no reposado

El análisis multivariado de los datos espectrométricos se llevó a cabo mediante el software

R (https://www.r-project.org/) y diversos paquetes según el tipo de análisis. Se realizaron

análisis de varianza y detección de valores atípicos; análisis de componentes principales

Page 63: Jhonathan David Pazmiño Arteaga

47

(paquetes de R stats y factoextra) y análisis de grupos no supervisado (paquetes de

R purrr, cluster, dendextend y ggplot2).

La exploración de un modelo de clasificación supervisado se realizó usando los datos

espectrométricos del perfil lipidómico del café verde y el algoritmo de Random Forest

implementado en el paquete de R randomForest (Breiman, 2001; Liaw & Wiener, 2002).

Los modelos se construyeron usando como etiqueta objetivo la condición sensorial de los

dos grupos de muestras, es decir si tenían o no reposo, se consideraron todos los valores de

masa/carga como las variables de entrada. El Random Forest de cada modelo alimentado con

los datos de las 800 matrices de características de forma independiente se diseñó utilizando

1000 árboles de decisión como hiperparámetro. El promedio de los errores de clasificación

OOB (out-of-bag error) y la matriz de confusión se utilizaron para comparar el desempeño

de los modelos construidos.

Page 64: Jhonathan David Pazmiño Arteaga

48

4. RESULTADOS Y DISCUSIÓN

4.1 Evaluación del impacto de los factores del almacenamiento en el café verde

La caracterización de las muestras de café verde lavado y semilavado sin almacenamiento,

denominadas muestras frescas, mostró que el contenido de agua de los granos de ambos

beneficios se encuentra entre el 10% y el 12% indicando que el producto cumple con el

criterio de seguridad y de comercialización (Ribeiro et al., 2011). Según la distribución del

tamaño de las semillas el 65% del total de los granos verdes o excelsos fueron retenidos en

las mallas número 17 y 18 para los dos tipos de beneficio, clasificando así el café verde como

Supremo. En cuanto a la caracterización del color, el parámetro a* indicador del balance

entre el rojo y el verde fue 2.5 veces más alto en el café excelso semilavado que en el lavado,

tal como se esperaba debido que el método de beneficio conserva el mucílago adherido sobre

el pergamino del grano durante el secado y este adquiere tonalidades entre naranja y marrón

en función del tiempo que se aplica este proceso (Waters et al., 2015); los otros parámetros

de color L* y b* no mostraron diferencias entre dichas muestras. El aspecto visual de las

muestras se presenta en la Figura 10.

Café semilavado en pergamino Café lavado en pergamino

Café verde semilavado

Café verde lavado

Figura 10. Muestras del café verde bajo estudio.

Page 65: Jhonathan David Pazmiño Arteaga

49

En la Tabla 8 se resume los resultados del contenido de agua y de color (escala CIE L* a*

b*) de las muestras de café verde fresco y de café verde almacenado en las distintas

condiciones, tanto naturales como forzadas. En cuanto a los cambios físicos promovidos por

las condiciones de almacenamiento forzadas (ciclos de temperatura, humedad relativa, luz y

oxígeno), los datos evidencian que, sin distingo del tipo de beneficio, el efecto de la

temperatura produjo una disminución drástica del contenido de agua, lo cual es un resultado

razonable. El efecto de la humedad relativa, como condición de almacenamiento, solo se

manifestó en las muestras de café lavado, el hecho de que las muestras de café semilavado

no se alteren en ambientes húmedos no era esperado y sugiere que este método de beneficio

puede alterar el exterior del grano y hacerlo menos permeable a la transferencia de humedad.

La luz no afectó ninguno de los parámetros evaluados en el café lavado, pero en el café

semilavado provocó cambios en las coordenadas L* y b* haciendo que estas aumentaran en

comparación con el café fresco; el efecto se observó en el mismo sentido que para las otras

variables de almacenamiento y dejó ver que el seguimiento del color en el café semilavado

podría ser una herramienta adecuada para monitorear los procesos de almacenamiento.

Finalmente, el almacenamiento en ambiente saturado de oxígeno no provocó cambios en el

color de los granos de café lavado, pero si en el semilavado.

Tabla 8. Caracterización física del café verde fresco y del café verde sometido a diferentes

ciclos y condiciones de almacenamiento

Beneficio Tratamiento Contenido

de agua

(%)

Color

L* a* b*

Lavado Fresco: sin

almacenamiento

10 ± 1 42,22 ± 2,6 0,88 ± 0,5 14,33 ± 1,4

Almacenamiento

naturala

11 ± 1 43,76 ± 2,6 1,16 ± 0,6 16,21 ± 1,5

Ciclos de

temperatura

4 ± 2** 45,61 ± 2,8** 0,71 ± 0,7 17,77 ± 1,6**

Ciclos de

humedad

14 ± 1** 50,73 ± 2,9** 1,07 ± 0,7 18,63 ± 1,6**

Page 66: Jhonathan David Pazmiño Arteaga

50

Ciclos de luz 10 ± 1 43,75 ± 2,2 0,75 ± 0,7 15,29 ± 1,7

Oxígeno 12 ± 1** 44,61 ± 2,4 0,76 ± 0,6 15,65 ± 1,6

Semilavado Fresco: sin

almacenamiento

11 ± 1 39,25 ± 2,6 2,21 ± 0,4 15,88 ± 1,3

Almacenamiento

naturala

12 ± 1 45,64 ± 0,8** 1,55 ± 0,2** 18,85 ± 1,6**

Ciclos de

temperatura

6 ± 2** 44,80 ± 2,6** 1,89 ± 0,5 19,28 ± 1,4**

Ciclos de

humedad

12 ± 1 45,98 ± 2,6** 2,75 ± 0,5 19,72 ± 1,4**

Ciclos de luz 10 ± 1 45,96 ± 2,7** 2,14 ± 0,9 18,38 ± 1,5**

Oxígeno 12 ± 1 45,60 ± 2,6** 1,92 ± 0,3 18,07 ± 1,1**

Media ± sd. n = 5. ** p-valor < 0,05. a Condiciones ambientales: Medellín-Antioquia, marzo-

mayo de 2017

Los cambios en los parámetros del color durante el almacenamiento mostraron en general un

aumento de la luminosidad L* de las muestras, excepto para el café lavado almacenado bajo

condiciones de luz y de oxígeno. En el caso del parámetro de color a*, este fue el que menos

cambios registró en función de los tratamientos de almacenamiento, presentando solo una

disminución significativa en la muestra del café semilavado almacenada en condiciones

ambientales, la cual disminuyó su tono rojo-naranja. La coordenada b* aumentó para todos

los tratamientos de almacenamiento del café semilavado y para la temperatura y la humedad

en el café lavado, tornándose los granos un poco más amarillos durante el almacenamiento.

La evaluación del color es uno de los métodos que se han propuesto como indicadores de

cambios en la calidad del café verde, los catadores reconocen la pérdida de la intensidad del

tono verde como como un indicador de que el café está envejeciendo, sin embargo, dada la

existencia actual de nuevos métodos de poscosecha y de la variabilidad de los granos de café,

un estudio instrumental del color se hace pertinente. Observaciones diferentes a las

registradas en este trabajo fueron reportadas por Ribeiro et al., (2011) para café verde de

Brasil (no reporta método de beneficio) sometido a almacenamiento por 12 meses. La

luminosidad y la coordenada b* no cambiaron con el tiempo, sin embargo, el parámetro a*

Page 67: Jhonathan David Pazmiño Arteaga

51

presentó disminución. En otro estudio realizado por Broissin-Vargas et al., (2017), se

encontró que el café verde lavado (Coffea arabica) de México almacenado durante un año

en condiciones ambientales, cambió su coloración (cromaticidad) tornándose blanquecino,

los autores hacen alusión a diferentes aspectos asociados como los cambios enzimáticos,

químicos, celulares y microbiológicos.

La perfilación sensorial de las muestras se detalla en la Figura 11. Se evidenciaron algunas

diferencias entre las calificaciones asignadas para el café fresco lavado y semilavado: el café

lavado presentó notas a panela, sabor cítrico, cuerpo ligero y residual limpio; mientras que el

café semilavado sabor vinoso, fruta madura y chocolate. Se determinaron también los

atributos sensoriales del café después de ser almacenado, en las muestras se encontraron

notas a madera, papel, paja y óxido para todos los tratamientos de almacenamiento forzado;

bajo las condiciones de almacenamiento natural a 10 semanas no se observaron estos

descriptores. Las notas sensoriales descritas tienen cualidades negativas y son las

características de un café que ha sufrido pérdida de calidad por almacenamiento o

envejecimiento y que en conjunto se denominan reposo, término que se seguirá usando en

este documento.

Figura 11. Análisis sensorial de las muestras sometidas a estabilidad.

A) café lavado. B) café semilavado. *Cada línea representa la evaluación promedio

realizada por tres catadores

El análisis sensorial reveló diferencias en el perfil de las muestras sometidas a tratamientos

de almacenamiento forzado en función del método de beneficio: i) se observó que el

Page 68: Jhonathan David Pazmiño Arteaga

52

almacenamiento en ambientes húmedos disminuyó la calidad sensorial de los dos tipos de

café, siendo el café lavado mucho más sensible y generando así la muestra con la peor

calificación sensorial global, tal efecto negativo también fue observado y referenciado

anteriormente (Ribeiro et al., 2011). ii) la exposición a una atmósfera saturada de oxígeno no

generó pérdida de la calidad sensorial del café lavado, mientras que en el café semilavado

constituyó el factor de aceleración más significativo que promovió el detrimento de la calidad

sensorial. El sometimiento de las muestras a ciclos de temperatura generó en el café lavado

que la calidad global disminuyera, pero en el café semilavado no sé observó el mismo efecto.

De forma adicional, se evaluaron sensorialmente las muestras almacenadas bajo condiciones

naturales después de transcurridos diez meses. Se encontró el defecto de reposo que fue

descrito con los mismos atributos sensoriales encontrados en las muestras sometidas al

almacenamiento forzado durante diez semanas, lo que sugiere que los procesos de

envejecimiento natural pueden ser simulados por condiciones forzadas.

4.2 Acondicionamiento de las muestras para análisis instrumental

Derivado del trabajo que se realizó en el almacenamiento forzado, se identificó

sensorialmente que la muestra con la pérdida más intensa en los atributos de calidad fue el

café lavado que se sometió al factor de humedad por 10 semanas, las calificaciones promedio

de la evaluación sensorial se pueden ver en la Figura 11; esta muestra de café presentó todos

los descriptores característicos del reposo: nota a cereal, a paja, a madera, a papel, a viejo;

sabor oxidado y residual astringente y por tanto esta fue la muestra seleccionada para

continuar con el estudio y que en lo sucesivo será llamada como muestra de café reposado.

A la muestra de café verde seleccionada se le realizó la extracción de los componentes de

interés (fracción lipídica) utilizando diferentes métodos reportados en la literatura, el clásico

y ampliamente utilizado es la extracción con hexano utilizando reflujo en soxhlet y la

extracción usando ultrasonido como método de asistencia, se evaluó en dos modalidades el

equipo estándar de baño de agua y una sonda individual. En todos los métodos se obtuvo un

Page 69: Jhonathan David Pazmiño Arteaga

53

líquido oleoso color amarillo claro, con un notable olor característico a grano verde tipo

arveja. El aceite fue fluido, poco viscoso, suave al tacto y a -10 °C no solidificó (Figura 12).

Figura 12. Aceite de café verde

El rendimiento en cada una de las extracciones evaluadas se resume en la Tabla 9. Una

comparación cuantitativa deja ver que no hay una diferencia apreciable en cuanto a la

elección de uno u otro método, el rendimiento promedio en masa fue de 6%, esta cantidad es

consistente con los rendimientos reportados en la literatura, que comprenden entre 5% y 10%

según el método de extracción y el solvente utilizado (Jham et al., 2001; Nikolova-

Damyanova et al., 1998; Patui et al., 2014; Speer & Kölling-Speer, 2006). El uso del soxhlet

presentó inconvenientes en cuanto a la elevada cantidad de material vegetal y de solvente

requerido además del gasto energético asociado a las temperaturas elevadas. Tomando en

consideración la necesidad del procesar una gran cantidad de muestras, el uso de recursos y

la logística de los análisis, se decidió utilizar la extracción con asistencia del baño de

ultrasonido; de esta manera la extracción de 500 mg de café verde molido permitió la

obtención de mínimo 25 mg de aceite de forma consistente.

Tabla 9. Rendimiento en la extracción del aceite de café verde

Método *Porcentaje de rendimiento (m/m)

Extracción con ultrasonido (baño) 6

Extracción con ultrasonido (sonda) 6

Extracción por Soxhlet 7

*n= 5

Page 70: Jhonathan David Pazmiño Arteaga

54

4.2.1 Fraccionamiento del aceite por cromatografía preparativa

El estudio metabolómico de 1H RMN fue apoyado con los ensayos de cromatografía de

columna y de capa fina. Con la cromatografía de columna se fraccionó el aceite de café y se

obtuvieron 17 porciones de 20 mL cada una. Las fracciones obtenidas se observaron también

en placas de cromatografía de capa fina (TLC), así se identificaron fracciones comunes y se

redujeron hasta disponer de siete porciones etiquetadas desde F1 hasta F7. Después de

observar bajo luz ultravioleta y revelar con vapores de yodo, las placas TLC de las siete

fracciones revelaron la existencia de al menos cinco grandes grupos de compuestos con

factores de retención que pueden observarse en la Figura 13.

Figura 13. Cromatografía de capa fina fracciones aceite de café verde reposado

4.3 Análisis espectroscópico por resonancia magnética nuclear

La asignación de las señales del espectro 1H RMN se realizó utilizando una combinación de

diferentes estrategias: la comparación con referencias bibliográficas, la adquisición y análisis

de espectros bidimensionales, el uso de software especializado para simulación y el análisis

de las fracciones cromatográficas enriquecidas. Los espectros de carbono y bidimensionales

se muestran en el Anexo 1.

Page 71: Jhonathan David Pazmiño Arteaga

55

La adquisición del espectro del aceite de café verde reposado arrojó el perfil lipidómico que

puede verse en la Figura 14. El espectro completo con una extensión que va desde 0.7 ppm

hasta 8.0 ppm se dividió en tres secciones en las cuales se lograron identificar señales

particulares asociadas a familias de compuestos que contiene el aceite de café verde.

Figura 14. Perfil lipidómico 1H RMN del aceite de café verde

En la zona en campo bajo, limitada de 8.0 a 5.8 ppm se asignaron las señales características

de dos compuestos representativos del café, los diterpenos denominados cafestol y kahweol

(Figura 15).

Figura 15. Perfil lipidómico 1H RMN del aceite de café verde - Zona campo bajo

Page 72: Jhonathan David Pazmiño Arteaga

56

En la asignación de las señales se identificó que el protón del carbono 19 del kahweol se

solapa con la señal del protón residual del solvente deuterado, sin embargo, las señales de los

protones H-1, H-2 e H-18 son visibles y se encuentran despejadas; las señales de los protones

del cafestol H-18 y H-19 son las señales que en esta zona del espectro diferencian a las dos

moléculas (Lucia et al., 2009).

En la segunda zona, en campo medio, entre 5.8 y 4.0 ppm se lograron identificar y asignar

las señales correspondientes a algunos protones de los acilglicéridos (Figura 16); las tres

señales que dan cuenta de los tres metilenos del glicerol; así mismo, se identificó en esta zona

la señal característica de los protones olefínicos, aquellos que componen parte de la estructura

de los dobles enlaces carbono-carbono. Cabe destacar que esta señal no solo se refiere a los

dobles enlaces contenidos en los acilglicéridos sino también en cualquier compuesto que en

su estructura posea insaturaciones de este tipo.

Figura 16. Perfil lipidómico 1H RMN del aceite de café verde - Zona campo medio

A campo alto, en la tercera zona que comprende desde 4.0 a 0.7 ppm se identificaron las

señales que corresponden a los diferentes tipos de protones encontrados en las cadenas

carbonadas de los ácidos grasos (Figura 17). Los protones bisalílicos se identificaron en 2.8

ppm; los protones del carbono alfa y beta al carbonilo en 2.3 ppm y en 1.6 ppm

respectivamente; los alfa olefínicos entre 2.0 ppm y 2.1 ppm; los alifáticos entre 1.2 ppm y

1.4 ppm; los metílicos en 0.9 ppm y los protones metílicos de ácidos grasos omega 3 en 1.0

ppm.

Page 73: Jhonathan David Pazmiño Arteaga

57

Figura 17. Perfil lipidómico H RMN del aceite de café verde - Zona campo alto

La evaluación del espectro 1H RMN de cada una de las fracciones obtenidas en la

cromatografía permitió disponer de herramientas para observar en qué tipos de compuestos

se encontraban enriquecidas (Figura 18). Las señales de los diterpenos se encontraron con

mayor intensidad en las fracciones F2 y F3. La señal asignada al protón H-2 del esqueleto de

glicerol (TAG2 - 5,26 ppm) solo se pudo ver en la fracción F1. En la zona entre 4,0 ppm y

4,4 ppm donde se identificaron los protones TAG1 y TAG3 se observaron muchas más

señales de intensidades muy bajas menguadas por la magnitud de los protones del esqueleto

del glicerol. La señal de los protones bisalílicos se encontró en todas las fracciones, pero con

mayor intensidad relativa en la fracción F1. Los protones metílicos-omega 3 mostraron

mayor abundancia relativa en las fracciones F2 y F3. Dado que el objetivo de este estudio

era contemplar la huella lipidómica completa, no se continuó con el fraccionamiento hasta la

identificación de compuestos.

Page 74: Jhonathan David Pazmiño Arteaga

58

Figura 18. Espectros 1H RMN fracciones cromatográficas

4.3.1 Confirmación del método de extracción mediante 1H RMN

Conocido el espectro de 1H RMN se utilizó este método como herramienta para determinar

que los procedimientos de extracción generaran los mismos perfiles y fundamentar la

selección del método de extracción elegido. En la Figura 19 se observan algunas zonas con

señales previamente asignadas de los espectros 1H RMN superpuestos de los extractos

obtenidos con los diferentes métodos de extracción. Cabe notar que el espectro de la muestra

de aceite extraída utilizando soxhlet es levemente más intenso, lo que se explica por las

condiciones intensas de temperatura y tiempo propias de esta técnica. Después de la

inspección de los espectros se concluyó que el extracto lipídico obtenido por los diferentes

métodos contiene compuestos de la misma naturaleza según su perfil de huella digital. Por

tanto, no se cambió la decisión de seleccionar como método de extracción el uso de asistencia

con baño de ultrasonido.

Page 75: Jhonathan David Pazmiño Arteaga

59

Figura 19. Espectros de 1H RMN del aceite de café verde extraído por varios métodos

4.3.2 Análisis lipidómico de muestras de café por resonancia magnética nuclear de

protones 1H RMN

En este estudio se recogieron 130 muestras de café verde de diferentes orígenes geográficos,

variedades vegetales y procesos de beneficio poscosecha (Tabla 10), todas estas variables

influyen en las características sensoriales que expresa en café tostado en la bebida y a su vez

son factores que podrían ser relevantes en el proceso de pérdida de la calidad durante el

almacenamiento.

Tabla 10. Características del café verde usado en el estudio lipidómico por 1H RMN

Municipios Variedades Poscosecha

Abejorral, Amalfi, Andes,

Caicedo, Ciudad Bolívar,

Giraldo, Jericó, Santafé de

Antioquia, Santo Domingo,

Sonsón, Támesis, Urrao.

Castillo, Catimor, Caturro,

Colombia, Tabi, Variedad

2000, Borbon.

Lavado, natural,

semilavado amarillo,

semilavado rojo,

semilavado negro.

La nube de palabras (Figura 20) muestra de forma condensada los descriptores sensoriales

que fueron usados con mayor frecuencia cuando se realizó la evaluación sensorial de las

muestras frescas, previo al inicio del almacenamiento. Resaltaron los atributos chocolate,

dulce, cítrico y panela, que son los que comúnmente se reportan para el café colombiano.

Page 76: Jhonathan David Pazmiño Arteaga

60

Figura 20. Descriptores sensoriales usados en la perfilación de las muestras de café

Algunas de las muestras suministradas para el estudio no contaron con la descripción

sensorial dado que no cumplían con los niveles de contenido de agua establecidos para un

café comercial y por tanto no fueron catadas ni incluidas en el estudio; adicionalmente,

algunas muestras presentaron descriptores sensoriales de baja calidad y/o tuvieron problemas

en el tueste lo cual hizo que se las excluyera del estudio de almacenamiento planteado en este

trabajo. De las 130 muestras recibidas de café verde, en el tiempo inicial del estudio se

debieron dejar por fuera 26 muestras.

Dado que el enfoque de este estudio fue el fenómeno de envejecimiento del café verde, las

104 muestras almacenadas fueron analizadas en diferentes tiempos por RMN (adquisición de

espectro de protón) y por evaluación sensorial (presencia/ausencia del defecto de reposo).

Durante el tiempo del estudio se realizó el monitoreo de las condiciones de almacenamiento,

en la Figura 21 se observa el comportamiento de la temperatura y la humedad relativa en

dicho periodo. El sitio de almacenamiento del café verde representó el lugar estándar que

podría usarse en la cadena productiva siendo la ciudad de Medellín un punto medio de

tránsito del producto antes de ser exportado; los puntos máximos y mínimos fueron de 27.3

°C y 24.5 °C para la temperatura y de 67.9% y 55.9 % para la humedad relativa.

Page 77: Jhonathan David Pazmiño Arteaga

61

Figura 21. Condiciones ambientales registradas en el almacenamiento natural

El estudio del comportamiento del café verde durante el almacenamiento natural se diseñó

teniendo en cuenta la construcción de un modelo de clasificación que utilizando un algoritmo

Random Forest permitiera obtener información espectroscópica encaminada a discriminar el

café verde según la presencia/ausencia del defecto de reposo. Además, se dispuso de algunas

muestras adicionales que permitieran verificar el comportamiento del modelo desarrollado.

Las muestras de café verde fueron divididas en dos subconjuntos:

a) Entrenamiento, que constó de muestras observadas varias veces en el tiempo y con

las cuales se construyeron los modelos de clasificación.

b) Validación, conformado por muestras observadas una sola vez en el tiempo y con las

cuales se verificó el desempeño de los modelos desarrollados.

En total, los datos completos disponibles (1H RMN - sensorial) para las muestras del grupo

de entrenamiento fue de 176, de las cuales 102 muestras se etiquetaron con reposo y 74

muestras sin reposo y para el grupo de validación se dispuso de un total de 23 muestras, 15

muestras con reposo y 8 muestras sin reposo.

Lastimosamente, el número de datos disponibles fue inferior al número de muestras recogidas

dado que durante el desarrollo del estudio se presentaron dificultades logísticas que

impidieron que el análisis de 1H RMN y la evaluación sensorial se realizaran al mismo

Page 78: Jhonathan David Pazmiño Arteaga

62

tiempo. Esto aunado al hecho de no existe un método para detener el envejecimiento del café

verde, terminó reduciendo la cantidad de muestras disponibles para los análisis en la fase de

construcción de los modelos.

4.3.3 Procesamiento de los espectros 1H RMN

Los espectros de las muestras del estudio de almacenamiento mostraron el mismo perfil de

los observados en la fase de asignación de las señales. La inspección de los espectros crudos

dejó ver la variabilidad existente entre ellos; se observaron diferencias en torno a la

intensidad y el desplazamiento químico de las señales, el primer fenómeno se debió a las

pequeñas diferencias en cuanto a la cantidad de aceite extraído de cada muestra, el segundo,

está relacionado con la variabilidad que es inherente al método de extracción y a la técnica

instrumental; sin embargo, no se identificaron señales diferentes entre los perfiles lipídicos

de las muestras de café verde analizadas, esto implica que la metodología de extracción y

preparación de las muestras es adecuada; observar señales así indicaría la presencia de

compuestos de naturaleza diferente, tanto endógenos como exógenos. En la Figura 22 pueden

verse las señales de los 176 espectros crudos solapados, correspondientes a los protones del

esqueleto del glicerol (TAG1 y TAG3), cada señal corresponde a un par de dobletes, sin

embargo, al apilar los espectros crudos parece que se tienen muchas más señales que las

indicadas; el análisis de cada espectro de forma independiente asegura que las señales

corresponden a los protones antes identificados y por tanto hace necesario corregir el

desplazamiento antes de realizar los análisis posteriores.

Page 79: Jhonathan David Pazmiño Arteaga

63

Figura 22. Espectros crudos 1H de todas las muestras de aceite de café verde

Se utilizaron diferentes técnicas computacionales para el procesamiento de los espectros

enfocadas en estandarizar la información y en construir una tabla de datos adecuada para los

análisis estadísticos posteriores. Las tablas de datos generadas con las señales de los espectros

de 1H RMN, reciben el nombre de matrices de características dado que en los análisis de

machine learning las variables independientes o columnas de la tabla son denominadas

características (features). La construcción de estas matrices toma en cuenta la información

conjunta de todos los espectros que se procesan en ese momento y la unifica de modo que

todas las muestras tengan las mismas variables y que para estas exista una medida o valor.

Todos los pasos relacionados al procesamiento de las señales y a la determinación de los

macroparámetros, que son descritos a continuación, se realizaron considerando el conjunto

de 176 espectros definidos para la construcción del modelo. Se realizó el ajuste o corrección

de la línea base logrando establecer correctamente el cero en intensidad de los espectros y

garantizando una medida uniforme del área bajo la curva; el tratamiento realizado a los

espectros aplicó el algoritmo de corrección global (Bao et al., 2012) y se indicó la zona del

espectro entre 10.3 ppm y 10.5 ppm para la estimación del nivel de ruido.

La Figura 23-A muestra las diferencias en el desplazamiento químico de los datos crudos

para una señal particular (d, H-1 kahweol). Se realizó la alineación de los espectros en dos

pasos: el primero, la calibración de la escala del desplazamiento químico para la cual se usó

Page 80: Jhonathan David Pazmiño Arteaga

64

el doblete del protón uno de kahweol, en la Figura 23-B se observan los espectros alineados;

el procedimiento más común es usar la señal del solvente pero como se mencionó

anteriormente, dado que esta señal estaba solapada con la señal H-19 del kahweol, se prefirió

usar otra señal en la misma zona del espectro.

La calibración de la escala por sí misma alinea algunas señales, pero además se requiere

realizar un proceso manual donde se realiza una inspección visual de cada señal particular y

se procesa de forma independiente. La alineación del conjunto de espectros requiere definir

un espectro de referencia, en el caso del algoritmo utilizado la referencia se define como el

espectro promedio. En la Figura 23-C se observa el efecto de la alineación manual para la

señal de los protones del carbono alfa al carbonilo identificados en las cadenas alifáticas de

los ácidos grasos. La línea vertical negra conecta las crestas del pico más alto en intensidad

y permite observar el sutil desplazamiento y posterior corrección después de que se aplicó la

alineación.

A. Espectros crudos

Page 81: Jhonathan David Pazmiño Arteaga

65

B. Calibración de la escala ppm

C. Alineación de las señales manualmente (antes)

Alineación de las señales manualmente (después)

Page 82: Jhonathan David Pazmiño Arteaga

66

D. Binning uniforme con amplitud de 0.02 ppm

Figura 23. Procesamiento de las señales espectroscópicas de 1H RMN

Después de realizar los pasos mencionados se dispuso de la información espectroscópica

adecuada para el estudio posterior, se requirió la división de la información completa en

partes más pequeñas que pudieran ser objeto de análisis. La división o fraccionamiento de

los espectros se hizo definiendo rangos en la escala del desplazamiento químico bajo los

cuales se realizó la integración del espectro y se obtuvo un dato conformado por la pareja

rango – área; este proceso se denomina binning dado que los rangos, porciones o espacios en

los que se divide el espectro toman el nombre de bins. En la Figura 23-D se puede ver una

representación gráfica del proceso descrito, las señales de los protones olefínicos y del protón

central del esqueleto glicerol (TAG2) entre 5.2 ppm y 5.5 ppm con una amplitud de 0.3 ppm

se dividieron en 15 bins regulares de 0.02 ppm de ancho, que representan el binning

uniforme; el binning inteligente fue realizado de manera automática por el software de

procesamiento definiendo los rangos de los bins según el método de binning inteligente

adaptativo (De Meyer et al., 2008), con el cual se busca que cada bin contenga el área común

para una señal particular y se evite así dividir señales arbitrariamente. En total se aplicaron

cuatro estrategias para definir los bins, el método uniforme con amplitud 0.02 ppm y 0.04

ppm y el método inteligente con resolución 0.3 ppm y 0.5 ppm. El binning realizado permitió

generar las matrices de características usadas en los análisis estadísticos posteriores.

Page 83: Jhonathan David Pazmiño Arteaga

67

El paso previo antes de la generación de cada matriz de características fue corregir la

variación de la intensidad entre los diferentes espectros, esto se realizó normalizando el área

de cada bin con relación al área total de todo el espectro (método de normalización de suma

constante), así se hizo que las áreas de los bins fueran expresadas de forma relativa a cada

muestra, permitiendo realizar comparaciones entre estas.

Finalmente, se exportó la matriz de características (archivo de texto plano separado por

tabulación) como una tabla de datos compuesta de n filas que corresponden a las muestras en

estudio y a k columnas con los valores de cada una de los bins generados; cada celda o entrada

de la matriz corresponde al área bajo la curva del espectro definido en el k-ésimo bin para la

n-ésima muestra. Adicionalmente se incorporó a la tabla las variables de identificación

correspondientes a cada muestra, el tiempo de almacenamiento y los resultados de la

evaluación sensorial en términos dicotómicos para la percepción del reposo: si (Y) o no (N)

y de forma discreta para la intensidad del mismo, escala de uno a cinco; el encabezado de

una de las matrices de características se puede ver en la Tabla 11.

Tabla 11. Estructura de las tablas de datos denominadas matrices de características

Muestra Código

interno

Tiempo de

almacenamiento

(días)

Reposo Nivel de

intensidad

(reposo)

B1 B2 Bn

N001 23 77 N 0 32.3446 403.3774 …

N002 37 77 Y 1 362.3214 666.8376

N003 39 77 Y 5 38.3650 521.9444

N004 42 77 Y 5 234.8211 487.0001

La identificación de cada uno de los bins se realizó con la matriz de información

correspondiente a la ubicación en el eje del desplazamiento químico: mínimo, máximo y

centro de cada bin (Tabla 12).

Page 84: Jhonathan David Pazmiño Arteaga

68

Tabla 12. Identificadores de los bins generados

Bin Centro Mínimo Máximo Ancho

B1 7,5468 7,5367 7,5569 0,020

B2 7,5271 7,5175 7,5367 0,019

B3 7,5040 7,4905 7,5175 0,027

B4 7,4392 7,4205 7,4578 0,037

B5 7,4044 7,3959 7,4128 0,017

4.3.4 Descripción de los cambios de la calidad del café verde en función de los datos

sensoriales

El comportamiento de las muestras en cuanto a la manifestación del defecto de reposo se

puede apreciar observando la frecuencia relativa para cada uno de los tiempos del estudio.

En la Figura 24 se puede ver que en el tiempo cero todas las muestras no presentaron el

defecto de reposo, en contraste, para el tiempo final a los 154 días de almacenamiento, el

98% de las muestras analizadas presentaron reposo; esta información indica que bajo las

condiciones de almacenamiento evaluadas, cinco meses es un tiempo demasiado extenso para

conservar las propiedades de calidad del café verde. Aunque no pudo observarse una

tendencia que vinculara claramente el transcurso del tiempo y el reposo, posiblemente

condicionado por el tipo de muestreo que se realizó y la diversidad propia de las muestras, sí

se obtuvo evidencia de que a partir de los 77 días la proporción de muestras reposadas

siempre fue mayor que la de no reposadas.

Page 85: Jhonathan David Pazmiño Arteaga

69

Figura 24. Frecuencia de observación del reposo en el almacenamiento natural

Sensorialmente, el reposo es una característica para la cual los catadores se encuentran bien

entrenados en identificar su presencia o ausencia; sin embargo, no existe un protocolo o

método estándar que determine su intensidad o la califique en una escala cuantitativa

estructurada, ya que este no es un proceso que se realice en los laboratorios de café. El

ejercicio de investigación que se planteó con el acompañamiento de los expertos fue evaluar

el nivel de intensidad del reposo durante el tiempo de estudio en una escala de uno a cinco.

Los datos obtenidos se representan en la Figura 25, en la cual se aprecia un diagrama de

violín que muestra la manera como se distribuye el nivel de intensidad del reposo en cada

tiempo de muestreo. El número de muestras evaluadas no fue el mismo en todos los tiempos

debido a las dificultades logísticas para la evaluación sensorial ya mencionadas. Se puede

ver que la forma extendida de los violines cubriendo todo el eje vertical implica que durante

los cinco puntos de muestreo se presentaron puntajes en toda la escala de calificación; las

formas abultadas de los violines indican frecuencias de observación más altas para los valores

representados en el eje del nivel de intensidad del reposo. Un aumento progresivo del nivel

de intensidad del reposo se observaría como violines con formas abultadas en la parte

superior (niveles de intensidad de cuatro o cinco) para los tiempos finales, sin embargo, este

comportamiento no se manifestó y puede relacionarse nuevamente con la heterogeneidad de

las muestras de café verde, cada una manifestaría una velocidad de reposo diferente siendo

por tanto necesario estudiarlas de manera individual si se contempla un enfoque únicamente

sensorial.

Page 86: Jhonathan David Pazmiño Arteaga

70

Figura 25. Distribución del nivel de intensidad del reposo en cada tiempo de muestreo

Una mejor comprensión de la evolución del reposo durante el tiempo de almacenamiento

necesitó utilizar solo aquellos datos que describieron una serie temporal, es decir, se

seleccionaron las muestras que fueron analizadas sensorialmente en mínimo tres tiempos de

muestreo. En la Figura 26 se puede ver el diagrama de líneas para las muestras seleccionadas,

el cual permitió identificar un patrón de comportamiento para cada muestra individual. Si

bien todas las muestras no describen el mismo camino, sí se pudo ver una predisposición

global hacia el incremento de la intensidad del reposo con el tiempo. El cambio particular

que presentó cada muestra demuestra el comportamiento cuantificable que puede tener el

reposo y posibilita un estudio de la tendencia o comportamiento de este en función del tiempo

de almacenamiento del café verde.

La diferencia en los patrones de comportamiento de las muestras hizo notar la heterogeneidad

de las mismas y en consecuencia la diferencia en la velocidad con la cual cada una pierde su

calidad sensorial, aun cuando todas fueron almacenadas bajo las mismas condiciones;

observar estos resultados es importante en cuanto deja ver la necesidad de establecer

estrategias de almacenamiento particulares para cada tipo de café, algo que en la actualidad

no se realiza dado que en la cadena productiva todo el café se almacena de la misma manera.

Page 87: Jhonathan David Pazmiño Arteaga

71

Figura 26. Comportamiento individual de las muestras de café durante el almacenamiento

4.3.5 Evaluación de los cambios de la calidad del café verde en función de los datos

espectroscópicos

El siguiente paso fue utilizar la información de la espectroscopía de 1H RMN procesada

previamente para realizar la construcción de un modelo de clasificación utilizando un

algoritmo Random Forest con el objetivo de que aprendiera a discriminar el café verde según

la presencia/ausencia del defecto de reposo.

Como se mencionó anteriormente, los espectros se condensaron en cuatro matrices de

características diferentes en función del método de definición de los bins (Tabla 13). Las

matrices difieren en el total de bins y en la información que cada uno recoge del espectro. De

forma general, un espectro de 1H RMN contiene toda la información de una muestra

particular y la matriz de características divide dicha información en pequeños trozos y los

hace sujetos del análisis estadístico.

Page 88: Jhonathan David Pazmiño Arteaga

72

Tabla 13. Propiedades de las matrices de características

Matriz Método Factor de

resolución (ppm)

Amplitud

(ppm)

Número de bins

U4 Uniforme NA 0.04 134

I5 Inteligente 0.5 NA 262

U2 Uniforme NA 0.02 247

I3 Inteligente 0.3 NA 316

Tomando cada matriz de características de forma independiente, los modelos se construyeron

entrenaron el algoritmo y ajustando sus dos principales hiperparámetros: el número de

árboles del bosque (ntree) y el número de variables seleccionadas aleatoriamente en cada

división (mtry). El comportamiento general del error OOB al cambiar el valor de los

hiperparámetros para la matriz U4 se puede observar en la Figura 27, se puede ver como el

error para la clasificación realizada en la validación cruzada disminuye rápidamente al iniciar

con la creación de los árboles del modelo, sin embargo este comportamiento no es constante

pues luego del descenso el comportamiento solo refleja pequeñas variaciones a lo largo del

eje horizontal con una tendencia a estabilizarse; la regla general indica que a mayor número

de árboles mejor desempeño del modelo, pero en la práctica se observa que existe un punto

donde el error OOB deja de disminuir y por lo tanto el costo computacional de aumentar la

complejidad del modelo es injustificada. También se pueden observar diferencias en cuanto

al error OOB con relación al número de variables por división, por defecto este valor es

tomado por el algoritmo como la raíz cuadrada del número total de variables disponibles; sin

embargo, este no siempre es el valor más adecuado y la búsqueda se hace en torno al valor

inicial. El objetivo de este proceso es obtener la combinación de hiperparámetros que

entreguen un modelo de clasificación con el menor error posible.

Page 89: Jhonathan David Pazmiño Arteaga

73

Figura 27. Variación del error OOB frente al cambio de hiperparámetros

Los valores del error en la clasificación de los modelos resultantes para cada matriz de

características, así como los hiperparámetros seleccionados se resumen en la Tabla 14.

Considerando un clasificador teórico “dummy” que asigna la etiqueta de la clase más

frecuente, para los datos de esta investigación el clasificador tendría un error de 42% al

reconocer muestras con reposo, pues la relación entre las categorías es de 58% reposo y de

42% no reposo; los clasificadores Random Forest entrenados tienen como promedio de error

un 23% lo que mejora la clasificación en casi el doble respecto al dummy. Si bien los valores

del error obtenidos en las cuatro matrices de características pueden ser altos para realizar una

clasificación eficiente de las muestras de café, los modelos construidos fueron el punto de

inicio para la discriminación efectiva de los dos grupos de interés, como se describirá más

adelante.

Tabla 14. Hiperparámetros y error de los modelos construidos

Matriz ntree mtry Error OOB (%)

U4 5150 11 22.73

I5 1900 16 23.30

U2 1600 15 23.86

I3 5000 9 23.30

Page 90: Jhonathan David Pazmiño Arteaga

74

Si bien el algoritmo de Random Forest usado en problemas de clasificación entregó la

predicción de las etiquetas de interés como una variable dicotómica: reposo y no reposo, en

el proceso de toma de decisión se involucra un problema de votación y asignación por

mayorías, de esta manera, cuando al modelo ingresa una observación para ser clasificada,

cada uno de los árboles del bosque realiza una predicción particular y la predicción que arroja

el modelo completo es aquella que tenga la frecuencia de votos más alta proveniente de todos

los árboles, en la Figura 28 puede verse un esquema resumido de este proceso aplicado a la

discriminación del café verde entre reposado y no reposado.

Figura 28. Representación de la estrategia de votación del Random Forest

Buscando aislar la información que conduzca a realizar una buena clasificación de las

muestras y por tanto a identificar las características espectroscópicas que las diferencian, se

consideraron los datos disponibles de cada muestra y se contrastó la información de la

etiqueta sensorial y la de los votos asignados por el modelo de clasificación. Con fines

gráficos, se representó la votación alcanzada para una parte (30/176) de las observaciones

clasificadas por el modelo construido con la matriz de características U4 (Figura 29). Cada

una de las barras horizontales representa una observación y los colores indican la votación

alcanzada para cada etiqueta predicha por el modelo de clasificación, verde para el café no

reposado y marrón para el café reposado; la predicción a favor de una etiqueta se da si esta

Page 91: Jhonathan David Pazmiño Arteaga

75

tiene más del 50% de los votos. Sobre el eje vertical izquierdo se encuentra la etiqueta

determinada en la prueba sensorial; café verde con reposo (Y) y café verde sin reposo (N).

La figura permite observar las muestras que fueron correctamente clasificadas por el modelo

como aquellas para las cuales las barras de cada uno de los colores sobrepasan el 50% de los

votos obtenidos y que su etiqueta sensorial coincide con la predicción. La mayoría de las

muestras con reposo sensorial (Y) que fueron bien clasificadas la votación fue mayor al 75%

lo que indica la existencia de evidencia espectroscópica consistente para identificar la

manifestación de este fenómeno; sin embargo, se pudo reconocer cómo muestras etiquetadas

sensorialmente con reposo (Y) presentaron una barra de color verde que excede el 50% de

los votos y que por tanto fue clasificada de manera incorrecta; también se dio el caso

contrario, muestras sin reposo (N) con barras de color marrón más allá del 50% clasificadas

erróneamente como reposadas.

La disposición de la información del análisis sensorial así como los votos conseguidos por

cada una de las muestras permitió reconocer aquellas que para el algoritmo fueron difíciles

de clasificar, un resultado que puede generarse por dos motivos: el que la información

derivada del análisis 1H RMN de una muestra particular no sea suficientemente sólido como

para definir su pertenencia a uno de los dos grupos, o bien, que lo sea, pero que la etiqueta

asignada de forma sensorial sea errónea, una posibilidad considerando la naturaleza subjetiva

de la medición realizada y el efecto de agotamiento evidenciado en los catadores después de

sesiones de trabajo muy extensas.

Page 92: Jhonathan David Pazmiño Arteaga

76

Figura 29. Votación asignada por el modelo de clasificación para una parte de las

muestras usadas

Se estableció entonces excluir las muestras para las cuales el modelo inicial predijo de

manera errada con votaciones de más del 60% y con ello se realizó la selección de las

muestras más consistentes y la construcción de nuevos modelos. El proceso de filtrado de las

muestras se hizo de forma independiente para las cuatro matrices de características, entre

ellas fueron excluidas en total 30 muestras.

Entre las muestras excluidas se encontraron 17 muestras de café verde comunes a las cuatro

matrices, 14 de ellas tenían una etiqueta sensorial de no reposo y el promedio de la votación

de los modelos que indicaron reposo fue del 74%; en el caso de las 3 muestras restantes

etiquetadas con reposo sensorial, estas tuvieron una votación promedio de 70% para ser

clasificadas como muestras no reposadas. Los resultados indicaron una proporción alta de

muestras no reposadas clasificadas incorrectamente pero con un nivel de votación

Page 93: Jhonathan David Pazmiño Arteaga

77

considerable, llevó a plantear la posibilidad de que en el momento del análisis sensorial estas

muestras no manifestaron el defecto de una forma tal que los catadores pudieran determinarlo

correctamente, así, las 14 muestras que el modelo predijo tenían reposo fueron puntuadas con

cero en la escala de intensidad sensorial además de que todas las muestras correspondieron a

tiempos de observación de más de 77 días de almacenamiento.

Luego de la exclusión de las 30 muestras se realizó la construcción de nuevos modelos

entrenando los algoritmos Random Forest y seleccionando los hiperparámetros adecuados,

los resultados de los nuevos modelos se muestran en la Tabla 15.

Tabla 15. Descripción de las matrices de características y los nuevos modelos construidos

Matriz Número de

observaciones

*Número de

Reposos/ no

reposos

ntree mtry Error OOB

(%)

U4 152 97/55 3000 6 9.87

I5 151 97/54 2000 16 7.95

U2 151 96/55 5000 15 9.27

I3 154 98/56 1980 17 11.04

*Etiquetas sensoriales

Excluir las observaciones con clasificación errónea tuvo una repercusión muy significativa

respecto a la disminución del error OOB de los modelos, el proceso realizado en esta etapa

de la investigación tienen sustento lógico en cuanto se busca utilizar las herramientas del

análisis de datos no para desarrollar una herramienta o metodología analítica con alto

desempeño en la clasificación de muestras desconocidas, sino para generar y extraer la mayor

cantidad de información que permita entender la relación entre los lípidos, sus señales

espectroscópicas y el defecto sensorial de reposo. Alimentar el algoritmo de Random Forest

con muestras que son clasificadas correctamente asegura que se está trabajando con unidades

experimentales que contienen aquellas características químicas relevantes para discriminar

entre los dos grupos objetivo; en este estudio lipidómico tales características las constituyen

los bins definidos con anterioridad.

Page 94: Jhonathan David Pazmiño Arteaga

78

4.3.6 Búsqueda de las variables independientes (bins) más relevantes en la

clasificación

Con los nuevos modelos entrenados se realizó la búsqueda de aquellos bins del espectro de

1H RMN que más impacto o relevancia tuvieron cuando se hizo la clasificación; este proceso

se denomina ingeniería de características y para una aproximación metabolómica de huella

digital conduce a obtener información sobre las señales particulares que más incidencia

tienen para identificar una muestra con reposo y una sin reposo, lo que ayuda a la vez a

enfocarse en determinar la identidad de potenciales marcadores químicos. La selección de

los bins con más peso en la clasificación se realizó considerando el criterio impureza de Gini,

una medida de la heterogeneidad de los datos en cada uno de los nodos de división en los

árboles de entrenamiento. En el nodo raíz, el cual contiene todas las observaciones a separar,

se tiene el mayor valor de Gini para el problema particular, una variable importante en la

clasificación será aquella que aporte una mayor disminución media del Gini al pasar de un

nodo superior a un nodo subordinado, pues al realizar la división de los datos la

heterogeneidad disminuirá y por tanto el Gini también (Hartshorn, n.d.).

En la Tabla 16 se muestran ordenados de forma decreciente los diez bins más importantes en

la clasificación realizada con los modelos construidos con cada una de las matrices de

características. Se puede ver que las variables seleccionadas por los modelos no son las

mismas en los cuatro matrices, esto lógicamente se debe a que la definición de la amplitud

del bin es diferente para cada una, sin embargo, en todos los modelos se observó puntos

comunes entre ellas (Figura 30), logrando compartir el 60 % de información, es decir, de los

diez bins las cuatro matrices comparten zonas de seis de ellos.

Tabla 16. Bins más importantes en la clasificación según cada modelo construido

Uniforme 0.04 Uniforme 0.02 Inteligente 0.3 Inteligente 0.5

Min Centro Max Min Centro Max Min Centro Max Min Centro Max

6,960 6,980 7,000 6,965 6,975 6,985 7,537 7,547 7,557 7,537 7,547 7,557

7,120 7,140 7,160 7,343 7,353 7,363 6,961 6,977 6,992 6,961 6,977 6,992

3,197 3,217 3,237 7,542 7,552 7,562 7,133 7,139 7,144 7,336 7,356 7,376

4,718 4,738 4,758 7,124 7,134 7,144 7,118 7,122 7,126 7,126 7,129 7,133

3,237 3,257 3,277 7,104 7,114 7,124 3,247 3,255 3,262 3,235 3,241 3,247

Page 95: Jhonathan David Pazmiño Arteaga

79

7,520 7,540 7,560 3,223 3,233 3,243 7,126 7,129 7,133 7,133 7,139 7,144

7,320 7,340 7,360 4,716 4,726 4,736 3,235 3,241 3,247 7,118 7,122 7,126

4,638 4,658 4,678 3,243 3,253 3,263 7,336 7,354 7,373 3,247 3,257 3,267

1,757 1,777 1,797 4,636 4,646 4,656 3,222 3,228 3,235 3,222 3,228 3,235

6,839 6,859 6,879 7,522 7,532 7,542 7,110 7,114 7,118 1,778 1,782 1,786

Figura 30. Representación de los bins más importantes en el espectro de 1H RMN

Considerando que los modelos construidos tuvieron valores de error OOB similares y que la

importancia jerárquica de los bins es también compartida ampliamente, se determinó utilizar

la matriz de características inteligente de resolución 0.5 ppm cuyo modelo construido tiene

el error OOB más bajo para continuar con los análisis presentados en este trabajo.

Después de la selección y extracción de los bins más importantes se realizó un contraste entre

los valores que estos presentan según se evalúen en muestras de café reposado y no reposado.

En la Figura 31 se pueden observar de forma ordenada de derecha a izquierda, los diez bins

con mayor impacto para discriminar entre los grupos de café verde en estudio (columna

Inteligente 0.5 de la Tabla 16). En el eje vertical se muestra el área estandarizada con el

objetivo de normalizar la escala. Cada uno de los puntos representa una muestra

independiente de aceite de café verde que fue coloreado según su etiqueta sensorial; se

muestra también la media (punto central) y el rango (línea vertical) de los datos a más y

menos una desviación estándar.

Page 96: Jhonathan David Pazmiño Arteaga

80

Figura 31. Valores del área observados en los diez bins más importantes para las muestras

de café verde analizadas

Teniendo en cuenta que los bins graficados fueron aquellos que tienen un mayor impacto en

la discriminación entre los dos grupos de muestras, se esperaba que los valores del área

estandarizada para cada grupo fueran diferentes por un margen amplio, sin embargo, eso no

es lo que se observó. Ninguno de los diez bins evidenció que la diferencia entre las muestras

de café reposado y café no reposado fuera al menos de una desviación estándar, es decir, el

rango en el cual se distribuyen los puntos tiene una longitud tal que los valores de ambos

grupos se traslapan. Los resultados indicaron dos cosas importantes: la primera, la

discriminación química entre muestras de tal complejidad como lo son las de café verde, es

una tarea que requiere se considere el perfil completo más que algunos bins aislados, de

forma conjunta los datos de la huella digital lipidómica y el algoritmo de Random Forest

permitieron realizar dicha discriminación; y la segunda, químicamente la presencia del

defecto de reposo debe estudiarse contemplando que este no se mide en la misma escala

dicotómica que se hace de forma sensorial, no es posible referirse a la presencia o ausencia

de un marcador, al menos en el extracto lipídico, que condicione la manifestación sensorial

Page 97: Jhonathan David Pazmiño Arteaga

81

del defecto; el reposo por tanto debe ser una expresión de cambios cualitativos pero también

cuantitativos en los compuestos del café verde.

La verificación del razonamiento anterior se realizó aplicando un enfoque de reducción de la

dimensionalidad; los bins seleccionados, que explicaron en mayor grado la discriminación

de las muestras fueron usados para construir un nuevo modelo menos complejo, en este caso

se construyó un árbol de decisión. Contar con un menor número de variables predictoras

(bins) sin perder la capacidad de modelar la variable respuesta plantea la posibilidad de

realizar una evaluación más simple y específica, de la cual se espera obtener un nuevo grado

de comprensión del problema.

Entrenar un árbol de decisión es una muy buena estrategia cuando se han identificado las

variables que mejor explican un fenómeno, este modelo permite generar una serie de reglas

dicotómicas a partir de las cuales es posible clasificar una observación según cumpla o no

con dichos enunciados. En el caso de un problema metabolómico, cada regla estará

constituida por la verificación de un nivel crítico en el área de los bins definidos en la

construcción del modelo. El algoritmo se entrenó utilizando el 75% de las muestras

disponibles y conservando la proporción de reposos y no reposos de los datos completos; se

usaron 40 muestras no reposadas y 73 muestras reposadas, para un total de 113 muestras en

el conjunto de entrenamiento.

Después de entrenar el modelo se utilizó una muestra de 38 observaciones, el 25% restante

de los datos originales, para realizar la prueba del desempeño. La exactitud del modelo

construido, que indica la proporción de predicciones correctas entre el total de observaciones

fue buena, alcanzando un valor de 89% para la clasificación de los datos. La matriz de

confusión resultante se representa en la Tabla 17, con los valores indicados y considerando

el reposo como la clase positiva se evaluó el desempeño del modelo mediante algunas

métricas fundamentales; la sensibilidad, definida como la proporción de reposos

correctamente predichos entre el total de muestras que realmente tenían el defecto fue del

92% y la precisión que representa la cantidad de reposos predichos correctamente frente al

total de reposos predichos fue también del 92%.

Page 98: Jhonathan David Pazmiño Arteaga

82

Tabla 17. Matriz de confusión del modelo de árbol de decisión

Real

No reposo Reposo

Predicción No reposo 12 2

Reposo 2 22

Los valores obtenidos indican que las variables relevantes seleccionadas desde el modelo de

Random Forest pueden ser usadas para discriminar efectivamente los dos grupos de muestras

y por tanto tienen el potencial de convertirse en marcadores químicos con relevancia en el

estudio de los fenómenos de deterioro de la calidad del café verde durante el almacenamiento;

sin embargo, no es posible aplicarlos como marcadores independientes dado que de forma

individual no ofrecen una capacidad de discriminación efectiva.

En la Figura 32 se representa de manera gráfica el árbol de decisión construido con las 113

muestras de entrenamiento, se pueden ver las reglas que el modelo establece para realizar la

clasificación y la eficiencia de dichas reglas para generar grupos homogéneos. El bin con

centro en 7.4586 ppm fue el que tuvo un mayor impacto en la clasificación lo que está en

sintonía con el resultado del modelo Random Forest. Partiendo de un grupo en donde el 65%

de todas las muestras están etiquetadas con reposo sensorial, al determinar cuáles de ellas

tienen un valor inferior a 0.25 unidades en la área estandarizada de dicho bin, se logró generar

un nuevo grupo que contiene el 64% de las observaciones y de esas el 89% tiene reposo; el

restante 36% de las observaciones para las cuales la intensidad del bin fue mayor o igual a

0.25 estableció otro grupo en el cual la mayoría de ellas, un 78%, fueron no reposados; en

suma, el bin indicado por el modelo separó el conjunto de muestras y formó dos nuevos en

donde la relación entre reposos y no reposos es más distante, para el brazo derecho fue de

0.22 y 0.78 y para el brazo izquierdo fue de 0.89 y 0.11. El proceso de clasificación continúa

de igual manera en dirección descendiente generando grupos cada vez más homogéneos e

informando sobre cuáles variables y en qué valores deben considerarse para entender la

situación estudiada.

Page 99: Jhonathan David Pazmiño Arteaga

83

Figura 32. Árbol de decisión para la clasificación de muestras de café verde según los

datos 1H RMN

La exploración de una propuesta de análisis con enfoque “cinético” se aplicó utilizando los

datos espectroscópicos de los bins más importantes para las muestras observadas varias veces

durante el tiempo del estudio, esto permitió evaluar el comportamiento químico en relación

con el proceso de deterioro de la calidad debido al reposo. En la Figura 33 se muestra la

magnitud media del área de todas las muestras analizadas para los cuatro bins más

importantes en la clasificación en cada tiempo de almacenamiento. Se observó que, para las

dos categorías, café reposado y café no reposado, la magnitud de la señal instrumental tiende

a disminuir con el tiempo; entre los 56 y 91 días se dio la caída más intensa para los valores

del área de los bins y en adelante el comportamiento medio tendió a estabilizarse. La

tendencia para los dos grupos fue en extensión general muy similar y no se pudo evidenciar

que el comportamiento en el tiempo tuviera características distintivas.

Page 100: Jhonathan David Pazmiño Arteaga

84

Figura 33. Área promedio de los cuatro bins más importantes en la clasificación vs el

tiempo de almacenamiento natural.

*El encabezado de cada figura indica el centro del bin

El comportamiento particular de las muestras se observa en la gráfica donde se representaron

solo algunas de ellas (Figura 34). Cada una de las muestras se indica como una línea

particular, los puntos indican los momentos de análisis durante el almacenamiento, los

colores fueron usados para representar el estado de la muestra en cada momento. La tendencia

que pudo identificarse describe que los valores del área de los bins analizados disminuye

progresivamente y que en un punto particular para cada muestra ésta cambia su estado de no

reposada a reposada; el hecho de que la tendencia continúe indicaría que en la muestra ya

reposada se incrementa el nivel del defecto y se disminuyen o estabilizan los valores del área

de los bins.

Page 101: Jhonathan David Pazmiño Arteaga

85

Figura 34. Área de los cuatro bins más importantes vs tiempo de almacenamiento natural

para las muestras de café verde independientes

4.3.7 Cuantificación analítica del nivel de reposo

La relación cuantitativa que puede existir entre el nivel de intensidad del reposo expresado

de forma sensorial y la magnitud de las observaciones espectroscópicas asociadas a las

entidades químicas de naturaleza lipídica, se exploró con la construcción de un nuevo modelo

de Random Forest con los espectros de muestras reposadas sensorialmente y considerando el

nivel de intensidad del defecto como la variable objetivo. Esta situación se trató como un

problema de clasificación multiclase, donde las etiquetas fueron los valores de las

intensidades indicadas por los catadores; el algoritmo se entrenó utilizando 5000 árboles y

un número óptimo de 16 variables aleatorias para cada división. El error OOB obtenido en la

clasificación fue del 65.7% y la matriz de confusión de la validación cruzada se puede ver en

la Tabla 18.

Page 102: Jhonathan David Pazmiño Arteaga

86

Tabla 18. Matriz de confusión para el modelo de clasificación según el nivel de intensidad

del reposo

Etiqueta sensorial Error de clase

Uno Dos Tres Cuatro Cinco

Etiqueta

predicha

Uno 1 6 2 2 7 94%

Dos 4 4 1 3 6 77%

Tres 1 2 0 3 7 100%

Cuatro 5 3 0 2 9 89%

Cinco 3 1 0 2 28 17%

Al igual que con el error del modelo, el error en la clasificación por clase fue muy alto,

exceptuando el nivel cinco, los resultados nuevamente resaltaron la necesidad de entrenar a

los catadores para determinar la intensidad del reposo con mayor exactitud. El número de

verdaderos positivos para el nivel cinco (28) da cuenta de un buen etiquetado del reposo, algo

que los catadores pueden hacer muy bien.

Se realizó la determinación de los bins más importantes utilizando el criterio Gini, los valores

del área estandarizada para los primeros cuatro bins se muestra en la Figura 35. Los

resultados para este caso muestran algunas particularidades interesantes, pues, aunque los

diagramas de cajas y bigotes no indican diferencias para ningún nivel, se puede ver que hay

una tendencia al incremento en la señal instrumental conforme se hace más intenso el nivel

del reposo. Adicionalmente, se observó que los bins encontrados para la clasificación de las

muestras en función de la intensidad del reposo son diferentes a los hallados para discriminar

entre muestras con y sin reposo, esto permitió pensar que el fenómeno de la pérdida de la

calidad del café verde debido al envejecimiento se puede abordar en dos etapas, bajo las

cuales con un mayor conocimiento de los fenómenos sería posible evaluar un

comportamiento cuantitativo de la característica de interés.

Page 103: Jhonathan David Pazmiño Arteaga

87

Figura 35. Área de los cuatro bins más importantes para discriminar entre los niveles de

intensidad del reposo

4.3.8 Validación de los modelos construidos usando las muestras externas

El procesamiento de los 23 espectros de las muestras que fueron seleccionadas para la

validación del modelo se realizó de forma automática usando el archivo de macroparámetros

generado anteriormente; esto permitió obtener los datos organizados para su análisis en las

mismas cuatro matrices de características abordadas hasta el momento, U2, U4, I3 e I5.

Considerando las etiquetas sensoriales de reposo y no reposo los modelos de clasificación se

validaron y se encontraron los siguientes resultados (Tabla 19), la presencia de reposo se

consideró como la característica objetivo.

Page 104: Jhonathan David Pazmiño Arteaga

88

Tabla 19. Parámetros de desempeño de los modelos construidos

Parámetro U2 U4 I3 I5 Media

Exactitud (%) 78,3 69,6 74,0 69,6 72,9

Especificidad (%) 93 93 87 80 88,2

Sensibilidad (%) 50 25 50 50 43,7

Las métricas del desempeño del modelo dejaron ver que, en promedio de las 23 muestras a

clasificar, el uso conjunto de los datos espectroscópicos y del algoritmo de Random Forest

permite realizar el proceso correctamente 17 ocasiones. En cuanto a la especificidad (tasa de

verdaderos positivos) y a la sensibilidad (tasa de verdaderos negativos) se verificó que la

dificultad de los modelos se concentra en el reconocimiento de las muestras que se reconocen

sensorialmente como muestras de café verde sin reposo; la identificación de las muestras con

reposo se hace correctamente 9 de 10 veces.

En la Figura 36 se representa el porcentaje de votación promedio de los cuatro modelos

obtenido para cada muestra del conjunto de validación. Con una marca color naranja se

indican las muestras cuya predicción fue incorrecta, en estas muestras se observó que el

puntaje obtenido se aleja muy poco del 50% necesario para tomar una decisión que, así como

en el proceso de entrenamiento del modelo posiblemente indique las limitaciones para la

asignación sensorial de la etiqueta.

Page 105: Jhonathan David Pazmiño Arteaga

89

Figura 36. Votación media asignada por los cuatro modelos de clasificación para las

muestras de validación

4.3.9 Reconocimiento por 1H RMN de los bins aislados

Los análisis realizados utilizando las herramientas de aprendizaje automático y el estudio

lipidómico de huella digital permitieron observar algunas de las señales instrumentales que

posibilitan discriminar entre el café verde reposado y no reposado, sin embargo, las señales

reconocidas como importantes no correspondieron con ninguna de las previamente asignadas

a estructuras químicas conocidas, esto implicó que la evaluación del reposo no se pudo

relacionar con aquellos compuestos del extracto lipídico más conocidos o más abundantes.

Los espectros bidimensionales de protón no fueron útiles debido a que el área de las señales

indicadas por los bins fue muy reducida, como se muestra más adelante. Sin embargo, los

espectros de las fracciones cromatográficas mostraron que los cuatro bins más importantes

Page 106: Jhonathan David Pazmiño Arteaga

90

son más intensos con relación al área total del espectro en la fracción F6; que es una de las

fracciones más polares.

Se realizó la exploración individual de las señales destacadas mediante el reconocimiento de

los bins para aproximarse a su identificación o posible asignación a algún grupo de moléculas

particulares. El bin más relevante se posicionó con centro en 7,547 ppm; este bin registró un

área promedio de 3,1609 en las muestras de café verde no reposadas y de 1,1073 en las

muestras de café verde reposadas; la disminución de la magnitud indicó la pérdida del

compuesto asociado a esta señal durante el almacenamiento. El mismo comportamiento se

observó para los bins B2, B3 y B4, los valores de sus áreas promedio se muestran en la Tabla

20.

Tabla 20. Área promedio de los bins más importantes en la clasificación.

Bin: (centro ppm) Café verde no

reposado

Café verde

reposado

B2: 6,9769 2,4275 0,5709

B3: 7,3562 9,1227 3,1128

B4: 7,1295 1,2286 0,3437

La ubicación del bin en la escala del desplazamiento químico apunta a que los protones

registrados son de tipo aromático (8.5 ppm – 6.5 ppm), es posible que durante la extracción

se arrastraran compuestos aromáticos de mayor polaridad que triglicéridos, ácidos grasos y

esteroles. La revisión de referencias bibliográficas sugiere que estos protones podrían

corresponder a los ácidos clorogénicos del café verde (Consonni et al., 2012; Kwon et al.,

2015; Madhava Naidu et al., 2008; Wei et al., 2014). Aunque el estudio de este tipo de

compuestos no es del alcance de este trabajo, se ha reportado que durante los diferentes

procesos de poscosecha pueden sufrir procesos de degradación al desempañar su papel como

antioxidantes generando así compuestos que afectarían la calidad sensorial del café (Ali et

al., 2012; Montavon et al., 2003; Rendón et al., 2014; Selmar et al., 2008).

Page 107: Jhonathan David Pazmiño Arteaga

91

La abundancia relativa de la señal enmarcada en el bin mencionado se analizó en diez

muestras particulares; se seleccionaron las cinco muestras reposadas y las cinco no reposadas

que tuvieron las votaciones más altas por el modelo de clasificación; los valores del bin para

cada una se muestran en la Tabla 21. La comparación relativa intraespectro se realizó

considerando la señal del protón 18 de kahweol; realizar el contraste interno permitió

confirmar que la señal contenida en el bin no representa ni siquiera el 0.005% del área total

y que en promedio es 25 veces más pequeña que el H-18 del kahweol en las muestras no

reposadas y 152 veces en las muestras reposadas. Los datos del mismo análisis para los

siguientes tres bins más importantes se muestran en la Tabla 22.

Tabla 21. Abundancia relativa del bin centrado en 7,547 ppm, en muestras de café verde

reposado y no reposado

Muestra:

Código

interno

Bin Reposo Área

normalizada al

espectro (%)

*Área de H-18

Kw normalizada

al espectro (%)

Relación

Kw/Bin

C033

C011

C016

C015

C034

N156

N152

N177

N169

N171

7,547

N

N

N

N

N

Y

Y

Y

Y

Y

0.00425

0.00273

0.00354

0.00421

0.00296

0.00101

0.00077

0.00049

0.00041

0.00072

0.07901

0.10566

0.07910

0.07921

0.08235

0.08424

0.10284

0.08318

0.08613

0.12216

18.5

38.6

22.2

18.7

27.7

83.3

132.2

169.1

205.5

169.2

*H-18 de kahweol

Page 108: Jhonathan David Pazmiño Arteaga

92

Tabla 22. Abundancia relativa del bins B2, B3, B4 en muestras de café verde reposado y no

reposado

Bin Reposo Área

normalizada al

espectro (%)

Relación

*Kw/Bin

6,9769 N 0,0033 26

Y 0,0000026 26722

7,3562 N 0,012 7

Y 0,00089 108

7,1295 N 0,0015 59

Y 0,000084 90

*H-18 de kahweol

La necesidad generada de relacionar las señales de 1H RMN con alguna estructura química

que pueda contener el café verde llevó a usar la información adquirida en las etapas previas

al estudio lipidómico, durante la asignación de las señales se estudió un solo tipo de café con

y sin el defecto de reposo. Se examinaron los espectros de las muestras de café verde lavado

fresco (sin almacenamiento y sin reposo), café verde sometido a tratamiento de

almacenamiento forzado con ciclos de humedad y café verde almacenado en condiciones

ambientales durante diez meses (Figura 37). Los espectros corresponden al mismo café verde

en diferentes estados de calidad (café verde lavado del municipio de Barbosa – Antioquia),

en las ventanas correspondientes a los cuatro bins más importantes en la discriminación del

reposo se pudo corroborar el resultado observado con el análisis de las muestras de

estabilidad natural; la intensidad de las señales delimitadas por los bins son menores en las

muestras que manifiestan el defecto de reposo, además, las dos muestras reposadas aun

cuando se obtuvieron de manera deferente mostraron perfiles similares.

Page 109: Jhonathan David Pazmiño Arteaga

93

Figura 37 Espectro 1H RMN en las zonas de los cuatro bins más importantes en la

clasificación entre reposo y no reposo. Muestras de café verde fresco (café sin reposo), ciclos

humedad (café reposado) y ambiental 10 meses (café reposado).

4.4 Evaluación metabolómica del defecto de reposo en café verde por MALDI-ToF

(matrix-assisted laser desorption/ionization – time-of-flight)

Como ya se ha mencionado el defecto de reposo relacionado con la pérdida de la calidad

durante el almacenamiento se describe en la taza con características desagradables, analizar

un número elevado de muestras que tengan esta condición resulta incómodo para los

catadores; el desarrollo de metodologías que permitan el uso de herramientas analíticas

sensibles, objetivas y eficientes para la evaluación de la calidad del café verde es ahora un

objetivo posible.

Page 110: Jhonathan David Pazmiño Arteaga

94

Disponer de un método que logre identificar entre muestras que tienen y no tienen reposo

lleva asociada la necesidad de identificar al menos un conjunto de estructuras químicas

responsables de tal expresión sensorial; usando los análisis de 1H RMN se mostró que la

fracción lipídica puede tener potencialmente las características que la hacen una buena

candidata para el estudio de este fenómeno. Ahora se evaluará el potencial de la

espectrometría de masas para discriminar entre las muestras de café verde con el defecto de

estudio.

Las muestras de café verde que se usaron en esta etapa representan dos importantes áreas de

cultivo de café en Colombia con un amplio impacto en el mercado de exportación, así como

también diferentes variedades y métodos de beneficio con los cuales los caficultores procesan

el producto.

4.4.1 Características muestras de café verde utilizadas en el estudio

La catación del café permitió reconocer 24 muestras sin reposo y 41 muestras con reposo.

Los tres catadores coincidieron en sus evaluaciones para todas las muestras, es decir, no hubo

ninguna discrepancia entre los tres para definir si las muestras evaluadas presentaban o no el

defecto sensorial. El caso de las muestras de café reposado, nuevamente se asignaron

diferentes descriptores sensoriales todos ellos indicadores de la pérdida de la calidad, así, se

encontró cereal, papel, paja, costal, madera, tierra, maíz seco y residual amargo.

El resultado de la evaluación sensorial y la clasificación según la presencia o ausencia del

reposo, así como la diversidad de las muestras estudiadas se puede ver agrupado por variable

en la Tabla 23.

Page 111: Jhonathan David Pazmiño Arteaga

95

Tabla 23. Características del café usado en el estudio lipidómico por espectrometría de

masas

Variable Categoría Número de

muestras

Sin

reposo Con reposo

Origen geográfico Antioquia 51 20 31

Nariño 14 4 10

Variedad vegetal

Caturra 15 5 10

Castillo 18 8 10

Colombia 7 4 3

Otro 25 7 18

Tipo de beneficio

Lavado 40 18 22

Honey 20 4 16

Natural 5 2 3

4.4.2 Análisis MALDI-ToF MS

Cada una de las muestras fue diluida en cloroformo/metanol 2:1 (v/v) para obtener una

solución con concentración final de 1mg/mL. El proceso de preparación de la mezcla matriz:

muestra permitió generar una cocristalización adecuada para los análisis MALDI-ToF; una

imagen de la muestra en un pozo de la placa del equipo puede verse en la Figura 38-A.

Aun conservando siempre las mismas condiciones de análisis, no fue posible obtener una

cristalización consistente entre las diferentes muestras que se analizaron (Figura 38-B),

debido a la baja tensión superficial de los solventes, el spot que se aplicó sobre la placa

mostró la tendencia a extenderse y los cristales no presentaron el mismo patrón entre las

diferentes aplicaciones. Dado que todo el protocolo de preparación de las muestras fue

reproducido siempre de la misma manera, se presume que las diferencias entre los patrones

de cristalización se debieron a las diferencias propias de cada una de las muestras, aun siendo

todas muestras de aceite de café verde.

Page 112: Jhonathan David Pazmiño Arteaga

96

A. Cocristalización adecuada

B: Cocristalización no adecuada

Figura 38. Tipos de cocristalización obtenida en los diferentes ensayos

En el análisis espectrométrico MALDI-ToF se detectan principalmente moléculas protonadas

[M+H]+ pero también se han reportado aductos de sodio [M+Na]+ cuando se analizan lípidos.

En el rango de masa/carga estudiada se reconocen algunas zonas las cuales pueden asociarse

a compuestos lipídicos que están presentes en los aceites vegetales (Ayorinde et al., 1999;

Chapagain & Wiesman, 2009; Kubo et al., 2013; Li et al., 2014).

Los ácidos grasos libres y sus especies ionizadas poseen m/z inferiores a 300, estos

compuestos no pudieron ser observados con esta técnica debido a que debajo del rango de

m/z de 500 se localiza una zona donde hay una abundante interferencia de la matriz que es

típica en la espectrometría de masas MALDI-ToF (Li et al., 2014).

Los glicerolípidos, triglicéridos y diglicéridos principalmente, pueden observarse en zonas

de m/z de entre 580 y 950 (Alves et al., 2016; Kaufman & Wiesman, 2007; Schiller et al.,

2004). El análisis molecular de los triglicéridos, contemplando unidades independientes, es

particularmente compleja debido a la gran cantidad de configuraciones diferentes que pueden

existir entre los tres ácidos grasos presentes y que tienen la misma masa, Murphy y Axelsen

(2011) indicaron por ejemplo que “más de diez triglicéridos diferentes contienen 52 átomos

de carbono y cuatro dobles enlaces en las cadenas de sus ácidos grasos, todos ellos tienen

m/z 854.7364”.

Page 113: Jhonathan David Pazmiño Arteaga

97

Otro tipo de compuestos lipídicos que componen toda estructura biológica son los

fosfolípidos, estos pueden verse en MALDI-ToF como iones [M+H]+ y [M-H]- además de

sus variadas formas de fragmentación que permiten observar iones desde 200 hasta 900 m/z

(Petković et al., 2009).

Buscando verificar la presencia de algunos de los compuestos de este tipo reportados en la

literatura, se realizó la adquisición del espectro de masas de muestras de aceites de

composición más estudiada: aceite de canola, de cacao, de palma y de linaza. En la Figura

39 se puede observar las diferencias entre los diversos tipos de aceites vegetales.

Aplicaciones de lipidómica para discriminar entre perfiles de triacilgliceroles contemplando

las tres zonas que se reportan en función del número total de carbono de estos compuestos,

50 (m/z 850−870), 52 (m/z 870−890) o 54 (m/z 890−920) se han implementado como una

herramienta eficiente en el control de calidad (Kuo et al., 2019; Wu et al., 2004). Las

potenciales diferencias que pueden encontrarse en un rango de m/z mucho más amplio resalta

el potencial del método propuesto para discriminar entre las características de calidad del

café verde reposado y no reposado, aunque en principio se espera que las diferencias pueden

ser más sutiles. La construcción del método que permita diferenciar y clasificar

eficientemente requiere contrastar los patrones espectrométricos de los dos grupos de

muestras buscando encontrar zonas diferenciadoras.

Figura 39. Espectro MALDI-ToF MS de cinco tipos de aceite vegetal. De arriba hacia abajo:

canola, cacao, palma, café verde, linaza.

Page 114: Jhonathan David Pazmiño Arteaga

98

4.4.3 Procesamiento, análisis y construcción del modelo de clasificación para el café

verde reposado/no reposado

En la Figura 40 se presenta el contraste de los espectros MALDI-ToF MS del aceite de café

verde de muestras reposadas y no reposadas. Los espectros muestran conjuntamente las

diferencias de los perfiles en las regiones de m/z característicos de los iones lipídicos.

Figura 40. Contraste entre el espectro MALDI-ToF MS del aceite de café verde reposado y

no reposado

De manera similar a la indicada cuando se usó la técnica analítica de RMN, para los datos

espectrométricos se requiere también realizar el procesamiento de los espectros crudos para

disponer de información confiable y adecuada para los análisis estadísticos. La selección de

los métodos o algoritmos de procesamiento así como los parámetros en los cuales se ajustan

demanda de una revisión visual de diferentes espectros y está sujeto al criterio del

investigador que realiza los análisis (Datta & Mertens, 2017; Gibb & Strimmer, 2012).

Los datos recogidos de los espectros de masas fueron parejas que relacionan la magnitud de

la señal de intensidad vs el valor de m/z que representa una especie química como ion. Los

valores de intensidad de un espectro de masas siguen una distribución que aproximadamente

es Poisson, es decir, la frecuencia de observación de un valor de intensidad se describe en

Page 115: Jhonathan David Pazmiño Arteaga

99

función de la probabilidad de que éste se presente. Dado que los análisis estadísticos que se

realizaron requieren ciertas condiciones en el comportamiento de los datos, se utilizó la

transformación de las variables crudas usando el logaritmo natural para generar una

distribución de los datos transformados aproximadamente normal. En la Figura 41 puede

verse el efecto de la trasformación en la distribución de la intensidad de un espectro

analizado.

A: Datos crudos

B: Datos transformados usando logarritmo

natural

Figura 41. Transformación de los datos espectrométricos de intensidad

Posteriormente se aplicó el proceso denominado suavizado de los datos, con esto fue posible

reducir las pequeñas perturbaciones en las señales y el ruido de electrónico de fondo. En este

paso fue necesario fijar un parámetro que determina el ancho de la ventana sobre la cual el

algoritmo trabaja en cada paso; en la Figura 42 se observa el efecto de modificar dicho

parámetro. Un valor muy bajo permite demasiado ruido en la señal y un valor demasiado alto

deforma la señal y genera pérdida de información. El proceso de ajuste requirió el análisis de

diferentes espectros y de diferentes regiones de m/z debido a que se debe aplicar el

tratamiento a los datos de todas las muestras conjuntamente.

Page 116: Jhonathan David Pazmiño Arteaga

100

A: Ancho de ventana 5

B: Ancho de ventana 9

C: Ancho de ventana 15

D: Ancho de ventana 20

Figura 42. Cambio en el espectro MALDI-ToF MS en función del parámetro de suavizado

El ajuste de la línea base con el método TopHat corrigió el aumento de la intensidad que se

da principalmente por el ruido químico que incorpora la matriz y el ruido de fondo que deben

ser eliminados para no generar influencia externa sobre la cuantificación de la intensidad de

los picos. Finalmente, la calibración de la intensidad o normalización se realizó utilizando la

corriente total de iones (TIC) como un método de calibración local, en el cual cada espectro

se corrige utilizando una medida especifica de sí misma, con esto se logró que cada señal

fuera una medida relativa de la concentración de cada ion en la muestra y pudieran

compararse las diferentes muestras aun contando con la variación debida a la cantidad de

aceite usada en cada medición. En la Figura 43 se ejemplifican los pasos de transformación,

Page 117: Jhonathan David Pazmiño Arteaga

101

suavizado, ajuste de línea base y normalización de los datos para una muestra particular y se

presenta el cambio generado en el espectro MALDI-ToF MS.

A: Datos crudos

B: Transformación

C: Suavizado

D: Ajuste de línea base y normalización

Figura 43. Pasos en el procesamiento de los espectros MALDI ToF MS

La selección y optimización de los parámetros fue realizada a “fuerza bruta” mediante la

exploración de una rejilla de posibilidades, la rejilla fue una tabla n x m, con n el número

total de combinaciones posibles entre los parámetros a evaluar, 800 en este caso, y m el

número de parámetros diferentes. Se realizó de esta manera debido a la gran cantidad de

posibilidades disponibles y a que es viable tomar una medida cuantitativa que represente la

calidad de la información generada después del proceso en cada uno de los pasos. Cada

combinación de parámetros en las filas de la rejilla, por ejemplo:

Método de estimación del ruido: MAD

Relación señal-ruido: 3

Ventana de detección de picos: 10

Page 118: Jhonathan David Pazmiño Arteaga

102

Tolerancia del binning: 100

Mínima frecuencia de remoción de picos: 0.1

se usó finalmente para generar una matriz de características particular que contenía la

información de la intensidad del espectro de masas para las l muestras en estudio y las k

variables (picos m/z) generadas, en encabezado de una matriz de características se puede ver

en la Tabla 24.

Tabla 24. Modelo de matriz de características para los datos espectrométricos MALDI ToF

Código Etiqueta

sensorial Mass_500.03 Mass_501.06 Mass_502.11 … Mass_k

A1C Reposo 66,93359 82,73712 53,91793

A1D Reposo 67,73319 85,72454 52,38174

A1J Reposo 57,05333 77,90083 20,42458

A1N No reposo 63,09561 85,21773 31,00942

Muestra l

Los datos espectrométricos procesados y condensados en la matriz de características se

usaron para construir un modelo de Random Forest que clasificara entre muestras con reposo

y sin reposo, la determinación del nivel de error en la clasificación se realizó mediante el

cálculo del error OOB. Dado que para cada fila de la rejilla se construyó exactamente el

mismo modelo, las diferencias en el error OOB sólo se debieron a la información intrínseca

de las matrices de características y por tanto se consideró una buena medida para determinar

los mejores parámetros del procesamiento.

Después del procesamiento de los espectros se aplicó análisis de componentes principales

para la reducción de la dimensionalidad de los datos adquiridos con MALDI-ToF MS lo que

resultó en la identificación visual de tres grupos bien diferenciados (Figura 44). Los grupos

formados se constituyen por el día de adquisición de los espectros de masas, es decir y como

cabe esperar, la variabilidad fue más alta entre-grupos (días) que intra-grupos (muestras del

mismo día).

Page 119: Jhonathan David Pazmiño Arteaga

103

Figura 44. Análisis de componentes principales para los datos espectrométricos MALDI-

ToF

Si bien MALDI-ToF MS es reconocido como un método de alto rendimiento, su

reproducibilidad “spot a spot” es generalmente bajo, tales artefactos en el análisis de los datos

pueden ser causados por variaciones en la abundancia de picos de matriz. Pequeños cambios

en las condiciones experimentales, por ejemplo, temperatura de las muestras, temperatura de

la placa de acero y concentración de los reactivos pudieron hacer que los cristales formados

no fueran uniformes y por tanto el perfil espectrométrico varió en la intensidad de los iones

detectados. El reto analítico en este punto fue entrenar un algoritmo suficientemente sensible

como para discriminar entre las diferentes fuentes de variabilidad intrínsecas al método

experimental y las verdaderas características químicas de las muestras con reposo y sin

reposo.

Aunque se lograron condiciones satisfactorias para la cristalización, los diferentes iones no

fueron lo suficientemente consistentes entre las muestras y, en consecuencia, el

reconocimiento directo de señales marcadores, un escenario ideal pero muy poco frecuente,

no fue factible por ello se utilizaron herramientas de aprendizaje automático para la

clasificación con un enfoque supervisado y también no supervisado.

Page 120: Jhonathan David Pazmiño Arteaga

104

Reconocer la variabilidad entre días permitió segmentar el análisis de los datos y realizarlo

de forma separada buscando determinar si la manifestación sensorial del reposo se encuentra

asociada al perfil de los lípidos del café verde y puede reconocerse mediante el análisis

MALDI-ToF MS. Los datos divididos según el día de adquisición instrumental se procesaron

nuevamente utilizando el algoritmo y la rejilla antes utilizados; en la Tabla 25 se muestran

los parámetros óptimos que fueron encontrados para cada experimento de clasificación. Las

diferencias en los parámetros óptimos para cada modelo reflejaron también la variabilidad

de la técnica analítica de medición.

Tabla 25. Parámetros de procesamiento de los datos MALDI-ToF MS después de

optimización

Datos

Método de

estimación del

ruido

Relación

señal-ruido

Ventana de

detección

de picos

(m/z)

Tolerancia

del binning

(m/z)

Mínima

frecuencia

de

remoción

de picos

Día 1 MAD 4 30 100 0.3

Dia 2 Super Smoother 6 5 0.001 0.2

Dia 3 MAD 6 20 0.001 0.4

Completos MAD 5 30 0.001 0.1

Los modelos construidos fueron probados mediante validación externa, para esto se fraccionó

el conjunto de datos totales en dos subconjuntos, uno de entrenamiento que contenía el 80%

de las observaciones y otro de prueba con el 20%; la partición de los datos se realizó 100

veces usando semillas aleatorias, es decir, asegurando que cada vez que se formaran los

subconjuntos, los datos se asignaran a los grupos de manera diferente. En cada uno de los

pasos de división de los datos se entrenó el algoritmo de Random Forest correspondiente y

se generaron los indicadores del desempeño en la clasificación de las muestras de prueba

(Tabla 26).

Page 121: Jhonathan David Pazmiño Arteaga

105

Tabla 26. Estadísticas de desempeño de los modelos de Random Forest

Datos Error OOB Exactitud Sensibilidad Especificidad

Día 1 14 ± 6 87± 14 85 ± 20 91 ± 19

Dia 2 19 ± 5 84 ± 13 67 ± 30 92 ± 14

Dia 3 23 ± 4 77 ± 12 65 ± 24 85 ± 16

Media ± sd, n = 100. Objetivo = no reposado (vs reposado)

A menudo aplicar el algoritmo de Random Forest lleva a un aumento drástico del desempeño

de clasificación utilizando bases de datos de espectrometría de masas ya que las variables

relevantes son seleccionadas y apartadas del ruido de fondo (Martínez-Jarquín et al., 2017;

Winkler, 2015). Los modelos entrenados y validados con los datos de la huella digital de los

lípidos del café verde demostraron una exactitud promedio de cerca del 80% para la

clasificación de las muestras de café como reposadas y no reposadas, es decir, de un conjunto

hipotético de diez muestras de café verde, el modelo metabolómico podrá realizar una

clasificación correcta de ocho de ellas. Después de definir la característica objetivo como la

ausencia de reposo, la sensibilidad, o sea la habilidad disponible para clasificar correctamente

las muestras como no reposadas fue en promedio del 70% y la especificidad, que es la

capacidad de clasificar correctamente las muestras como reposadas y fue del 90% como

media.

En la Figura 45 puede verse una representación gráfica de los dos grupos formados por el

modelo de clasificación, los polígonos representan las zonas en las cuales se espera encontrar

una muestra con alguna de las dos características en estudio. Además, se han marcado en

color rojo las muestras sin reposo y en azul las muestras con reposo, dichas marcas

corresponden a las etiquetas asignadas desde el análisis sensorial. Es importante destacar que

la representación en dos dimensiones es solo para efectos visuales pues el espacio de análisis

de las variables que construye el modelo utiliza todas las señales m/z que se especificaron

anteriormente.

Page 122: Jhonathan David Pazmiño Arteaga

106

Día 1 Día 2 Día 3

Figura 45. Clasificación según el día de análisis instrumental

Entrenar un modelo de clasificación con los datos de los tres días de análisis de forma

independiente permitió verificar las potencialidades del método desarrollado para estudiar

los cambios en la composición química del aceite de café como un indicador de la pérdida

de la calidad sensorial. Contemplando los resultados anteriores, se realizó el entrenamiento

de un modelo que utilizará los datos del perfil de masas de los lípidos de las 65 muestras

completas, de esta forma se reta al algoritmo a extraer y diferenciar las fuentes de variabilidad

asociadas al protocolo experimental y las propias de las muestras debidas a sus aspectos de

calidad.

El modelo de clasificación Random Forest construido tuvo un error OOB de 26% y una

exactitud del 74%, estos valores por sí mismos no son suficientes para evaluar la calidad del

modelo, es necesario comprender el tipo de problema que se intenta resolver o las

consecuencias de las decisiones que pueden basarse en la información obtenida con estas

herramientas. La exactitud en la clasificación es un cómputo realizado entre los elementos

que fueron clasificados correctamente, sin importar la etiqueta que estos tenían; sin embargo,

en un proceso de evaluación de calidad en el cual el interés particular es identificar las

muestras que tienen el defecto de reposo, tiene mayor relevancia que el modelo pueda

identificar correctamente esta categoría a costa de sacrificar el desempeño en la identificación

de la categoría opuesta. Una idea que se debe tener en cuenta frente a los algoritmos de

clasificación es que no se puede optimizar todos los parámetros de desempeño al mismo

tiempo, se debe sacrificar uno en ganancia de otro.

Page 123: Jhonathan David Pazmiño Arteaga

107

La evaluación de la capacidad del modelo para identificar correctamente una muestra de café

verde reposada se realizó teniendo en cuenta el valor de la especificidad que fue de 71%. En

un contexto en el cual se lleve a cabo la evaluación de la calidad del café verde mediante

MALDI-ToF MS y un algoritmo de clasificación supervisado Random Forest, de cada 100

muestras evaluadas que tengan el defecto de reposo, se tendrá una confianza de que al menos

71 de ellas fueron correctamente identificadas. En la aplicación comercial o industrial resulta

importante tener certeza para identificar correctamente una muestra reposada, pues ante la

incertidumbre una muestra puede ser evaluada por los catadores, pero ellos no tendrán que

saturarse con las sensaciones sensoriales negativas que generan estas muestras.

En la Figura 46 se pueden ver los polígonos de clasificación que estableció el modelo; como

en la figura presentada previamente, se observan tres grupos separados según el día de

análisis; sin embargo, se puede ver como con el modelo se pudieron trazar áreas de

clasificación que corresponden en un grado aceptable a la correcta asignación de las etiquetas

verdaderas. Como puede verse en la matriz de confusión, el porcentaje de eventos

denominados como falsos positivos fue del 29% y como falsos negativos 25%.

A: Polígonos de clasificación

B: Matriz de confusión

Figura 46. Resultados del modelo de clasificación con los datos completos MALDI ToF MS

Page 124: Jhonathan David Pazmiño Arteaga

108

Utilizando la información de la disminución media de Gini del modelo construido con los

datos de las 65 muestras se generó el ranking de los picos de m/z con mayor relevancia para

discriminar entre el café verde reposado y el café verde no reposado. Al igual que se mostró

para el caso de la RMN, estos picos son elegidos por el modelo debido a que aportan de

manera efectiva en el proceso de separación de las muestras partiendo del grupo principal

altamente heterogéneo. En la Figura 47 se representan las 20 m/z más importantes, el valor

de la disminución media de Gini asociado a cada una y el mapa de calor, a este último lo

conforman las muestras estudiadas, dispuestas de manera horizontal y las variables (señales),

en forma vertical; cada cuadro se coloreó según la intensidad de la señal en las muestras. Se

pudo evidenciar que las dos primeras señales, con m/z de 758,66 y 782,69 son las más

importantes para la clasificación, algo que puede verse al contrastar la zona izquierda y

derecha del mapa de calor; las muestras de café verde no reposado se colorearon de tonos

rojizos lo que indicó intensidades altas mientas que las muestras de café verde reposado

mostraron menos intensidad y numero en dicha coloración. Si bien dado que el enfoque de

huella digital aplicado no permite identificar los compuestos asociados a estas m/z se presume

que no son triacilgliceroles pues la m/z para el compuesto más pequeño de este tipo

(palmítico-linoleico-palmítico, 16:0-18:2-16:0) que se ha reportado en café es de 853,73 para

el aducto con sodio.

Figura 47. Mapa de calor para las 20 señales más importantes en la clasificación según el

Gini

Page 125: Jhonathan David Pazmiño Arteaga

109

5. CONCLUSIONES Y RECOMENDACIONES

De este trabajo se puede concluir:

Los factores del almacenamiento forzado (humedad, temperatura, luz) generaron

disminución de la calidad sensorial del café; sin embargo, la humedad afectó más al café

lavado mientras que el oxígeno afectó en mayor medida al café semilavado. Además de la

disminución sensorial también se observaron alteraciones en el contenido de agua, en la

luminosidad y en el parámetro de color b* de los granos de ambos beneficios. Las

observaciones permiten concluir que diferentes métodos de beneficio de café no solo dan

lugar a diferencias en los perfiles de la calidad sensorial, sino que también afectan el

comportamiento del grano de café verde durante el almacenamiento. Se corroboró que las

características de deterioro asociadas con la pérdida de la calidad sensorial fueron las mismas

para el café verde sometido al almacenamiento natural y al almacenamiento forzado.

Los protocolos de extracción de aceite de café verde y los métodos de análisis por RMN y

MALDI-ToF MS permitieron obtener la información espectroscópica y espectrométrica de

los lípidos del café verde en forma de una huella metabolómica reproducible para ser aplicada

en cualquier tipo de café sin importar su proceso de beneficio u origen geográfico.

El uso de la huella digital lipidómica por MALDI-ToF MS al igual que por 1H RMN permitió

discriminar entre el café verde reposado y no reposado. Este enfoque demostró que el uso de

estas herramientas instrumentales tiene un amplio potencial para implementar soluciones

eficientes a los problemas del control de calidad dado que el tiempo total para la medición,

procesamiento y análisis automático de los datos usando el modelo de clasificación de

Random Forest se reduce de forma considerable en comparación con el análisis sensorial;

además, por las características de los equipos instrumentales se hace posible el análisis de

lotes de muestras de manera conjunta. Conocer el estado de una muestra de café verde en lo

referente a la calidad asociada con el defecto de reposo debido al almacenamiento es algo

mucho más largo, complejo y desgastante cuando se debe recurrir al análisis sensorial.

Page 126: Jhonathan David Pazmiño Arteaga

110

Los análisis lipidómicos fundamentados en la espectroscopía de 1H RMN permitieron

reconocer la presencia de señales claves para la discriminación entre el café verde reposado

y el no reposado. Los posibles compuestos asociados a dichas señales no fueron vinculados

con ninguno de los compuestos mayoritarios del aceite de café verde, además, se determinó

que su cantidad relativa fue muy baja y que durante el almacenamiento tienden a disminuir.

La manifestación química del defecto de reposo se pudo reconocer analíticamente desde el

estudio lipidómico, el monitoreo de muestras de café verde con diferentes perfiles

geográficos y de procesos poscosecha dejo ver que el método se puede aplicar de manera

sistemática a cualquier muestra de café; sin embargo, la pérdida de la calidad debe ser descrita

de forma particular para cada muestra de café dado que sus características de composición

química y estado biológico condicionan la velocidad del proceso.

El punto de vista tratado en esta tesis aportó novedad al estudio del fenómeno de

envejecimiento del café verde dado que no existe una relación contundente entre alguna

característica química y el reposo sensorial; se encontraron evidencias que vinculan mediante

una relación numérica el aspecto sensorial e instrumental.

La calificación de la intensidad del reposo realizada por los expertos catadores proporcionó

información valiosa respecto al comportamiento y a la evolución de la calidad de las muestras

de café verde durante el tiempo de almacenamiento, de esa manera las limitaciones que se

observaron al contrastar el análisis sensorial con las predicciones de la clasificación

realizadas por los modelos lipidómicos dejaron ver que aplicar este enfoque permitiría el

desarrollo de una escala de medición continua para detectar y cuantificar el defecto de reposo

incluso antes de que pueda determinarse de forma sensorial.

Las siguientes recomendaciones y perspectivas de trabajo se presentan como motivación para

continuar lo estudios sobre el envejecimiento del café verde:

Teniendo en cuenta que el algoritmo de Random Forest fue una aproximación metabolómica

no dirigida de huella digital que se desarrolló como un estudio de generación de nuevas

Page 127: Jhonathan David Pazmiño Arteaga

111

hipótesis y que permitió obtener información de calidad derivada de los perfiles lipidómicos

se dieron luces para el desarrollo de futuras investigaciones sobre el envejecimiento del café

verde enfocadas en reducir el espectro de ciertos compuestos a los cuales puede atribuirse la

diferencia entre las dos categorías de calidad

La identificación de las estructuras químicas asociadas a las señales de 1H RMN que fueron

claves para diferenciar entre el café verde con reposo y sin reposo permitiría desarrollar una

estrategia para el monitoreo, control de calidad y estudios de vida útil del café verde.

El enfoque de este trabajo permitió evidenciar las limitantes de la forma como se realiza el

control de calidad sensorial. Se pudo ver que en secciones de trabajo extensas donde la

cantidad de muestras fue de más de 50, los catadores manifestaron fatiga y cansancio, dos

comportamientos típicos en procesos industriales realizados por seres humanos. La

estandarización de un protocolo sensorial para medir la intensidad del reposo ligado a las

señales del perfil lipidómico permitiría establecer de manera confiable criterios de aceptación

y control para la verificación directa de la calidad del café verde; para este tipo de estudios

se requerirían menos muestras dado en este trabajo se observó consistencia en los bins

determinados como relevantes en la clasificación.

Page 128: Jhonathan David Pazmiño Arteaga

112

6. BIBLIOGRAFÍA

Ali, M., Homann, T., Kreisel, J., Khalil, M., Puhlmann, R., Kruse, H. P., & Rawel, H. (2012).

Characterization and modeling of the interactions between coffee storage proteins and

phenolic compounds. Journal of Agricultural and Food Chemistry, 60(46), 11601–

11608. https://doi.org/10.1021/jf303372a

Alves, E., Melo, T., Rey, F., Moreira, A. S. P., Domingues, P., & Domingues, M. R. (2016).

Polar lipid profiling of olive oils as a useful tool in helping to decipher their unique

fingerprint. LWT, 74, 371–377. https://doi.org/10.1016/j.lwt.2016.07.071

Angelo, A. J. St. (1992). Lipid oxidation in food (A. symposium Series (Ed.)).

Arana, V. A., Medina, J., Alarcon, R., Moreno, E., Heintz, L., Schäfer, H., & Wist, J. (2015).

Coffee’s country of origin determined by NMR: The Colombian case. Food Chemistry,

175, 500–506. https://doi.org/10.1016/j.foodchem.2014.11.160

Ayorinde, F. O., Eribo, B. E., Balan, K. V., Johnson, J. H., & Wan, L. W. (1999).

Determination of major triacylglycerol components of polyunsaturated specialty oils

using matrix-assisted laser desorption/ionization time-of-flight mass spectrometry.

Rapid Communications in Mass Spectrometry, 13(10), 937–942.

https://doi.org/10.1002/(SICI)1097-0231(19990530)13:10<937::AID-

RCM590>3.0.CO;2-T

Bali, R., & Sarkar, D. (2016). R Machine Learning By Example. Packt Publishing.

Bao, Q., Feng, J., Chen, F., Mao, W., Liu, Z., Liu, K., & Liu, C. (2012). A new automatic

baseline correction method based on iterative method. Journal of Magnetic Resonance,

218, 35–43. https://doi.org/10.1016/j.jmr.2012.03.010

Bertone, E., Venturello, A., Giraudo, A., Pellegrino, G., & Geobaldo, F. (2016).

Simultaneous determination by NIR spectroscopy of the roasting degree and

Arabica/Robusta ratio in roasted and ground coffee. Food Control, 59, 683–689.

Page 129: Jhonathan David Pazmiño Arteaga

113

https://doi.org/10.1016/j.foodcont.2015.06.055

Bertrand, B., Boulanger, R., Dussert, S., Ribeyre, F., Berthiot, L., Descroix, F., & Joët, T.

(2012). Climatic factors directly impact the volatile organic compound fingerprint in

green Arabica coffee bean as well as coffee beverage quality. Food Chemistry, 135(4),

2575–2583. https://doi.org/10.1016/j.foodchem.2012.06.060

Borém, F. M., Ribeiro, F. C., Figueiredo, L. P., Giomo, G. S., Fortunato, V. A., & Isquierdo,

E. P. (2013). Evaluation of the sensory and color quality of coffee beans stored in

hermetic packaging. Journal of Stored Products Research, 52, 1–6.

https://doi.org/10.1016/j.jspr.2012.08.004

Boufridi, A., & Quinn, R. J. (2016). Turning Metabolomics into Drug Discovery. Journal of

the Brazilian Chemical Society, 27(8), 1334–1338. https://doi.org/10.5935/0103-

5053.20160083 J.

Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32.

https://doi.org/10.1023/A:1010933404324

Broissin-Vargas, L. M., Snell-Castro, R., Godon, J. J., González-Ríos, O., & Suárez-Quiroz,

M. L. (2018). Impact of storage conditions on fungal community composition of green

coffee beans Coffea arabica L. stored in jute sacks during 1 year. Journal of Applied

Microbiology, 124(2), 547–558. https://doi.org/10.1111/jam.13656

Bucheli, P., Meyer, I., Pittet, A., Vuataz, G., & Viani, R. (1998). Industrial Storage of Green

Robusta Coffee under Tropical Conditions and Its Impact on Raw Material Quality and

Ochratoxin A Content. Journal of Agricultural and Food Chemistry, 46(11), 4507–

4511. https://doi.org/10.1021/jf980468+

Buffo, R. A., & Cardelli-Freire, C. (2004). Coffee flavour: An overview. Flavour and

Fragrance Journal, 19(2), 99–104. https://doi.org/10.1002/ffj.1325

Bytof, G., Knopp, S.-E., Kramer, D., Breitenstein, B., Bergervoet, J. H. W., Groot, S. P. C.,

& Selmar, D. (2007). Transient occurrence of seed germination processes during coffee

post-harvest treatment. Annals of Botany, 100(1), 61–66.

Page 130: Jhonathan David Pazmiño Arteaga

114

https://doi.org/10.1093/aob/mcm068

Bytof, G., & Peter, S. K. (2005). Influence of processing on the generation of g -aminobutyric

acid in green coffee beans. 245–250. https://doi.org/10.1007/s00217-004-1033-z

Casas, M. I., Vaughan, M. J., Bonello, P., McSpadden Gardener, B., Grotewold, E., &

Alonso, A. P. (2017). Identification of biochemical features of defective Coffea arabica

L. beans. Food Research International, 95, 59–67.

https://doi.org/10.1016/j.foodres.2017.02.015

Chapagain, B. P., & Wiesman, Z. (2009). MALDI-TOF/MS fingerprinting of

Triacylglycerols (TAGs) in olive oils produced in the Israeli Negev desert. Journal of

Agricultural and Food Chemistry, 57(4), 1135–1142. https://doi.org/10.1021/jf8025277

Cheng, B., Furtado, A., Smyth, H. E., & Henry, R. J. (2016). Influence of genotype and

environment on coffee quality. Trends in Food Science & Technology, 57, 20–30.

https://doi.org/10.1016/j.tifs.2016.09.003

Consonni, R., Cagliani, L. R., & Cogliati, C. (2012). NMR based geographical

characterization of roasted coffee. Talanta, 88, 420–426.

https://doi.org/10.1016/j.talanta.2011.11.010

Cozzolino, R., & De Giulio, B. (2011). Application of ESI and MALDI-TOF MS for

triacylglycerols analysis in edible oils. European Journal of Lipid Science and

Technology, 113(2), 160–167. https://doi.org/10.1002/ejlt.201000429

D’Amelio, N., De Angelis, E., Navarini, L., Schievano, E., & Mammi, S. (2013). Green

coffee oil analysis by high-resolution nuclear magnetic resonance spectroscopy.

Talanta, 110, 118–127. https://doi.org/10.1016/j.talanta.2013.02.024

Datta, S., & Mertens, B. J. A. (Eds.). (2017). Statistical Analysis of Proteomics,

Metabolomics, and Lipidomics Data Using Mass Spectrometry. Springer International

Publishing. https://doi.org/10.1007/978-3-319-45809-0

De Meyer, T., Sinnaeve, D., Van Gasse, B., Tsiporkova, E., Rietzschel, E. R., De Buyzere,

Page 131: Jhonathan David Pazmiño Arteaga

115

M. L., Gillebert, T. C., Bekaert, S., Martins, J. C., & Van Criekinge, W. (2008). NMR-

based characterization of metabolic alterations in hypertension using an adaptive,

intelligent binning algorithm. Analytical Chemistry, 80(10), 3783–3790.

https://doi.org/10.1021/ac7025964

Defernez, M., Wren, E., Watson, A. D., Gunning, Y., Colquhoun, I. J., Le Gall, G.,

Williamson, D., & Kemsley, E. K. (2017). Low-field 1H NMR spectroscopy for

distinguishing between arabica and robusta ground roast coffees. Food Chemistry, 216,

106–113. https://doi.org/10.1016/j.foodchem.2016.08.028

Dias, E. C., Borém, F. M., Pereira, R. G. F. A., & Guerreiro, M. C. (2012). Amino acid

profiles in unripe Arabica coffee fruits processed using wet and dry methods. European

Food Research and Technology, 234(1), 25–32. https://doi.org/10.1007/s00217-011-

1607-5

Dona, A. C., Kyriakides, M., Scott, F., Shephard, E. A., Varshavi, D., Veselkov, K., &

Everett, J. R. (2016). A guide to the identification of metabolites in NMR-based

metabonomics/metabolomics experiments. Computational and Structural

Biotechnology Journal, 14, 135–153. https://doi.org/10.1016/j.csbj.2016.02.005

Donovan, N. K., Foster, K. A., & Parra Salinas, C. A. (2019). Analysis of green coffee quality

using hermetic bag storage. Journal of Stored Products Research, 80, 1–9.

https://doi.org/10.1016/j.jspr.2018.11.003

Dussert, S., Davey, M. W., Laffargue, A., Doulbeau, S., Swennen, R., & Etienne, H. (2006).

Oxidative stress, phospholipid loss and lipid hydrolysis during drying and storage of

intermediate seeds. Physiologia Plantarum, 127(2), 192–204.

https://doi.org/10.1111/j.1399-3054.2006.00666.x

Ellis, A. R. H., Hong, T. D., & Roberts, E. H. (1990). An Intermediate Category of Seed

Storage. OXford University Press, 41(230), 1167–1174.

Fantazzini, T. B., Rosa, D. V. F. da, Pereira, C. C., Pereira, D. de S., Cirillo, M. Â., & Ossani,

P. C. (2018). Association between the artificial aging test and the natural storage of

Page 132: Jhonathan David Pazmiño Arteaga

116

coffee seeds. Journal of Seed Science, 40(2), 164–172. https://doi.org/10.1590/2317-

1545v40n2188120

Feria-Morales, A. M. (2002). Examining the case of green coffee to illustrate the limitations

of grading systems/expert tasters in sensory evaluation for quality control. Food Quality

and Preference, 13(6), 355–367. https://doi.org/10.1016/S0950-3293(02)00028-9

Fiehn, O. (2002). Metabolomics – the link between genotypes and phenotypes. Plant

Molecular Biology, 48, 155–171.

Flament, I. (2002). Coffee flavor chemistry (John Wiley).

Gibb, S., & Strimmer, K. (2012). Maldiquant: A versatile R package for the analysis of mass

spectrometry data. Bioinformatics, 28(17), 2270–2271.

https://doi.org/10.1093/bioinformatics/bts447

Gron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts,

Tools, and Techniques to Build Intelligent Systems (1st ed.). O’Reilly Media, Inc.

Han, X., & Gross, R. W. (2005). Shotgun lipidomics: Electrospray ionization mass

spectrometric analysis and quantitation of cellular lipidomes directly from crude

extracts of biological samples. Mass Spectrometry Reviews, 24(3), 367–412.

https://doi.org/10.1002/mas.20023

Hartshorn, S. (n.d.). Machine Learning With Random Forests And Decision Trees. A Visual

Guide For Beginners; Machine Learning with R.

Hernández-Aguilera, J. N., Gómez, M. I., Rodewald, A. D., Rueda, X., Anunu, C., Bennett,

R., & Es, H. M. Van. (2018). Quality as a Driver of Sustainable Agricultural Value

Chains: The Case of the Relationship Coffee Model. Business Strategy and the

Environment, 198, 179–198. https://doi.org/10.1002/bse.2009

Holscher, W., & Steinhart, H. (1995). Aroma compounds in green coffee. In Developments

in Food Science (Vol. 37, Issue C, pp. 785–803). https://doi.org/10.1016/S0167-

4501(06)80196-2

Page 133: Jhonathan David Pazmiño Arteaga

117

Hoyos-Ossa, D. E., Gil-Solsona, R., Peñuela, G. A., Sancho, J. V., & Hernández, F. J. (2018).

Assessment of protected designation of origin for Colombian coffees based on HRMS-

based metabolomics. Food Chemistry, 250(January), 89–97.

https://doi.org/10.1016/j.foodchem.2018.01.038

Hu, B., Li, C., Qin, W., Zhang, Z., Liu, Y., Zhang, Q., Liu, A., Jia, R., Yin, Z., Han, X., Zhu,

Y., Luo, Q., & Liu, S. (2019). Industrial Crops & Products A method for extracting oil

from tea ( Camelia sinensis ) seed by microwave in combination with ultrasonic and

evaluation of its quality. Industrial Crops & Products, 131, 234–242.

https://doi.org/10.1016/j.indcrop.2019.01.068

Ibarra-Estrada, E., Soto-Hernández, R., & Palma-tenango, M. (2016). Metabolomics as a

Tool in Agriculture Agriculture. In Metabolomics - Fundamentals and Applications

(Jeevan K., pp. 147–168). IntechOpen. https://doi.org/10.5772/66485

Iwasa, K., Setoyama, D., Shimizu, H., Seta, H., Fujimura, Y., Miura, D., Wariishi, H., Nagai,

C., & Nakahara, K. (2015). Identification of 3-Methylbutanoyl Glycosides in Green

Coffea arabica Beans as Causative Determinants for the Quality of Coffee Flavors.

Journal of Agricultural and Food Chemistry, 63(14), 3742–3751.

https://doi.org/10.1021/jf5054047

Jacob, D., Deborde, C., Lefebvre, M., Maucourt, M., & Moing, A. (2017). NMRProcFlow:

a graphical and interactive tool dedicated to 1D spectra processing for NMR-based

metabolomics. Metabolomics, 13(4), 36. https://doi.org/10.1007/s11306-017-1178-y

Jham, G. N., Velikova, R., Vidal Muller, H., Nikolova-Damyanova, B., & Cecon, P. R.

(2001). Lipid classes and triacylglycerols in coffee samples from Brazil: Effects of

coffee type and drying procedures. Food Research International, 34(2–3), 111–115.

https://doi.org/10.1016/S0963-9969(00)00137-X

Jin, Z., Daiya, S., & Kenttämaa, H. I. (2011). Characterization of nonpolar lipids and selected

steroids by using laser-induced acoustic desorption/chemical ionization, atmospheric

pressure chemical ionization, and electrospray ionization mass spectrometry.

International Journal of Mass Spectrometry, 301(1–3), 234–239.

Page 134: Jhonathan David Pazmiño Arteaga

118

https://doi.org/10.1016/j.ijms.2010.11.001

Joët, T., Laffargue, A., Descroix, F., Doulbeau, S., Bertrand, B., kochko, A. de, & Dussert,

S. (2010). Influence of environmental factors, wet processing and their interactions on

the biochemical composition of green Arabica coffee beans. Food Chemistry, 118(3),

693–701. https://doi.org/10.1016/j.foodchem.2009.05.048

Kaufman, M., & Wiesman, Z. (2007). Pomegranate Oil Analysis with Emphasis on MALDI-

TOF / MS Triacylglycerol Finger Printing. Journal of Agricultural and Food Chemistry,

55, 1–29.

Kessner, D., Chambers, M., Burke, R., Agus, D., & Mallick, P. (2008). ProteoWizard: Open

source software for rapid proteomics tools development. Bioinformatics, 24(21), 2534–

2536. https://doi.org/10.1093/bioinformatics/btn323

Kishimoto, K., Urade, R., Ogawa, T., & Moriyama, T. (2001). Nondestructive quantification

of neutral lipids by thin-layer chromatography and laser-fluorescent scanning: Suitable

methods for “lipidome” analysis. Biochemical and Biophysical Research

Communications, 281(3), 657–662. https://doi.org/10.1006/bbrc.2001.4404

Klupczynska, A., Derezinski, P., & Kokot, Z. (2015). Metabolomics in medical sciences -

trends, challenges and perspectives. Acta Poloniae Pharmaceutica - Drug Research,

72(4), 629–641.

Knopp, S., Bytof, G., & Selmar, D. (2006). Influence of processing on the content of sugars

in green Arabica coffee beans. European Food Research and Technology, 223(2), 195–

201. https://doi.org/10.1007/s00217-005-0172-1

Kramer, D., Breitenstein, B., Kleinwchter, M., & Selmar, D. (2010). Stress metabolism in

green coffee beans (Coffea arabica L.): Expression of dehydrins and accumulation of

GABA during drying. Plant and Cell Physiology, 51(4), 546–553.

https://doi.org/10.1093/pcp/pcq019

Kubo, A., Satoh, T., Itoh, Y., Hashimoto, M., Tamura, J., & Cody, R. B. (2013). Structural

analysis of triacylglycerols by using a MALDI-TOF/TOF system with monoisotopic

Page 135: Jhonathan David Pazmiño Arteaga

119

precursor selection. Journal of the American Society for Mass Spectrometry, 24(5), 684–

689. https://doi.org/10.1007/s13361-012-0513-9

Kuo, T.-H., Kuei, M.-S., Hsiao, Y., Chung, H.-H., Hsu, C.-C., & Chen, H.-J. (2019). Matrix-

Assisted Laser Desorption/Ionization Mass Spectrometry Typings of Edible Oils

through Spectral Networking of Triacylglycerol Fingerprints. ACS Omega, 4(13),

15734–15741. https://doi.org/10.1021/acsomega.9b02433

Kwon, D.-J., Jeong, H.-J., Moon, H., Kim, H.-N., Cho, J.-H., Lee, J.-E., Hong, K. S., &

Hong, Y.-S. (2015). Assessment of green coffee bean metabolites dependent on coffee

quality using a 1H NMR-based metabolomics approach. Food Research International,

67, 175–182. https://doi.org/10.1016/j.foodres.2014.11.010

Lantz, B. (2013). Machine Learning with R. Packt Publishing.

Lara-Ortega, F. J., Beneito-Cambra, M., Robles-Molina, J., García-Reyes, J. F., Gilbert-

López, B., & Molina-Díaz, A. (2018). Direct olive oil analysis by mass spectrometry:

A comparison of different ambient ionization methods. Talanta, 180(October 2017),

168–175. https://doi.org/10.1016/j.talanta.2017.12.027

Lee, L. W., Cheong, M. W., Curran, P., Yu, B., & Liu, S. Q. (2015). Coffee fermentation and

flavor - An intricate and delicate relationship. In Food Chemistry (Vol. 185, pp. 182–

191). Elsevier Ltd. https://doi.org/10.1016/j.foodchem.2015.03.124

Lewis, N. . (2017). MACHINE LEARNING MADE EASY With R. An Intuitive Step by Step

Blueprint for Beginners. N.D. Lewis.

Li, L., Han, J., Wang, Z., Liu, J., Wei, J., Xiong, S., & Zhao, Z. (2014). Mass spectrometry

methodology in lipid analysis. International Journal of Molecular Sciences, 15(6),

10492–10507. https://doi.org/10.3390/ijms150610492

Liaw, A., & Wiener, M. (2002). Classification and Regression by randomForest. R News,

2(December), 18–22. https://doi.org/10.1023/A:1010933404324

Lísa, M., & Holčapek, M. (2015). High-Throughput and Comprehensive Lipidomic Analysis

Page 136: Jhonathan David Pazmiño Arteaga

120

Using Ultrahigh-Performance Supercritical Fluid Chromatography-Mass Spectrometry.

Analytical Chemistry, 87(14), 7187–7195.

https://doi.org/10.1021/acs.analchem.5b01054

Livramento, K. G. do, Borém, F. M., José, A. C., Santos, A. V., Livramento, D. E. do, Alves,

J. D., & Paiva, L. V. (2017). Proteomic analysis of coffee grains exposed to different

drying process. Food Chemistry, 221, 1874–1882.

https://doi.org/10.1016/j.foodchem.2016.10.069

Lucia, M. De, Panzella, L., Melck, D., Giudicianni, I., Motta, A., Napolitano, A., & Ischia,

M. (2009). Differential Reactivity of Purified Bioactive Coffee Furans Cafestol and

Kahweol with Acidic Nitrite Product Characterization and Factors Controlling

Nitrosation Versus Ring-Opening Pathways.pdf. 1922–1928.

Madhava Naidu, M., Sulochanamma, G., Sampathu, S. R., & Srinivas, P. (2008). Studies on

extraction and antioxidant potential of green coffee. Food Chemistry, 107(1), 377–384.

https://doi.org/10.1016/j.foodchem.2007.08.056

Markley, J. L., Brüschweiler, R., Edison, A., Eghbalnia, H., Powers, R., Raftery, D., &

Wishart, D. S. (2017). The Future of NMR-Based Metabolomics. Curr Opin Biotechnol,

43, 34–40. https://doi.org/10.1016/j.copbio.2016.08.001

Martínez-Jarquín, S., Moreno-Pedraza, A., Cázarez-García, D., & Winkler, R. (2017).

Automated chemical fingerprinting of Mexican spirits derived from: Agave (tequila and

mezcal) using direct-injection electrospray ionisation (DIESI) and low-temperature

plasma (LTP) mass spectrometry. Analytical Methods, 9(34), 5023–5028.

https://doi.org/10.1039/c7ay00793k

Mazzafera, P. (1999). Chemical composition of defective coffee beans. In Food Chemistry

(Vol. 64, Issue 4, pp. 547–554). https://doi.org/10.1016/S0308-8146(98)00167-8

Mestdagh, F., Davidek, T., Chaumonteuil, M., Folmer, B., & Blank, I. (2014). The kinetics

of coffee aroma extraction. Food Research International, 63, 271–274.

https://doi.org/10.1016/j.foodres.2014.03.011

Page 137: Jhonathan David Pazmiño Arteaga

121

Montavon, P., Duruz, E., Rumo, G., & Pratz, G. (2003). Evolution of green coffee protein

profiles with maturation and relationship to coffee cup quality. Journal of Agricultural

and Food Chemistry, 51(8), 2328–2334. https://doi.org/10.1021/jf020831j

Morland, L. (2018). Values added in speciality coffee : Connecting product and place

through songlines. https://doi.org/10.1177/1465750318761648

Murphy, R. C., & Axelsen, P. H. (2011). MASS SPECTROMETRIC ANALYSIS OF LONG-

CHAIN LIPIDS. 579–599. https://doi.org/10.1002/mas

Nicholson, J., Holmes, E., & Lindon, J. (2007). Metabonomics and Metabolomics

Techniques and Their Applications in Mammalian Systems. In J. Nicholson, E. Holmes,

& J. Lindon (Eds.), The Handbook of Metabonomics and Metabolomics. Elsevier B.V.

Nikolova-Damyanova, B., Velikova, R., & Jham, G. N. (1998). Lipid classes, fatty acid

composition and triacylglycerol molecular species in crude coffee beans harvested in

Brazil. Food Research International, 31(6–7), 479–486. https://doi.org/10.1016/S0963-

9969(99)00016-2

Patui, S., Clincon, L., Peresson, C., Zancani, M., Conte, L., Del Terra, L., Navarini, L.,

Vianello, A., & Braidot, E. (2014). Lipase activity and antioxidant capacity in coffee

(Coffea arabica L.) seeds during germination. Plant Science, 219–220, 19–25.

https://doi.org/10.1016/j.plantsci.2013.12.014

Pazmiño-Arteaga, J. D., Chagolla, A., Gallardo-Cabrera, C., Ruiz-Márquez, A. F., González-

Rodríguez, A. T., Camargo-Escalante, M. O., Tiessen, A., & Winkler, R. (2019).

Screening for Green Coffee with Sensorial Defects Due to Aging During Storage by

MALDI-ToF Mass Fingerprinting. Food Analytical Methods, 12(7), 1571–1576.

https://doi.org/10.1007/s12161-019-01485-9

Petković, M., Schiller, J., Müller, M., Süß, R., Arnold, K., & Arnhold, J. (2009). Detection

of adducts with matrix clusters in the positive and negative ion mode MALDI-TOF mass

spectra of phospholipids. Zeitschrift Fur Naturforschung - Section B Journal of

Chemical Sciences, 64(3), 331–334.

Page 138: Jhonathan David Pazmiño Arteaga

122

Prama, S., & Fukusaki, E. (2015). Metabolomics in a Nutshell. In S. Prama & E. Fukusaki

(Eds.), Mass Spectrometry-Based Metabolomics. A Practical Guide. Taylor & Francis

Ltd.

Preedy, V. R. (2015). Coffee in Health and Disease Prevention. In V. R. Preedy (Ed.), Coffee

in Health and Disease Prevention. Elsevier. https://doi.org/10.1016/C2012-0-06959-1

Rabelo, L., Bhide, S., & Gutierrez-Franco, E. (2017). Artificial Intelligence: Advances in

Research and Applications. In Artificial Intelligence: Advances in Research and

Applications.

Rampler, E., Schoeny, H., Mitic, B. M., El Abiead, Y., Schwaiger, M., & Koellensperger, G.

(2018). Simultaneous non-polar and polar lipid analysis by on-line combination of

HILIC, RP and high resolution MS. Analyst, 143(5), 1250–1258.

https://doi.org/10.1039/c7an01984j

Rendón, M. Y., De Jesus Garcia Salva, T., & Bragagnolo, N. (2014). Impact of chemical

changes on the sensory characteristics of coffee beans during storage. Food Chemistry,

147, 279–286. https://doi.org/10.1016/j.foodchem.2013.09.123

Ribbenstedt, A., Ziarrusta, H., & Benskin, J. P. (2018). Development , characterization and

comparisons of targeted and non-targeted metabolomics methods. PLoS ONE, 13(11),

1–18. https://doi.org/doi.org/10.1371/journal. pone.0207082

Ribeiro, F. C., Borém, F. M., Giomo, G. S., De Lima, R. R., Malta, M. R., & Figueiredo, L.

P. (2011). Storage of green coffee in hermetic packaging injected with CO2. Journal of

Stored Products Research, 47(4), 341–348. https://doi.org/10.1016/j.jspr.2011.05.007

Roberts, E. H. (1973). Predicting the Storage Life of Seeds. Seed Science and Technology,

1, 499–514.

Roberts, L. D., Souza, A. L., Gerszten, R. E., & Clish, C. B. (2012). Targeted Metabolomics.

Current Protocols in Molecular Biology, 98(1), 30.2.1-30.2.24.

https://doi.org/10.1002/0471142727.mb3002s98

Page 139: Jhonathan David Pazmiño Arteaga

123

Rolin, D., Deborde, C., Maucourt, M., Cabasson, C., Fauvelle, F., Jacob, D., Canlet, C., &

Moing, A. (2013). High-resolution 1H-NMR spectroscopy and beyond to explore plant

metabolome. In Advances in Botanical Research (Vol. 67, pp. 1–66).

https://doi.org/10.1016/B978-0-12-397922-3.00001-0

Sandusky, P. O. (2017). Introducing Undergraduate Students to Metabolomics Using a

NMR-Based Analysis of Coffee Beans. Journal of Chemical Education,

acs.jchemed.6b00559. https://doi.org/10.1021/acs.jchemed.6b00559

Scheidig, C., Czerny, M., & Schieberle, P. (2007). Changes in key odorants of raw coffee

beans during storage under defined conditions. Journal of Agricultural and Food

Chemistry, 55(14), 5768–5775. https://doi.org/10.1021/jf070488o

Schiller, J., Su, R., Arnhold, J., Fuchs, B., Leßig, J., Mu, M., Petkovic, M., Spalteholz, H.,

Zscho, O., & Arnold, K. (2004). Progress in Lipid Research Matrix-assisted laser

desorption and ionization time-of-flight ( MALDI-TOF ) mass spectrometry in lipid and

phospholipid research. 43, 449–488. https://doi.org/10.1016/j.plipres.2004.08.001

Schmelzer, K., Fahy, E., Subramaniam, S., & Dennis, E. A. (2007). The Lipid Maps Initiative

in Lipidomics. In Lipidomics and Bioactive Lipids: Mass‐Spectrometry–Based Lipid

Analysis (Vol. 432, pp. 171–183). Academic Press. https://doi.org/10.1016/S0076-

6879(07)32007-7

Schripsema, J. (2010). Application of NMR in plant metabolomics: Techniques, problems

and prospects. Phytochemical Analysis, 21(1), 14–21. https://doi.org/10.1002/pca.1185

Selmar, D., Bytof, G., Knopp, S.-E., & Breitenstein, B. (2006). Germination of coffee seeds

and its significance for coffee quality. Plant Biology, 8(2), 260–264.

https://doi.org/10.1055/s-2006-923845

Selmar, Dirk, Bytof, G., & Knopp, S.-E. (2008). The storage of green coffee (Coffea

arabica): Decrease of viability and changes of potential aroma precursors. Annals of

Botany, 101(1), 31–38. https://doi.org/10.1093/aob/mcm277

Selmar, Dirk, Kleinwächter, M., & Bytof, G. (2014). Metabolic responses of coffee beans

Page 140: Jhonathan David Pazmiño Arteaga

124

during processing and their impact on coffee flavor. In R. Schwan & G. Fleet (Eds.),

Cocoa and coffee fermentations (pp. 431–476). Taylor & Francis.

Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding Machine Learning: From

Theory to Algorithms. Cambridge University Press.

Shibamoto, T. (2015). Volatile chemicals from thermal degradation of less volatile coffee

components. In U. Preedy, Victor (Department of Nutrition and Dietetics, King’s

College London, London (Ed.), Coffee in health and disease prevention (Elsevier, pp.

129–135). Academic Press.

Specialty Coffee Association. (2019). Protocols & Best Practices.

https://sca.coffee/research/protocols-best-practices/

Speer, K., & Kölling-Speer, I. (2006). The lipid fraction of the coffee bean. Brazilian Journal

of Plant Physiology, 18(1), 201–216. https://doi.org/10.1590/S1677-

04202006000100014

Sunarharum, W. B., Williams, D. J., & Smyth, H. E. (2014). Complexity of coffee flavor: A

compositional and sensory perspective. Food Research International, 62, 315–325.

https://doi.org/10.1016/j.foodres.2014.02.030

Taguchi, R., Nishijima, M., & Shimizu, T. (2007). Basic Analytical Systems for Lipidomics

by Mass Spectrometry in Japan. In Lipidomics and Bioactive Lipids: Mass‐

Spectrometry–Based Lipid Analysis (Vol. 432, pp. 185–211). Academic Press.

https://doi.org/10.1016/S0076-6879(07)32008-9

Tian, Y., Xu, Z., Zheng, B., & Lo, Y. M. (2013). Ultrasonics Sonochemistry Optimization of

ultrasonic-assisted extraction of pomegranate ( Punica granatum L .) seed oil.

Ultrasonics - Sonochemistry, 20, 202–208.

https://doi.org/10.1016/j.ultsonch.2012.07.010

Tolessa, K., Rademaker, M., De Baets, B., & Boeckx, P. (2016). Prediction of specialty

coffee cup quality based on near infrared spectra of green coffee beans. Talanta, 150,

367–374. https://doi.org/10.1016/j.talanta.2015.12.039

Page 141: Jhonathan David Pazmiño Arteaga

125

Usuelli, M. (2014). R Machine Learning Essentials. Packt Publishing.

Wang, N., Fu, Y., & Lim, L. (2011). Feasibility Study on Chemometric Discrimination of

Roasted Arabica Coffees by Solvent Extraction and Fourier Transform Infrared

Spectroscopy. 3220–3226.

Waters, D. M., Arendt, E. K., & Moroni, A. V. (2015). Overview on the mechanisms of

coffee germination and fermentation and their significance for coffee and coffee

beverage quality. Trends in Food Science & Technology, 57(2), 259–274.

https://doi.org/10.1080/10408398.2014.902804

Wei, F., Furihata, K., Miyakawa, T., & Tanokura, M. (2014). A pilot study of NMR-based

sensory prediction of roasted coffee bean extracts. Food Chemistry, 152, 363–369.

https://doi.org/10.1016/j.foodchem.2013.11.161

Welti, R., Roth, M. R., Deng, Y., Shah, J., & Wang, X. (2007). Lipidomics: ESI-MS/MS-

Based Profiling to Determine the Function of Genes Involved in Metabolism of

Complex Lipids. In B. J. Nikolau & E. S. Wurtele (Eds.), Concepts in Plant

Metabolomics (pp. 87–92). Springer Netherlands. https://doi.org/10.1007/978-1-4020-

5608-6_6

Winkler, R. (2015). An evolving computational platformfor biological mass spectrometry:

Workflows, statistics and data mining with MASSyPup64. PeerJ, 2015(11).

https://doi.org/10.7717/peerj.1401

Wu, Z., Rodgers, R. P., & Marshall, A. G. (2004). Characterization of vegetable oils: Detailed

compositional fingerprints derived from electrospray ionization fourier transform ion

cyclotron resonance mass spectrometry. Journal of Agricultural and Food Chemistry,

52(17), 5322–5328. https://doi.org/10.1021/jf049596q

Zhang, L., Zhou, C., Wang, B., Yagoub, A. E. A., Ma, H., Zhang, X., & Wu, M. (2017).

Ultrasonics Sonochemistry Study of ultrasonic cavitation during extraction of the peanut

oil at varying frequencies. Ultrasonics - Sonochemistry, 37, 106–113.

https://doi.org/10.1016/j.ultsonch.2016.12.034

Page 142: Jhonathan David Pazmiño Arteaga

126

ANEXO 1

ESPECTRO COSY (ACEITE DE CAFÉ VERDE REPOSADO)

Page 143: Jhonathan David Pazmiño Arteaga

127

ESPECTRO 13C (ACEITE DE CAFÉ VERDE REPOSADO)

Page 144: Jhonathan David Pazmiño Arteaga

128

ESPECTR0 DEPT 135 (ACEITE DE CAFÉ VERDE REPOSADO)

Page 145: Jhonathan David Pazmiño Arteaga

129

ESPECTRO HMBC (ACEITE DE CAFÉ VERDE REPOSADO)

Page 146: Jhonathan David Pazmiño Arteaga

130

ESPECTRO HSQC (ACEITE DE CAFÉ VERDE REPOSADO)