taxonomic classification of digitized specimens using machine learning

15
Taxonomic classification of digitized specimens using machine learning Rutger Vos

Upload: rutger-vos

Post on 12-Apr-2017

388 views

Category:

Science


1 download

TRANSCRIPT

Page 1: Taxonomic classification of digitized specimens using machine learning

Taxonomic classification of digitized specimens using

machine learning

Rutger Vos

Page 2: Taxonomic classification of digitized specimens using machine learning

Taxonomic classification1 of digitized specimens2 using machine learning3

1.  To give the right taxonomic name to a thing, or at least approximate it to a higher level (e.g. Genus, Family)

2.  Photographs of biological objects, e.g. from a natural history collection and taken in a standardized setup

3.  Machine learning explores the study and construction of algorithms that can learn from and make predictions on data

Page 3: Taxonomic classification of digitized specimens using machine learning

Case study: slipper orchids

Slipper orchids •  Traded illegally •  Photographed “in the wild”

Page 4: Taxonomic classification of digitized specimens using machine learning

Case study: Javanese butterflies

Van Groenendael-Krijger collection •  Collected in the 1930s •  Photographed in standardized setup

Page 5: Taxonomic classification of digitized specimens using machine learning

Project structure overview

•  Open source, freely available at: github.com/naturalis

•  Designed as loosely coupled, swappable modules

•  Intended for re-use for multiple cases

Page 6: Taxonomic classification of digitized specimens using machine learning

Project structure: reference images

photos [table]id INTEGER NOT NULLmd5sum VARCHAR(32) NOT NULLpath VARCHAR(255)title VARCHAR(100)description VARCHAR(255)

photos_tags [table]photo_id INTEGER NOT NULLtag_id INTEGER NOT NULL

tags [table]id INTEGER NOT NULLname VARCHAR(50) NOT NULL

photos_taxa [table]photo_id INTEGER NOT NULLtaxon_id INTEGER NOT NULL

taxa [table]id INTEGER NOT NULLrank_id INTEGER NOT NULLname VARCHAR(50) NOT NULLdescription VARCHAR(255)

ranks [table]id INTEGER NOT NULLname VARCHAR(50) NOT NULL

Page 7: Taxonomic classification of digitized specimens using machine learning

Project structure: image processing

Speeded Up Robust Features

Page 8: Taxonomic classification of digitized specimens using machine learning

Project structure: machine learning

Page 9: Taxonomic classification of digitized specimens using machine learning

Project structure: optimization

Page 10: Taxonomic classification of digitized specimens using machine learning

Project structure: user interface

Page 11: Taxonomic classification of digitized specimens using machine learning

Results: SURF features

��������������

������

��������������

������� �������

�������

����������������

�������

��������

�������

�������

��������

������

�������

��������������

�������

�������

��������������

�������

���������������������

�������

����������������

�������

��������

�������

�������

��������� ���������

�������

������

�������

������

�������

����������

���

������

����

������

���������

������

��������������

���������

�������

������������

�������

������

������

������������

�������

������

������

��� ������

������

�������

�������

������

����

������

�������

����

����

��������

�������

���������

����

������� ������

����

�������

�������

�������

���

���

�������������

��������������

�������

����������

����������������

�������

�������

��������

������

������

�����������������

������

�������

���

�������

�������

�������

������

���������

������

�������

�������

�������

���

�������

�������

�������������������

�����������

������

��� �������������

�������

������

�������

������

��������

�������

�������

������

����������

����������

�������

���

������

�������

���

��������������

�������

���

�������

������� �������

�������

���

�������

�������

�������

��������������

����������

�������

������

��������

���

�������

������

�������

�������

���

�������

�������

������

�������

����������

����������������

������

�������

����������

����������

����������

���������

�������

����������

�������������������

���

������

�������

������

��������

����������

���������������� ���������

�������

�������

���

�������

���������������������

�������

��������

�����

������

�����������������������

������

���������

������

������������������������

������

������

�������

�������

��������

������

�������

����������

������

���

����

���

��������� �������

�������

���������

�������

����������

����������

�������

�������

������

������

�������

���

�������

��������

������

����

������������

��������

�������

�������

���

���

��������

���

������

����������

������

�������

������

�������

��������

�������

�������

���������

�������

����������

������

���

����������

���������

���

������������������

������� �������

������

������������������������������

���������

����������

�������

������

����������

������

�������

����������

���

������

������

�������

�����������

����������

�������

������

������

����

���

�������

��������������

����

����������

�������

����������

����������

��������

���

���

�������

�����

��������

�������

������

���

�������

�������

������

������������������

���������

���

��������

�����������������

���

�������

���

���

�������

����������

������

����������������

�������

������� ����������

���

�������

����������

�����

�������

������

�����

������

�������

�������

������

����������

����������

����������

���

�������

�����

��������

������

������� ������

���

����������������

���

����������

������

���

�������

�������

������

�������������

������

����������

���

�������

�������

������

��

��� �� � � �� �����

���

�� �

���������������

��������

!�����

������

"���

"������

#������

���������

������

��������

$�����

%��� �&� ������ ��������� ��� �����

��������������

������

��������������

������� �������

�������

����������������

�������

��������

�������

�������

��������

������

�������

��������������

�������

�������

��������������

�������

���������������������

�������

����������������

�������

��������

�������

�������

��������� ���������

�������

������

�������

������

�������

����������

���

������

����

������

���������

������

��������������

���������

�������

������������

�������

������

������

������������

�������

������

������

��� ������

������

�������

�������

������

����

������

�������

����

����

��������

�������

���������

����

������� ������

����

�������

�������

�������

���

���

�������������

��������������

�������

����������

����������������

�������

�������

��������

������

������

�����������������

������

�������

���

�������

�������

�������

������

���������

������

�������

�������

�������

���

�������

�������

�������������������

�����������

������

��� �������������

�������

������

�������

������

��������

�������

�������

������

����������

����������

�������

���

������

�������

���

��������������

�������

���

�������

������� �������

�������

���

�������

�������

�������

��������������

����������

�������

������

��������

���

�������

������

�������

�������

���

�������

�������

������

�������

����������

����������������

������

�������

����������

����������

����������

���������

�������

����������

�������������������

���

������

�������

������

��������

����������

���������������� ���������

�������

�������

���

�������

���������������������

�������

��������

�����

������

�����������������������

������

���������

������

������������������������

������

������

�������

�������

��������

������

�������

����������

������

���

����

���

��������� �������

�������

���������

�������

����������

����������

�������

�������

������

������

�������

���

�������

��������

������

����

������������

��������

�������

�������

���

���

��������

���

������

����������

������

�������

������

�������

��������

�������

�������

���������

�������

����������

������

���

����������

���������

���

������������������

������� �������

������

������������������������������

���������

����������

�������

������

����������

������

�������

����������

���

������

������

�������

�����������

����������

�������

������

������

����

���

�������

��������������

����

����������

�������

����������

����������

��������

���

���

�������

�����

��������

�������

������

���

�������

�������

������

������������������

���������

���

��������

�����������������

���

�������

���

���

�������

����������

������

����������������

�������

������� ����������

���

�������

����������

�����

�������

������

�����

������

�������

�������

������

����������

����������

����������

���

�������

�����

��������

������

������� ������

���

����������������

���

����������

������

���

�������

�������

������

�������������

������

����������

���

�������

�������

������

��

��� �� � � �� �����

���

�� �

�������������������

�������������

������

����������

���������

���������

������

���������

��� ������

�������

����

�����

��������

�����

�������

������

�������

������

�������

������

�������

������

�������

���

���

�������

������

�������

���� � � ������ ��������� ��� ������

•  PCA plots of the “speeded up robust features” show clustering both at the genus (top) and species (bottom) level

•  Some species are so dimorphic that the sexes are treated as separate species (not shown)

•  Some individuals are “gynandromorphic”, though there is likely positive collection bias

•  Some taxa are much more variable than others

Page 12: Taxonomic classification of digitized specimens using machine learning

Results: k-folds cross-validation

•  Split the data in k (2, 5, 10) partitions •  Train on 1 partition, use k-1 as “out-of-sample” data •  Count number of correct/incorrect/unknown identifications

Page 13: Taxonomic classification of digitized specimens using machine learning

Next steps

•  Application of trained neural networks to the entire VGKS collection (once that is fully digitized)

•  Testing other classifiers in addition to ANNs

•  Improvement of the end user interface, possibly as a native ‘app’ or on the web

•  Extension of the platform to additional cases, such as shells (snails, bivalves)

•  Do more with the image feature data: mimicry, character displacement, dimorphism

Page 14: Taxonomic classification of digitized specimens using machine learning

Acknowledgements Naturalis sector Collection •  Max Caspers •  Luc Willemse •  Jan Moonen •  Digitization volunteers Hogeschool Leiden •  Barbara Gravendeel •  Patrick Wijntjes •  Saskia de Vetter LIACS •  Fons Verbeek •  Mengke Li •  Yuanhao Guo

IBL •  Wim van Tongeren WUR •  Feia Matthijssen Made possible by •  Naturalis internal grant for

application-oriented research •  The Van Groenendael-Krijger

Stichting •  Kind contributions of photos by

numerous orchid breeders

Page 15: Taxonomic classification of digitized specimens using machine learning

Thanks for listening!