Lehrstuhl für Ergonomie
der Technischen Universität München
Univ.-Prof. Dr.rer.nat. H. Bubb
Videobasierte Messung menschlicher
Bewegungen konform zum Menschmodell RAMSIS
Thomas Seitz
Vollständiger Abdruck der von der Fakultät für Maschinenwesen der Technischen Universität
München zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften (Dr.rer.nat.)
genehmigten Dissertation.
Vorsitzender: Univ.-Prof. Dr.-Ing. Klaus Bender
Prüfer der Dissertation:
1. Univ.-Prof. Dr.rer.nat. Heiner Bubb
2. Univ.-Prof. Dr.rer.nat. Bernd Radig
Die Dissertation wurde am 04.06.2003 bei der Technischen Universität München eingereicht
und durch die Fakultät für Maschinenwesen am 17.11.2003 angenommen.
ii
iii
Danksagung
An dieser Stelle möchte ich nicht versäumen mich bei dem einen oder anderen zu bedanken,
der mich bei der Durchführung dieser Arbeit unterstützte und so seinen Anteil am Gelingen
trägt.
Mein ganz besonderer Dank gilt Herrn Prof. Bubb, Ordinarius des Lehrstuhls für Ergonomie
der TUM, für die Initiierung dieser Arbeit und für die vielen lehrreichen Stunden, interessan-
ten (Fach-)Gespräche und Erlebnisse, sowie die freundliche und motivierende Unterstützung
und die vielen Ratschläge.
Mein weiterer Dank gilt Herrn Prof. Radig vom Lehrstuhl Informatik IX Bildverstehen und wis-
sensbasierte Systeme der TUM als meinem Zweitgutachter, der mir die Sicht der Informatik
vermitteln konnte. Ferner möchte ich Herrn Prof. Bender vom Lehrstuhl für Informationstech-
nik im Maschinenwesen, der den Prüfungsvorsitz übernahm, danken.
An dieser Stelle möchte ich mich auch bei Herrn Prof. Krueger von der ETH Zürich bedan-
ken, der mir nicht nur die Möglichkeit gab durch einen Forschungsaufenthalt an seinem Insti-
tut eine „Außensicht“ der Münchener Ergonomie zu gewinnen, sondern der auch durch in-
tensive Gespräche meine Arbeit und auch meine weitere Zukunftsplanung vorantrieb.
Weiterhin danke ich allen Kollegen und Mitarbeitern des Lehrstuhls für Ergonomie, insbe-
sondere der „Mittagsclique“, meinen Kollegen an der ETH Zürich, sowie allen meinen Freun-
den und Bekannten für die tatkräftige Unterstützung, die vielen Anregungen und Fachge-
spräche.
Garching, im November 2003 Thomas Seitz
iv
v
Zusammenfassung
Für die Simulation von Mensch-Maschine-Interaktionen, wie sie für die Produkt- und Produk-
tionsentwicklung nötig sind, werden dreidimensionale Menschmodelle benutzt. Diese zu-
nächst statischen Modelle müssen mit Anthropometrie-, Haltungs- und Bewegungsmodellen
ausgestattet werden, so dass menschliches Verhalten simuliert werden kann. Die Vielfalt
menschlicher Anthropometrien, Haltungen und Bewegungen macht es hierbei unerlässlich
zahlreiche Messungen durchzuführen, um detaillierte Theorien bilden zu können. Doch bis
heute stellt die Messung der menschlichen Parameter, besonders der Bewegung, ein Prob-
lem dar. Zum einen ist die Kopplung zwischen Mensch und Modell schwierig und zum ande-
ren ist mit heutigen Systemen meist eine zeitaufwändige Präparierung des Probanden mit
Markern nötig.
Im Rahmen dieser Arbeit wurde ein Ansatz unter Verwendung des Menschmodells RAMSIS
entwickelt, um auf Basis von Videobeobachtungen, Bewegungen dreidimensional zu mes-
sen. Ausgehend von biologischen Prinzipien der Bewegungserkennung wurde ein modellba-
siertes Verfahren erarbeitet, das ohne eine Präparierung mit Markern Bewegungen erfassen
kann. Das System arbeitet zur Bildgewinnung mit Standardvideotechnik. In die digitalisierten
Bildsequenzen wird nach einer Kalibrierung ein individuelles und dreidimensionales Modell
des Probanden projiziert, wobei am Anfang der Bildsequenz die Haltung des Modells exakt
mit der Haltung des Probanden zur Deckung gebracht wird. Damit können Bildbereiche mit
Modellbereichen assoziiert werden und mit Hilfe digitaler Bildverarbeitung können die Bilder
analysiert werden, um die Bewegung in den Folgebildern zu ermitteln. Hierzu wird zum einen
untersucht, wohin sich eine Bildstruktur bewegt hat und zum anderen werden Bildkonturen
bzw. –kanten benutzt, um das Menschmodell auszurichten. Menschmodell- und Bildinforma-
tion werden wechselseitig in die Interpretation integriert.
Mit Hilfe dieses Ansatzes können konform zum verwendeten Menschmodell Haltungen und
Bewegungen ohne eine vorherige Präparierung der Versuchsperson ermittelt werden. Damit
können Untersuchungen ohne physische Beeinflussung des Probanden erfolgen.
vi
vii
Inhalt
DANKSAGUNG........................................................................................................................ III
ZUSAMMENFASSUNG.............................................................................................................V
INHALT ....................................................................................................................................VII
1 EINLEITUNG....................................................................................................................... 1
1.1 Allgemeines .................................................................................................................... 1
1.2 Stand der Forschung und Technik ................................................................................. 2
1.2.1 Bewegungsmessung in der Ergonomie................................................................. 2
1.2.2 Bewegungsmessung in der Informatik .................................................................. 6
1.2.3 Zielsetzungen der Bewegungsmessung.............................................................. 11
1.2.4 Systematik exakter Bewegungsmessverfahren .................................................. 13
1.3 „Ideales“ Bewegungsmesssystem ............................................................................... 20
2 MENSCHMODELL RAMSIS UND DAS MESSSYSTEM PCMAN.................................. 23
2.1 Entwicklungsgeschichte ergonomischer Menschmodelle ........................................... 23
2.2 Aufbau des Modells RAMSIS ....................................................................................... 26
2.2.1 Struktur des inneren Modells ............................................................................... 27
2.2.2 Struktur des äußeren Modells .............................................................................. 28
2.3 PCMAN – das RAMSIS-Messsystem für Anthropometrie- und Haltungsmessung.... 29
2.3.1 Prinzip................................................................................................................... 30
2.3.2 Kalibrierung .......................................................................................................... 31
2.3.3 Anthropometrische Modelladaption ..................................................................... 33
2.3.4 Haltungsanpassung ............................................................................................. 36
2.4 PCMAN als Basis für die Bewegungsmessung........................................................... 38
3 METHODIK ....................................................................................................................... 42
3.1 Psychologisch-physiologische Mechanismen der Bewegungserkennung.................. 42
3.1.1 Neuronale Bildinterpretation ................................................................................ 42
3.1.2 Interpretation von Bewegung............................................................................... 45
3.1.3 Kognitive Verarbeitung ......................................................................................... 49
3.1.4 Zusammenfassung............................................................................................... 51
viii
3.2 Bildverarbeitung............................................................................................................ 51
3.2.1 Bildvorverarbeitung .............................................................................................. 52
3.2.2 Bewegungsmessung............................................................................................ 55
3.2.3 Kantenbilder ......................................................................................................... 60
3.2.4 Zusammenfassung............................................................................................... 61
4 REALISIERUNG............................................................................................................... 62
4.1 Zweidimensionale Bewegungsmessung ohne Modell................................................. 62
4.2 Dreidimensionale Bewegungsmessung mit Modell..................................................... 66
4.2.1 Präpositionierung des Modells ............................................................................. 66
4.2.2 Gelenkpunktverschiebung detektieren ................................................................ 70
4.2.3 Resultierende Haltung im Raum bestimmen....................................................... 72
4.2.4 Integration von Kanteninformation ....................................................................... 73
4.3 Probleme...................................................................................................................... 75
4.3.1 Drift beim Verfolgen unprägnanter Strukturen..................................................... 76
4.3.2 Nicht ausgeprägte Kanten ................................................................................... 77
4.3.3 Verdeckung .......................................................................................................... 78
4.3.4 Rotation ................................................................................................................ 78
4.3.5 Genauigkeit .......................................................................................................... 80
4.4 Zusammenfassung....................................................................................................... 80
5 AUSBLICK........................................................................................................................ 82
6 LITERATUR...................................................................................................................... 83
7 ANHANG........................................................................................................................... 89
1
1 Einleitung
1.1 Allgemeines
Schon lange stellt man sich in der Arbeitswissenschaft die Frage, wie man menschliche Be-
wegungen oder ganz allgemein, wie man Personen erkennen und ihre Position, ihre Haltung
und Bewegung messen und interpretieren kann. Bereits Leonardo da Vinci (1452 – 1519)
beobachtete die Bewegungen schaufel nder Arbeiter und untergliederte den Arbeitsverlauf in
Teilarbeiten und Teilzeiten [29]. Wie Leonardo da Vinci, so versuchten viele Wissenschaftler
im Bereich Arbeitswissenschaft, Methoden der Messung und Interpretation von Bewegungen
zu entwickeln.
Die Untersuchung menschlicher Haltungen und Bewegungen erfolgte aus unterschiedlichen
Gründen. Früher wurden zahlreiche Untersuchungen in Fabriken durchgeführt, um die Leis-
tungsfähigkeit der Arbeiter zu erforschen. Ferner versuchte man Arbeitsabläufe effizienter zu
gestalten, um optimale Produktivität zu erreichen. In dem hier im Vordergrund stehenden
Bereich Ergonomie dient die Haltungs- und Bewegungsanalyse der Gewinnung von empiri-
schen Daten, um Arbeitsabläufe im Sinne des Arbeitsschutzes zu verbessern oder um all-
gemeine Modelle physischen menschlichen Verhaltens für Simulationszwecke aufzustellen.
Gerade der letzte Punkt ist eng verknüpft mit der in den 80er und 90er Jahren aufgekommen
digitalen Menschmodellierung. Die digitale Menschmodellierung wird meist im Umfeld des
CAD1 eingesetzt bzw. wurde durch Ansprüche an das CAD initiiert. Moderne Produktentwick-
lung, geprägt vom Begriff Rapid Prototyping, spielt sich heutzutage fast ausschließlich im
Computer ab. So erscheint es nahe liegend für Produkte, die mit Menschen wechselwirken -
wie beispielsweise Computertastaturen oder Bügeleisen aber auch so komplexe Systeme
wie das Cockpit von Flugzeugen oder Autos - diese Mensch-Maschine-Interaktion im Com-
puter zu simulieren. Derartige Menschmodelle können anthropometrisch korrekt Personen
spezifischer Nationalitäten, Kräfte und Momente bestimmter Gelenke, Ermüdung, Komfort,
Sicht und Haltungen jeweils in Abhängigkeit äußerer Randbedingungen, wie beispielsweise
der Geometrie eines Arbeitsplatzes, simulieren. Weitverbreitete Menschmodelle sind z.B.
JACK, SAFEWORK oder das hier im Vordergrund stehende Menschmodell RAMSIS.
Um jedoch menschliches Verhalten mit Hilfe geeigneter Programme simulieren zu können,
müssen zunächst Daten gesammelt werden, deren mathematische Analyse das Ableiten
1 Computer Aided Design
2
verallgemeinerter Aussagen erlaubt. Dies gilt für einzelne statische Haltungen, wie Sitzen,
genauso wie für Bewegungen, wie das Einsteigen ins Auto, das Hinsetzen oder Anschnallen.
Gerade die Simulation von Bewegungen ist jedoch bis heute nur unzureichend und sehr ru-
dimentär realisiert. Meist handelt es sich nicht um Simulationen, als vielmehr um das Abspie-
len von Animationen, also Trickfilmen, die zwar die Bewegung eines Menschen zeigen, sich
aber nicht individuell mit Hilfe eines Bewegungsmodells an die Umwelt anpassen können.
Eine Bewegungssimulation hingegen nutzt Modellinformationen und errechnet, wie eine Be-
wegung durch geometrische, anthropometrische und psychische Einflüsse beeinflusst wird.
Die realistische Dynamik eines Menschen könnte betrachtet werden und das in Abhängigkeit
von Umwelteinflüssen. Damit wären die Möglichkeiten der virtuellen Entwicklung von Produk-
ten und ergonomischen Bewertung derselben, wesentlich verbessert.
Jedoch fehlt heute die Datengrundlage, um solch komplexes menschliche Verhalten ableiten
zu können; letztlich, weil die Datenerhebung schwierig, langwierig und kostspielig ist. Es
stellt sich also die Frage, ob es Möglichkeiten gibt, Bewegungen einfach und schnell zu
messen.
1.2 Stand der Forschung und Technik
Die Bewegungsmessung des Menschen hat heute nicht nur in der Ergonomie Bedeutung,
sondern auch im Bereich der Informatik. Deshalb folgt zunächst ein genereller Überblick über
die Entwicklung verschiedener Ansätze, die im Bereich Ergonomie und Informatik entwickelt
wurden. In den anschließenden Kapiteln werden diese Methoden strukturell aufgearbeitet
und die Anforderung an ein ideales Bewegungsmessverfahren für die Ergonomie definiert.
1.2.1 Bewegungsmessung in der Ergonomie
Das Beobachten menschlicher Bewegungen hat in der Ergonomie eine lange Tradition. Mo-
tiviert, auf der einen Seite, durch den Wunsch dynamische Arbeitsabläufe im Sinne der Ar-
beitswissenschaft optimieren zu können, auf der anderen Seite die Dynamik des Menschen
an sich zu verstehen, entstanden im Laufe der Zeit eine Reihe von Konzepten, Methoden
und Untersuchungswerkzeugen. Im Folgenden soll ein kurzer historischer Einblick in dieses
Teilgebiet der Ergonomie gegeben werden.
Die ersten Regeln zur Arbeitsorganisation und Arbeitszeitmessung wurden unter S. de Vau-
ban und besonders unter B. F. de Bélidor (1729) im Zuge französischer Festungsbauten
3
erstellt. Bald erkannte man einfache Zusammenhänge zwischen Ernährung und Leistung
sowie zwischen Ermüdung und Leistungsabfall [29].
1895 präsentierten Braune und Fischer [8] eine Beobachtung des menschlichen Ganges,
wobei sie ein Spurverfahren einsetzten, um die Bewegungen auf Filmplatten festzuhalten.
Dies war eine der ersten Arbeiten, bei der mit zeitgemäßen Messmethoden Daten gewonnen
wurden. In diesem Zusammenhang sind auch die Arbeiten von Taylor [68] zu erwähnen, der
in der Midvale Steele Company umfangreiche Experimente mit Arbeitern machte. Er ver-
suchte aus den Beobachtungen der „besten Arbeiter“ Verallgemeinerungen zu treffen, um
Arbeitvorgänge optimieren zu können.
1917 veröffentlichte das Ehepaar F.B. und L.M. Gilbreth [25] Ergebnisse, die mit Hilfe der
Zyklografie erstellt wurden. Zyklografie ist eine Methode, bei der die menschliche Bewegung
mit Hilfe von Glühlämpchen, die am Körper, vorwiegend an Gelenken, befestigt werden, fo-
tografisch in Form von Leuchtspuren festgehalten wird. Diese zweidimensionale Methode
erlaubt zyklische Arbeitsvorgänge im Hinblick auf Ermüdungserscheinungen zu beurteilen
(Abbildung 1.1).
Parallel zur Zyklografie, fanden auch gewöhnliche Filmaufnahmen, wie Barnes [5] darstellt,
Einzug in die Arbeitswissenschaft. Die Motografie, die vor allem von Baum [6] geprägt wur-
de, wurde bis hinein in die Mitte der 80er Jahre verwendet und weiterentwickelt. Baum befes-
tigte Glühlämpchen an Probanden und erhielt, durch entsprechend lange Belichtungszeiten,
Leuchtspuren dieser Glühlämpchen. Durch einen kurzen Blitz in die Szenerie, konnte er
auch ein Bild des Probanden in die Leuchtspuraufnahme blenden. Durch Anwendung einer
Spiegeltechnik konnte er ferner monokular dreidimensionale Informationen über Trajektorien
gewinnen (siehe Abbildung 1.2).
Heutzutage wird statt der Motografie ein ganz ähnliches Verfahren eingesetzt, dass statt der
Glühlämpchen passive Markierungen (sog. Marker) am Körper benutzt (vgl. SIMI MOTION
[76] oder VICON [77]). So benutzt VICON kleine reflektierende Kugeln, die am Probanden
mit Hilfe von Klettbändern befestigt werden (siehe Abbildung 1.3). Während eines Experi-
ments wird die Versuchsperson mit 2 und mehr Videokameras überwacht. An den Kameras
sind infrarot Emitter angebracht, die kurze Blitze aussenden. Das Infrarotlicht wird an den
Markern des Probanden reflektiert und durch die Kameras detektiert. Eine on-board realisier-
te Bildverarbeitung extrahiert die Position der Marker. Durch Kombination der Signale aller
Kameras wird die Lage im Raum eines jeden sichtbaren Markers berechnet und die Trajekto-
rien der Bewegung ermittelt. Ganz ähnlich arbeitet das System von SIMI wobei hier im rein
visuellen Wellenlängenbereich gearbeitet wird. Diese Bewegungsanalysesysteme sind
kommerziell erhältlich und äußerst weit entwickelt. Neben ausgereifter Messtechnik bieten
4
diese Systeme auch eine komfortable Software für die Weiterverarbeitung der Bewegungs-
daten. Einen aufschlussreichen Artikel zum Einsatz, Gebrauch und Funktionsweise marker-
basierter Messsysteme in der Ergonomie publizierte Quesada [48].
Einen neuartigen Ansatz beschreibt Speyer et al. [67]. Speyer benutzt als Marker aktive E-
lektronikelemente, die mittels eines enganliegenden Spezialanzugs direkt am Probanden
fixiert sind. Bei diesen Elektronikelementen handelt es sich um Mini-Gyroskope, die ihre ak-
tuelle Orientierung und Beschleunigung an einen Sender funken. Durch eine geeignete
Software werden durch zweimaliges Integrieren aus den Messdaten die Raumlage eines
Körperelements und durch Kopplung an ein dreidimensionales Menschmodell die Haltung
ermittelt. Großer Vorteil dieser Methode ist, dass die Signale der Sensoren per Funk über-
tragen werden. Damit kann es zu keinerlei Verdeckung von Körperelementen kommen. Fer-
ner ist der Empfänger klein genug, um das System mobil einzusetzen. Leider ist bis heute
die Messgenauigkeit nicht ausreichend, um genaue Haltungs- und Bewegungsmessungen
durchzuführen.
Abbildung 1.1: Zyklografische Aufnahmen von Arbeitsbewegungen mit einge-
zeichneter Arbeitsperson. Das linke Bild zeigt den Arbeitsvorgang im nicht ermü-
deten Zustand, während rechts anhand der Aufweitung der Bewegungsspuren
eine deutliche Ermüdung zu erkennen ist (Abb. aus Schmidtke [58], Seite 138).
5
Abbildung 1.2: Motografische Aufnahme des Wählens einer Nummer mit Tasten-
telefon. Die eingespiegelte zweite Ansicht erlaubt eine dreidimensionale Analyse
der Bewegungsspur (Abb. aus [6]).
Abbildung 1.3: Klassische Methode zur Bewegungsmessung: Die Lage der Mar-
ker, wird mit Hilfe von Bildverarbeitung dreidimensional ermittelt. Von der Raum-
koordinate der Marker wird auf die Bewegung des Körpers geschlossen (Foto:
Vicon).
6
1.2.2 Bewegungsmessung in der Informatik
Verfahren zur Bewegungsmessung des Menschen sind heute in der Informatik (speziell der
Bereich Computer Vision), aber auch im Bereich Elektrotechnik und Physik ein Thema. Wäh-
rend sich die Ergonomie - bzw. verwandte Bereiche wie Biomechanik u.ä. - von der anwen-
dungsbezogenen Seite der Bewegungsmessung nähert, kommt die Computerwissenschaft
von der prinzipiellen, algorithmischen Seite. Heute wie früher wird in diesem Zusammenhang
meist Videotechnologie in Verbindung mit Bildverarbeitung zur Analyse von Bewegungen
eingesetzt. Frühere Arbeiten beschäftigten sich daher insbesondere mit der Segmentierung
von Menschen, also der Unterscheidung zwischen Hintergrund und Person, dem Erkennen
von Haltungen, dem Nachführen von Bewegung oder der Interpretation von Bewegungen.
Die Zielsetzungen der visuellen Menscherkennung sind sehr weit gestreut. So finden sich
Untersuchungen zu Gesichts- und Mimikerkennung, die zum Ziel haben, Sprache an den
Lippen und Gesichtszügen „abzulesen“ oder im Sinne einer Überwachung Personen zu er-
kennen (z.B. Inst. f. Phonetik [43] oder Radig [49]). Die Gestikinterpretation wird oft in Ver-
bindung mit der Mensch-Maschine-Kommunikation eingesetzt, wobei häufig versucht wird,
online die Bewegung von Hand oder Arm zu interpretieren (Bakic und Stockman [4], Davis
und Bobick [18], Pentland [45], Morguet und Lang [42]). In diesem Zusammenhang sei vor
allem das Projekt „HAL“ am M.I.T. erwähnt, in dessen Rahmen es um die Realisierung eines
intelligenten Raums geht, der auf die Bedürfnisse des Menschen reagiert, indem die Gestik
und Sprache des Menschen interpretiert wird. Bewegungen – jedoch nicht nur die des Men-
schen – werden auch detektiert, um Filme optimal, d.h. in der Regel platzsparend, speichern
zu können (z.B. Dateiformat MPEG). In der Automobiltechnik, setzt man die Menscherken-
nung - angetrieben vom Gedanken „Autonomer Fahrzeuge“ ein -, um beispielsweise Fuß-
gänger automatisch erkennen zu können. Eine andere Anwendung im Automobilbau ist die
Messung von Position und Haltung der Passagiere, um den Airbag im Falle eines Unfalls
optimal auslösen zu können [21]. Ausführliche Überblicke vermitteln die Publikationen von
Gavrila [22], Aggarwal und Cai [1], Wachter [71] und von Kinzel [36].
Prinzipiell müssen zwei Methoden unterschieden werden, die Positionsinformation von Per-
sonen in ihrer Umwelt liefern. Das sind zum einen jene Methoden, die am Menschen Markie-
rungen anbringen, mit deren Hilfe indirekt die Person detektiert wird, und die Methoden, die
versuchen die Person direkt zu detektieren. Im Folgenden werden nur letztere Verfahren
vorgestellt und gezeigt, wo der Stand der Forschung heute ist.
Bei der Messung menschlicher Haltung und Bewegung tauchen zwei Probleme auf. Zum
einen stellt sich die prinzipielle Frage, wie man Versuchsperson und Umgebung trennt. Dies
7
führt zum Problem der Segmentierung. Zum anderen stellt sich die Frage, wie man die Hal-
tung des Menschen (der Mensch stellt ein mehrgliedriges, bewegliches Objekt dar) be-
schreibt.
Das Problem der Segmentierung kann durch mehrere Ansätze z.T. gelöst werden. Sollen
Messungen auf Basis handelsüblicher Videokameras erfolgen, so bietet sich beispielsweise
die „Blue-Box-Methode“ an [17]. Bei dieser, aus Film und Fernsehen bekannten Methode,
wird der Hintergrund monochromatisch gehalten. Durch entsprechende Filter wird die Farbe
des Hintergrundes herausgefiltert, so dass eine vollständige Trennung zwischen Vorder-
grundobjekt (i. d. R. eine Person) und Hintergrund erfolgt, sofern das Vordergrundobjekt
nicht die Farbe des Hintergrunds enthält. Diese Methode kann jedoch nur angewandt wer-
den, wenn man den Hintergrund wirklich monochromatisch gestalten kann, was dazu führt,
dass im wesentlichen eine planare Hintergrundwand und ggf. der Fußboden herausgefiltert
werden kann. Bei komplexeren Hintergründen, kommt es sehr leicht zu Reflexionen und Ab-
schattungen. Dies führt zu unbefriedigender Extraktion des Hintergrunds.
Verwandt mit dieser Methode ist die Schwellwertmethode, bei welcher der Hintergrund dunk-
ler oder heller als das Objekt gehalten wird und somit eine Grauwertschwelle erzeugt wird,
mit deren Hilfe das Objekt segmentiert wird. Rehg und Kanade [51] oder Mochimaru [41]
setzten diese Methode zum Detektieren von Hand- und Fingerhaltungen ein. Durch geeigne-
te Wahl der Beleuchtung kann diese Art der Segmentierung sehr stabil erfolgen. So verwen-
den Davis und Bobick [18] einen Infrarot-Ansatz, der eine bessere Trennung von Hintergrund
und Person erlaubt, als die traditionelle Methode im sichtbaren Wellenlängenbereich [47].
Eine andere Methode stellt die Differenzmethode dar, die Hogg [30] beschreibt. Dabei wird
ein Bild der Umgebung, ohne das zu beobachtende Objekt, verglichen, mit einem Bild, wel-
ches das Objekt erhält. Durch einfache Subtraktion kann der Hintergrund eliminiert und das
Objekt segmentiert werden – ein klassisches Segmentierungsverfahren. Durch dieses Ver-
fahren ist es möglich Objekte auch in einer komplexen Umgebung zu segmentieren. Dieses
Verfahren ist allerdings sehr empfindlich gegenüber Beleuchtungsänderungen, wie sie ins-
besondere durch Schattenwurf des Objekts auftreten (vgl. Abbildung 1.4).
Eine weitere Methode stellt die farbbasierte Segmentierung dar. Sie wird beispielsweise ver-
wendet, um die Position des Gesichtes mit Hilfe des Merkmals „Gesichtsfarbe“ zu detektie-
ren. Diese Methode ist ohne weitere Präparierung der Versuchsperson nicht geeignet um
einen gesamten Menschen zu segmentieren. Wird jedoch mit Hilfe geeigneter Messkleidung
die Person farblich markiert, so kann der Ansatz auf den gesamten Menschen ausgedehnt
werden. Dies wurde beispielsweise in der Arbeit von Gavrila [23] z.T. ausgenutzt, wobei sich
die farbliche Kodierung der Person(en) auf einzelne Körperteile beschränkte, um rechtes und
8
linkes Bein oder rechten und linken Arm zu unterscheiden. Auch bei Ridder [53] wurde Farb-
information nicht nur für die Gesichtserkennung sondern auch im Sinne von Markern benutzt,
die punktförmig die Position bestimmter Gelenkpunkte an der Person beschrieben. Dieser
Ansatz ist vergleichbar mit klassischen Markertechniken.
Mit Hilfe der Segmentierung (entweder in kanten- oder flächenbasierter Form) lassen sich
beispielsweise Schwerpunkt, Orientierung oder Form des Objekts bestimmen und analysie-
ren. Durch sequentielle Betrachtung einer zeitlichen Abfolge von Segmentierungen kommt
man zur Analyse und Interpretation von Bewegung, Haltung und Gestik des Menschen.
Bewegung stellt die räumliche Veränderung eines Objekts über der Zeit dar. Die Herausfor-
derung besteht darin, mit robusten Verfahren ein Objekt zu tracken. Im einfachsten Fall,
kann der Mensch als ein starres Objekt beschrieben werden, dessen Bewegung, sich aus
dem Aneinanderreihen einzelner Segmentierungen ergibt. Beim Projekt „Intelligenter Bahn-
steig“ von FORWISS wird durch Gesichtssegmentierung die Position des Kopfes ermittelt
und in Raum und Zeit verfolgt. Diese Art der Bewegungs- bzw. Positionsbestimmung kann in
verfeinerter Weise zur Bestimmung von Blickrichtungen eingesetzt werden. So bestimmen
Bakic und Stockman [4] neben der Position des Kopfes auch die Position der Augen und
damit die Blickrichtung.
Im 2-D-Ansatz von Haritaoglu, Harwood und Davis [27] werden die getrackten Menschen in
einzelne Gebiete unterteilt, die Kopf, Torso, Arme und Beinen entsprechen. Mit Hilfe der Dif-
ferenzmethode werden Personen erkannt und durch Formanalyse der segmentierten Men-
schen die Gebiete differenziert, d.h. den Bildmerkmalen wurden Labels zugeordnet. Die ein-
zelnen Körperteile werden durch unverbundene Ellipsen beschrieben. Das weitere Tracking
erfolgt durch template matching, d.h. in den Folgebildern wird nach gelabelten Bildmustern
gesucht, die denen im Vorbild entsprechen. Ein differenzierteres Labeling betrieb Mochimaru
und Yamazaki [40]. Sie untergliederten in ihrem 2-D-Ansatz den Menschen in Segmente wie
Kopf, Torso, Oberarm, Unterarm, Hand usw., die jedoch ebenfalls nicht verbunden waren
und versuchten durch template matching die Bewegung zu ermitteln.
Wren und Pentland [75] detektierten die Position von Kopf und der Hände durch Farbinter-
pretation. Die Ergebnisse des Trackings konnten mit einem einfachen gekoppelten Strich-
menschmodell des menschlichen Oberkörpers bestehend aus Kopf, Torso und Armen sowie
Händen gekoppelt werden. Das hinzuziehen eines Menschmodells erlaubt die Interpretation
der gemessenen Bewegungen und auch die Ableitung weiterer Daten, wie Armhaltung, die
sich aus den geometrischen Einschränkungen des Modells abschätzen ließen.
9
Schließlich fanden die ersten Volumenmodelle des Menschen Einzug in die bildverarbei-
tungsgestützte Interpretation menschlicher Bewegungen, wie beispielsweise in den Arbeiten
von Rohr [54], Wachter und Nagel [70], Gavrila [20] oder Yamamoto [78] zu sehen. Rohr
analysierte monokulare Aufnahmen von Fußgängern in normaler Umgebung, wobei die Be-
wegung des Gehens parallel zur Bildebene ablaufen musste. Sein Menschmodell war aus
Zylindern aufgebaut und repräsentierte nicht die tatsächliche äußere Form der Versuchsper-
son. Durch Analyse der Veränderungen in Folgebildern ermittelte Rohr die Bewegungsrich-
tung der Körperelemente. Im weiteren analysierte er Kanten in der Umgebung der Person
und richtete die Projektion seiner zylindrischen Körperelemente an diesen Kanten, die zuvor
linearisiert wurden, aus. Ganz ähnlich arbeitet das monokulare Verfahren von Wachter und
Nagel, deren Menschmodell aus Kegelstümpfen besteht. Gavrila erweiterte diesen Ansatz
auf mehrere Kameraansichten und orientierte sein 3-D-Modell ebenfalls am gradientengefil-
terten Bild (chamfer matching) um so die Haltung zu erhalten. Die Versuchspersonen muss-
ten bei Gavrila einen speziellen Messanzug tragen, der die Kantendetektion ermöglichte.
Auch Chung, Nagata und Ohnishi [16] nutzen Gradientenbilder, um Haltungen zu bestim-
men, verzichteten jedoch auf ein detailliertes Volumenmodell. Yamamoto [78, 79] bestimmte
durch Detektion von Markern die neue Lage seines kastenförmigen Volumenmodells. Sein
binokularer Ansatz benötigte die Präparierung der Versuchsperson in der Form, dass diese
einen weißen Anzug trägt, auf dem schwarze Markierungen angebracht sind (Abbildung 1.6).
10
Abbildung 1.4: Darstellung der Differenzmethode zur Segmentierung einer Ver-
suchsperson. Zu erkennen ist der Einfluss des durch die Versuchsperson erzeug-
ten Schattens. In b) bis d) sind die Resultate unterschiedlicher Methoden darge-
stellt (aus Elgammal, Harwood und Davis [19]).
Abbildung 1.5: Detektion der Kopfposition durch Merkmal „Gesichtsfarbe“. Diese
Aufnahme entstammt dem Projekt „Intelligenter Bahnsteig“ von FORWISS, TU
München.
11
Abbildung 1.6: Yamamoto [79] ermittelt Bewegungen in Bildern mit Hilfe speziel-
ler Kleidung und projiziert ein Modell darüber.
1.2.3 Zielsetzungen der Bewegungsmessung
Bei der Betrachtung des Themas Bewegungsmessung des Menschen kann festgestellt wer-
den, dass heute prinzipiell drei Zielrichtungen bzw. Anwendungsfelder unterschieden werden
müssen, nämlich
• das Erkennen von Personen
• das Erkennen von Gesten und
• das exakte Messen individueller Bewegungen.
Je nach Zielsetzung unterscheiden sich die entwickelten Ansätze und Methoden. Die Punkte
„Erkennen von Personen“ und „Erkennen von Gesten“ sind Bereiche, die besonders in den
Computerwissenschaften vertreten sind. Das exakte Messen individueller Bewegungen ist
eine Domäne der Ergonomie und Biomechanik und somit die Zielsetzung, die hier im Vor-
dergrund steht.
1.2.3.1 Erkennen von Personen
Unter Erkennen von Personen ist die Beantwortung der Frage „Ist in der zu untersuchenden
Szenerie eine Person vorhanden?“ gemeint. Anwendungsfelder sind z.B. die Überwachung
von Bahnsteigen, Banken oder Straßen (Inst. f. Phonetik [43], Radig [49]). Bei diesen An-
wendungen wird aufgrund von Bildern einer Überwachungskamera detektiert, wo Personen
sind (siehe Abbildung 1.5). In der Regel kann auch ermittelt werden, in welche Richtungen
12
sich die Personen bewegen. Damit lässt sich beispielsweise, wie Heinrich [28] zeigt, ein
Fußgängerdetektor realisieren. Ein Kamerasystem im fahrenden Auto analysiert hierbei fort-
laufend die Umgebung und warnt, sobald sich eine Person der Fahrbahn kritisch nähert. Bei
den Systemen zur Personenerkennung ist es unerheblich wie sich einzelne Körperelemente
einer Person bewegen. Auch die Genauigkeit der Ortsbestimmung im Raum ist sekundär.
Diese Systeme zielen vielmehr darauf ab, die Person als ein starres Objekt zu detektieren
und zu interpretieren.
1.2.3.2 Erkennen von Gesten
Beim Erkennen von Gesten geht es i.d.R. darum, Bewegungen der Hände und Arme oder
des Gesichts zu interpretieren, um z.B. einem Computer Information zu übertragen. Ziel ist
eine einfachere, natürlichere Mensch-Maschine-Kommunikation zu ermöglichen (Bakic und
Stockman [4], Davis und Bobick [18], Pentland [45], Morguet und Lang [42]). Bei der Gesti-
kerkennung müssen einzelnen Haltungen der Hände oder Arme gegenüber anderen ge-
trennt werden. Bei der Handgestikerkennung wird beispielsweise über die Form der Hand
ermittelt welche Fingerhaltung eine Person einnimmt (Davis und Bobick [18], Rehg und Ka-
nade [51], Mochimaru [41]). D.h. die Forminterpretation ist der Prozess, um Handgesten zu
unterscheiden, nicht zwingend die exakte Position der einzelnen Finger. Dieses Vorgehen
findet sich bei fast allen Gestikinterpretationen.
1.2.3.3 Exaktes Messen individueller Bewegungen
Während bei den oben genannten Punkten die exakte Position des Körpers bzw. eines Kör-
perelements nicht relevant war, ist dies bei der Messung individueller Bewegungen ein ent-
scheidender Punkt. Denn hier sollen die Haltungswinkel einer Person genau erfasst werden,
um Bewegungen vergleichen zu können, um statistische Modelle über Bewegungsmuster
erzeugen zu können oder weitergehende Modellierung dynamischer menschlicher Eigen-
schaften zu ermöglichen. Für diese Zwecke werden heute ausschließlich Bewegungsmess-
systeme verwendet, die mit so genannten Markern arbeiten. Dabei wird eine Versuchsper-
son mit Markern, meist in der Form von Kugeln präpariert, die ihr auf Körperelemente geklebt
werden. Diese Marker sind technisch leicht detektierbar und die Position im Raum dieser
Marker ist exakt bestimmbar. Somit kann aufgrund der Lage der Marker auf die Lage von
Körperelementen wie Kopf, Arme und Beine geschlossen werden (vgl. SIMI MOTION [76]
und VICON [77]).
13
1.2.4 Systematik exakter Bewegungsmessverfahren
Die Verfahren, mit denen exakt Bewegungen gemessen werden können, lassen sich heute
in drei Kategorien einteilen. Es sind dies die Verfahren, die zweidimensional, die dreidimen-
sional und die dreidimensional unter Verwendung eines Menschmodells arbeiten.
1.2.4.1 2-D-Methoden
Mit zweidimensionalen Methoden lassen sich Bewegungen innerhalb einer Bewegungsebe-
ne messen. In der Regel erfolgt die Erfassung der Bewegung mit einer Kamera, d.h. die Be-
wegungsebene ist parallel zur Kameraebene (vgl. Abbildung 1.7). Letztlich wurde so schon
durch Braune, 1895, Bewegung interpretiert und auch die Zyklografie ist ein 2-D-Verfahren.
Mit diesen älteren Techniken lassen sich nur qualitative Aussagen zur beobachteten Bewe-
gung machen. Heute, liegen i.d.R. die Daten digital vor, so dass sich quantitative Analysen
durchführen lassen. Mit einer einfachen Videokamera, deren Bilder digitalisiert werden, kön-
nen so einfache Bewegungsanalysen durchgeführt werden. In Abbildung 1.8 ist ein Bild aus
einem Videofilm gezeigt. Die aufgeklebten Markierungen ermöglichen dabei die Positionsbe-
stimmung derselben. Die Positionsbestimmung kann manuell erfolgen. Durch heutige Mög-
lichkeiten der Bildverarbeitung ist es jedoch relativ einfach, die Markerpositionen automatisch
zu messen. Die resultierenden Orts-Zeit-Daten ermöglichen weitere Analysen wie z.B. Fou-
rieranalyse, um Bewegungsmuster genauer zu betrachten.
Derartige 2-D-Verfahren sind gut geeignet um schnell und unkompliziert qualitative Bewe-
gungsaussagen zu treffen. Es ist allerdings schwierig, mit diesen Daten detailliertere Model-
lierungen vorzunehmen. So ist z.B. nicht gewährleistet, dass die Bewegung wirklich nur in
der Bildebene abläuft, d.h. die Komponente senkrecht zur Bildebene bleibt verborgen. Aus
diesem Grund können auch nur bedingt Haltungswinkel bestimmt werden.
14
Abbildung 1.7: Beim zweidimensionalen Ansatz muss die Bewegungsrichtung in
der Bildebene liegen.
Abbildung 1.8: Seitenansicht eines Kleinkindes beim Zähneputzen. Mit Hilfe der
Markierungen an Kopf, Oberarm, Unterarm und Hand kann die Zahnputzbewe-
gung zweidimensional analysiert werden (vgl. Seitz et al. [65]).
1.2.4.2 3-D-Methoden ohne Modell
Wird der 2-D-Ansatz um eine Kamera erweitert, so ist es möglich durch Triangulation von
Punkten, die in beiden Kameraansichten zu sehen sind - sog. korrespondierende Punkte -,
die Position dreidimensional zu erfassen. Somit ist die Bewegungsmessung unabhängig von
der Bildebene möglich und es können alle Bewegungen frei im Raum gemessen werden
15
(vgl. Abbildung 1.9). Da der menschliche Körper keine markanten Punkte besitzt, die aus-
gemessen werden könnten, werden externe Marker angebracht, wie dies Abbildung 1.3
zeigt. Über die Lage der Marker im Raum wird die Bewegung beschrieben. Dazu ist es je-
doch nötig, dass die Marker an definierten Stellen des Probanden angebracht sind, so dass
klar definiert ist, welcher Marker mit welchen knöchernen Strukturen korrespondiert; d.h., um
z.B. die Bewegung des Unterarms beschreiben zu können, wird mindestens ein Marker am
Ellbogengelenk und einer am Handgelenk benötigt. Mit diesen zwei Markern kann die Lage
des Unterarms im Raum beschrieben werden. Zur Vergleichbarkeit der Daten zu anderen
Versuchspersonen ist es wichtig, dass die Marker immer an den gleichen Körperpunkten
befestigt werden, wie es z.B. in der Benutzeranleitung zu den Systemen SIMI MOTION oder
VICON beschrieben wird. In der Realität ist dies allerdings schwierig.
Die richtige Interpretation der Markerkoordinaten setzt voraus, dass die Markerposition bzgl.
des korrespondierenden Körperelements konstant bleibt. D.h. Verschiebungen der Marker
durch Weichteilverformung oder durch Kollision mit der Umgebung werden nicht erfasst, tre-
ten aber in der Realität auf und stellen demnach ein Problem dar.
Abbildung 1.9: Mit Hilfe von zwei Kameras (oder mehr) können Punkte im Raum
per Triangulation dreidimensional vermessen werden.
16
1.2.4.3 3-D-Methoden mit Modell
Die bisherige Klassifizierung der generellen Methoden stützte sich auf Markierungen geeig-
neter Art, die am Probanden befestigt werden. Die 2-D- und 3-D-Methoden liefern dabei die
Position und Zeitpunkt der Messung einer Markierung. Stellt sich die Frage, wie der Über-
gang von den aus messtechnischen Gründen benötigten Markern und körpereigenen Ele-
menten realisiert werden soll, um z.B. eine Körperhaltung durch Gelenkwinkel zu beschrei-
ben. Deshalb ist im Bereich Menschmodellierung nicht die Frage, wo ist ein Marker, sondern
die Frage, wo ist ein Gelenkpunkt oder Körperelement, zu beantworten. Durch die wahre
Kenntnis der Körperposition eines Probanden im Raum, kann die eigentliche Modellierung
menschlichen physischen Verhaltens erst beginnen. Diese Lücke zwischen Proband und
Markerpositionen wird mit Hilfe von Menschmodellen versucht zu schließen.
Die einfachste Version stellt ein einfaches Strichmodell dar, das die Verbindung z.B. eines
Ellenbogenmarkers zum Handgelenkmarker und weiteren Gelenken zueinander definiert,
d.h. die Markerpositionen werden durch Linien miteinander verbunden, so dass die Kinema-
tik des Menschen abgebildet wird. Ridder [53] beispielsweise verwendete ein solches
Strichmodell (Abbildung 1.10). Mit dessen Hilfe ist es z.B. durch Hypothesenbildung möglich,
aus all den detektierten Markern die richtigen miteinander zu verbinden. Ferner ist es mög-
lich zeitweise verdeckte Marker wieder zu finden, da, aufgrund der Strichkopplung, nur ein
eingeschränkter Bewegungsraum für einzelne Marker zur Verfügung steht. Die Einführung
der Kopplung von Markern durch Linien hat hier also weniger etwas damit zu tun, dass es
sich hierbei um ein Menschmodell handeln soll, als vielmehr damit, dass dadurch die techni-
sche Handhabung (Wiederfinden von Markern, Verbinden der richtigen Marker, Einschrän-
kung und Vorausberechnung von Aufenthaltmöglichkeiten für Marker) verbessert wird.
Oben erwähnte Strichmodelle sind an der Oberfläche des Probanden angebracht. Die Mar-
kerposition ist zugleich ein Gelenkpunkt des Strichmodells. Abbildung 1.11 zeigt, dass die
anatomische Gelenkposition nicht detektiert wird, wenn die Marker nicht an selbiger ange-
bracht sind. Es resultiert hieraus eine große Differenz zwischen Modellgelenk und anatomi-
schen Gelenk. Ferner sind die Gelenkpunkte an der Oberfläche des Körpers angebracht.
Anatomische Gelenke liegen jedoch im Körper und sind nicht sichtbar. D.h. ein Strichmodell
müsst erst noch in geeigneter Form transformiert werden, so dass es die wahren Gelenkörter
repräsentiert. Das wird mit etwas komplexeren Strichmodellen realisiert, z.B. durch die Kopp-
lung eines Strichmodells an die Markerpositionen, in der Art, dass die Linien in etwa die Lage
von Knochen und die Gelenke zwischen den Linien, die Lage der tatsächlichen Gelenke rep-
räsentieren. Hierzu muss das Strichmodell durch Annahmen über Körper- und Skelettbau an
die richtige Position gebracht werden. Im VICON-Messsystem wird dieses Verfahren ange-
17
wandt. Zur Bestimmung der Hüftgelenklage, beispielsweise, müssen Marker an Becken, O-
berschenkel und Knie nach genau definierten Regeln angebracht werden. Durch die geomet-
rische Anordnung der Marker kann das System auf die wahre Gelenkposition der Hüfte und
des Knies schließen. Damit sind die Möglichkeiten mit reinen Strichmenschmodellen Ge-
lenkpositionen und reale Haltungswinkel weitgehenst erschöpft.
Die logische Erweiterung stellen Volumenmenschmodelle dar, die neben dem Skelett des
Menschen auch dessen Oberfläche repräsentieren. In der Informatik sind hierzu einige Ar-
beiten durchgeführt worden. Besonders hervorzuheben sind dabei die in Kapitel 1.2.2 zitier-
ten Ansätze von Yamamoto [78, 79] und Gavrila [20]. Beide entwickelten ein Volumen-
menschmodell, dass sie in Videoaufnahmen projizierten. Yamamoto bestimmt dabei die Po-
sition des Menschmodells mit Hilfe von Markern an der Versuchsperson, Gavrila hingegen,
analysiert Körperumrisse und richtet das Modell an diesen Umrissen aus. Vorteil beider Me-
thoden ist es, dass das an die Marker oder Konturen angepasste Menschmodell die Lage
von Gelenkörtern und die Haltung konform zum verwendeten Modell beschreibt. Die
Menschmodelle müssen an die Anthropometrie (die Maße des Menschen) der Probanden
angepasst werden, d.h. das Modell soll die wahre Lage von Gelenkpunkten und die reale
Oberfläche eines Menschen beschreiben.
Wie eigene Arbeiten zeigen (Abbildung 1.12) ist es mit der Überlagerung eines exakten
Menschmodells möglich, auf eine definierte Anbringung von Markern zu verzichten. Die in
Abbildung 1.13 gezeigte Kopplung eines Markers an das Menschmodell kann völlig frei er-
folgen. Die neue Idee ist dabei, dass eine Versuchsperson mit Markern ausgestattet wird, so
dass jedes Körperelement durch einen Marker detektiert werden kann. Der Unterschied zu
heutigen Ansätzen ist dabei, dass der Operateur die Marker an beliebigen Stellen der betref-
fenden Körperelemente anbringen kann. Durch die Überlagerung eines Menschmodells er-
folgt die Zuordnung zu Punkten des Menschmodells flexibel. Am sinnvollsten ist die Zuord-
nung zum nächstgelegenen Modellpunkt, in der Regel ein Punkt der Oberfläche des
Menschmodells.
Durch diese Initialisierung von Bewegungsmessungen kann erstens darauf verzichtet wer-
den, Marker immer an der selben Stelle anbringen zu müssen und zweitens können die Mar-
kerpositionen zu jeder Zeit in eine Haltung des benutzten Menschmodells überführt werden.
Bei unterschiedlicher Platzierung der Marker bei verschiedenen Versuchspersonen oder bei
derselben Versuchsperson im Falle von Folgemessungen (vgl. Abbildung 1.13, rechts), kön-
nen, durch oben genannte Initialisierung, vergleichbare Daten erhoben werden, unter der
Vorraussetzung, dass das verwendete Modell möglichst exakt die Anthropometrie des Pro-
banden widerspiegelt. Die bei gängigen 3-D-Methoden notwendige penible Präparierung der
18
Versuchsperson entfällt. Die Verwendung eines detaillierten dreidimensionalen Menschmo-
dells kann also die Handhabung von Bewegungsmessungen vereinfachen und die Aussage-
kraft und Vergleichbarkeit entscheidend verbessern.
Abbildung 1.10: Einfache Strichmodelle. Links: Binokularen Messungen überla-
gertes Strichmodell (Foto: Fa. SIMI, Oberschleißheim). Rechts: Ebenfalls überla-
gertes Strichmodell (entnommen aus: Ridder [53]).
Abbildung 1.11: Diese Abbildung zeigt die Diskrepanz zwischen anatomisch kor-
rekten Gelenkpositionen (Kreuze) und denen, die durch Marker bzw. ein Strich-
menschmodell ermittelt werden, wenn die Marker nicht exakt an der Position der
anatomischen Gelenkpositionen sind.
19
Abbildung 1.12: Oben: Versuchsperson, mit Markern präpariert. Unten: Überla-
gertes Menschmodell. Jetzt kann räumlich definiert werden, wie die Marker mit
dem Modell verbunden werden.
20
Abbildung 1.13: Links: Durch die exakte Überlagerung von Menschmodell und
Versuchsperson, kann die Kopplung zwischen den Markern und dem Modell er-
folgen. Hier ist die Kopplung eines Schultermarkers mit dem Schultergelenk dar-
gestellt. Der Marker kann aber mit beliebigen anderen sinnvollen Modellpunkten
gekoppelt werden (z.B. dem nächstgelegenen Hautpunkt). Rechts: Durch den
Kopplungspunkt bzw. -vektor kann durch Marker 1 oder Marker 2 die Haltung des
Oberarms gleichermaßen definiert werden, denn die Kopplung stellt eine eindeu-
tige Verbindung zum Modell her. Die Markerlage ist also unerheblich.
1.3 „Ideales“ Bewegungsmesssystem
Wie gesehen, existieren heute verschiedene Verfahren zur Messung der menschlichen Be-
wegung, die Marker verwenden, welche an den Probanden angebracht werden. Doch das
Anbringen von Markern ist zeitaufwändig. Außerdem stellt sich die Frage, wie von Markerpo-
sitionen auf tatsächliche reale Gelenkwinkel oder Gelenkpositionen geschlossen werden soll.
Hierzu ist die Einführung eines Menschmodells, das den Probanden anthropometrisch reprä-
sentiert, notwendig. Nur so lassen sich Markerinformationen modellbasiert interpretieren.
Dennoch, die Marker können verrutschen, ohne dass ein Messsystem dies erfassen kann
oder es kann zu Kollisionen zwischen Markern und der Umwelt kommen, so dass Bewe-
gungsabläufe gestört werden.
Technische Systeme brauchen Marker, um exakt Positionen im Raum messen zu können.
Doch die Natur führt uns täglich vor, dass höhere Lebewesen insbesondere der Mensch,
täglich im eigenen Alltag die Bewegung und Position von anderen Objekten (wie Autos,
Straßenbahnen oder anderen Menschen) so zuverlässig „messen“ und interpretieren kann,
dass Kollisionen zwischen anderen Objekten relativ selten sind oder ein Vorgang, wie das
Fangen eines Balls mit ein wenig Übung sehr gut vom Menschen bewältigt wird. Es drängt
sich die Frage auf, ob das Verfahren, wie Lebewesen ihre Umwelt „messen“ nicht ein mögli-
21
cher Lösungsansatz für ein Bewegungsmesssystem ist. Solch ein System könnte die Bewe-
gung des Menschen ad hoc messen. Jegliche Präparierung von Versuchspersonen würde
entfallen und die Versuchsperson würde selbst kaum merken, dass sie gerade gemessen
wird – man könnte von einem idealen Bewegungsmesssystem sprechen.
Das ideale Messsystem beeinflusst also in keiner Weise den Probanden (Verzicht auf Mar-
ker o.ä.) und ist ferner schnell und einfach zu handhaben. Darüber hinaus ermöglicht es
Messungen in gewöhnlicher Alltagskleidung, so dass Probanden sich nicht umziehen müs-
sen bzw. Messkleidung tragen müssen, die deren Wohlbefinden stört. Hinzu kommt, dass
das ideale Messsystem alle relevanten Daten über Positionen und Winkel dreidimensional
und konform zu einem dreidimensionalen Modell des Probanden generiert. Messwerte ver-
schiedener Versuchspersonen sind dann über das Menschmodell direkt vergleichbar und
alle Daten, welche die Anthropometrie beschreiben, jederzeit verfügbar (vgl. Tabelle 1.1).
Forderung ans System Folgerung aus Forderung
Versuchsperson nicht beeinflussen Bewegungsmessung ohne Marker o.ä.
Anatomische Gelenkörter messen Technik, um „in die Tiefe zu blicken“
Einfache Handhabung und mobil Geringer Hardwareeinsatz
Tabelle 1.1: Forderungen an das „Ideale Bewegungsmesssystem“ und resultie-
rende Folgerungen für den zu wählenden Ansatz.
Damit sind der Ansatz und die Zielsetzung dieser Arbeit definiert. Es soll untersucht werden
inwieweit und mit welchen Methoden und Mitteln ein ideales Bewegungsmesssystem reali-
siert werden kann, dass, erstens, die Versuchsperson nicht beeinflusst und, zweitens, mo-
dellbasierte Daten liefert, so dass jeder Zeitpunkt einer Bewegung im Computer komplett
reproduzierbar ist.
Die Vorgehensweise gliedert sich nach dieser Definition im Wesentlichen in vier Hauptberei-
che.
1. Menschmodelle: Menschmodelle spielen bei der Bewegungsmessung und Interpreta-
tion eine entscheidende Rolle. Menschmodelle stellen das Kopplungsglied zwischen
Messpunkten der Bewegungsmessung und der Anthropometrie einer Versuchsper-
son dar. Sie ermöglichen eine computergestützte Darstellung. Es wird gezeigt, wie
individuelle Menschmodelle erzeugt werden, welche die Anthropometrie eines Pro-
banden repräsentieren und einen virtuellen Zwilling einer Versuchsperson darstellen.
Des Weiteren wird gezeigt, wie mit Hilfe eines Modells Haltungen eines Probanden
ermittelt werden.
22
2. Physiologisches Konzept des Bewegungssehens: Die Natur entwickelte ein Konzept
der Bewegungsmessung und –interpretation, das es Mensch und Tier erlaubt, die
Dynamik seiner Umwelt zu erfassen. Aus den Konzepten, welche die Natur hierbei
einsetzt, werden die Ansätze für die Entwicklung eines Bewegungsmesssystems
entwickelt, das ohne Marker auskommen kann und Bewegungen direkt in das ver-
wendete Modell transformiert.
3. Bildverarbeitungsverfahren: Die physiologischen Konzepte des Bewegungssehens
werden mit Hilfe der digitalen Bildverarbeitung umgesetzt. Hierbei wird im Wesentli-
chen die Korrelations- und Kantenanalyse verwendet, um strukturelle Bildänderungen
zu detektieren – analog zur Muster- und Kantenanalyse, wie sie von der Natur ver-
wendet wird.
4. Realisierung: Bei der Realisierung wurden die Erkenntnisse der Punkte 1, 2 und 3
zusammengeführt und ein Messsystem entwickelt und getestet das die heutigen
Möglichkeiten und Grenzen der Entwicklung eines „idealen“ Messsystems“ aufzeigt.
23
2 Menschmodell RAMSIS und das Messsystem PCMAN
Das Menschmodell RAMSIS ist ein digitales Menschmodell zur Simulation menschlicher
Anthropometrie und Haltung im CAD. Es wird verwendet, um Fahrzeuge, hauptsächlich
Pkws, ergonomisch auszulegen. Neben RAMSIS existieren in der Ergonomie noch andere
digitale Menschmodelle. Die Einführung von Menschmodellen generierte in der Vergangen-
heit ein neues Arbeitsfeld – die sog. Menschmodellierung.
Die Menschmodellierung (im internationalen Sprachgebrauch digital human modeling ge-
nannt) ist ein Teilgebiet der Arbeitswissenschaft bzw. der Ergonomie, das vor allem in den
letzten Jahren in Industrie und Forschung etabliert wurde. Man versteht darunter die Nach-
bildung menschlicher Eigenschaften im weitesten Sinne, also physische und psychische,
durch geeignete Computerprogramme und die Anwendung dieser virtuellen Menschen zur
Konstruktion und Auslegung jeglicher Mensch-Maschine-Systeme, wie z.B. dem Cockpit im
Automobil (Package-Analyse), dem Büroarbeitsplatz oder der Produktionsplanung an Fließ-
bändern (Bubb [10]). Die Menschmodellierung ist in der Regel integriert in CAD-Systeme.
Zur Menschmodellierung gehören zum einen Menschmodelle, welche die geometrischen und
kinematischen Eigenschaften des Menschen simulieren und Messtechniken, welche die Da-
tengrundlagen für die eigentliche Modellierung liefern. Ausgezeichnete Übersichten der ver-
schiedenen Entwicklungen auf diesem Gebiet finden sich bei Peacock und Karwowski [44],
bei Karwowski, Gendaidy und Asfour [34], bei Badler, Phillips und Webber [3] sowie bei
Raschke, Schutte und Chaffin [50]. Darüber hinaus finden sich Überblicke zur Menschmodel-
lierung zum einen aus Sicht der amerikanischen Luftwaffe und zum anderen aus Sicht des
Automobilbaus in den Artikeln von McDaniel [38] und Bubb [11].
2.1 Entwicklungsgeschichte ergonomischer Menschmodelle
Heute existieren im Wesentlichen drei Menschmodelle, RAMSIS, SAFEWORK und JACK,
die kommerziell erwerbbar und im ingenieurwissenschaftlichen Bereich einsetzbar sind. Ne-
ben diesen drei Modellen wurde aber im Laufe der Zeit eine große Anzahl verschiedener
Entwicklungen verfolgt. Die folgenden Abschnitte sollen einen historischen Überblick hierzu
geben.
Die Entwicklung der Menschmodellierung kann mit der Entwicklung von BOEMAN in den
60er Jahren des 20. Jahrhunderts begonnen werden. Ryan und Springer des amerikani-
schen Flugzeugherstellers Boeing entwickelten ein Programm zur Simulation von Erreich-
24
barkeiten für einen Durchschnittsmenschen in Jagdflugzeugen (Ryan und Springer [55]). Die
nichtlineare Optimierung der Haltungen war damals derart zeitaufwendig, so dass BOEMAN
nicht in Alltagsfragestellungen angewendet werden konnte.
In den 70er Jahren wurde BOEMAN dann vom medizinischen Forschungslabor für Luft- und
Raumfahrt (ARML) der amerikanischen Luftwaffe übernommen und das Model zur Haltungs-
simulation vereinfacht sowie die Möglichkeit implementiert, eine größere Anzahl männlicher
und weiblicher Anthropometrien simulieren zu können, die in verschiedene Militärflugzeugty-
pen integriert werden konnten. Das aus den Forschungen des ARML resultierende Mensch-
modell wurde unter dem Namen COMBIMAN bekannt.
In den 80er Jahren wurde erkannt, dass COMBIMAN nicht nur zum Zwecke der Cockpitaus-
legung, sondern auch zur Simulation von Wartungs- und Servicearbeiten an Flugzeugen
benutzt werden könnte. COMBIMAN wurde somit für die Simulation von stehenden, hocken-
den oder knienden Arbeiten mit Benutzung von Werkzeugen erweitert. Das resultierende
Menschmodel bekam den Namen CrewChief. Die durch CrewChief aufzubringenden Kräfte
bei den verschiedenen zu simulierenden Arbeiten, basierten auf einer Datenbank, die inner-
halb des ARML durch Versuche ermittelt wurden.
Ein allgemeineres biomechanisches Modell zur Vorhersage populationsabhängiger Kraftvor-
hersagen wurde von Chaffin et al. [15] in den späten 60ern entwickelt. Hauptziel dieser Ar-
beit war die Simulation statischer Kräfte welche von Astronauten aufzubringen sind, die wäh-
rend eines Aufenthalts im All oder auf dem Mond, Objekte heben, ziehen oder schieben
müssen. Hierzu wurden Kraftmessungen an über 2000 Menschen gemacht. Das hieraus
resultierende Programm 3DSSPP (3D Static Strength Prediction Program) ist vor allem in
den USA verbreitet und wird von Behörden und Organisationen eingesetzt.
Parallel zu den Entwicklungen in den USA, wurde in England das System SAMMIE durch
Case, Porter und Bonnes [13] entwickelt, das schon perzentilierte Anthropometrien verwen-
dete und z.B. Spiegelsicht bei Kraftfahrzeugen bewerten konnte. Daneben sind in den 80ern
viele andere Systeme programmiert worden, wie ERGOMAN vom Laboratorie
d’Anthropologie Appliguée et d’Ecole Hamaine in Paris, WERNER vom Institut für Arbeits-
physiologie an der Universität Dortmund, Tommy der TU Dresden [33], HEINER von der TU
Darmstadt [57], sowie ANYBODY und ANTHROPOS der deutschen Firma IST.
In Kanada wurde ebenfalls während der 80er Jahre das Modell SAFEWORK an der Ecole
Polytechnique Montreal entwickelt. Neben der Simulation verschiedener anthropometrischer
Dimensionen bietet SAFEWORK auch die Möglichkeit mit Hilfe inverser Kinematik einfache
Bewegungen zu simulieren.
25
Das Modell JACK wurde unter Federführung der NASA zusammen mit der Universität von
Pennsylvania Mitte der 80er entwickelt [3]. Ursprünglich war dieses Modell, das zunächst
den Namen TEMPUS trug, für die Arbeitsplanung beim Zusammenbau der heutigen Raum-
station ISS konzipiert worden. Es sollten Fragen geklärt werden, wie z.B. ein Astronaut am
besten Gegenstände erreichen und befestigen kann, aber auch, wie die Sicht des Astronau-
ten mit Raumanzug ist. Im Laufe der Jahre wurde JACK auch für Analysen an Militärflugzeu-
gen und anderen Fahrzeugen benutzt. JACK wurde mit einer anthropometrischen Datenbank
ausgestattet sowie mit einer beweglichen Wirbelsäule und Gelenken, so dass JACK mit in-
verser Kinematik positioniert werden konnte. Ferner ermöglicht kraftgeführte Haltungs- und
Bewegungssimulation die Berechnung komplexerer Aufgaben.
Speziell zugeschnitten für die Bedürfnisse in der Luftfahrtindustrie ist das Menschmodell
BMD-HMS, das Boeing-McDonell-Douglas-Human-Modeling-System, welches 1990 einge-
führt wurde. BMD-HMS wird benutzt, um manuelle Tätigkeiten die für Wartung und Inspekti-
on, aber auch für die Bedienung von Flugzeugen, nötig sind, zu visualisieren und zu analy-
sieren. Einen detaillierteren Überblick, leider fast nur über die Entwicklungen auf angelsäch-
sischer Seite, bietet Chaffin [14].
Seit Ende der 80er Jahre wurde in Deutschland in Zusammenarbeit mit der deutschen Au-
tomobilindustrie, der Katholischen Universität Eichstätt, der Fa. tecmath und dem Lehrstuhl
für Ergonomie der Technischen Universität München, das Menschmodell RAMSIS (Rech-
nergestütztes Anthropologisch-Mathematisches System zur Insassen Simulation) entwickelt.
RAMSIS ist speziell für die Bedürfnisse der Automobilindustrie zugeschnitten und ermöglicht
• die perzentilierte und korrekte Darstellung des Menschen unter Zugrundelegung ge-
eigneter Populationen
• die Simulation von realistischen und statistisch abgesicherten Körperhaltungen in
Abhängigkeit geometrischer Einschränkungen
• die Bewertung des Komfortempfindens bei gegebener Haltung
• ergonomische Analysefunktionen z.B. für die Sicht oder den Gurtverlauf.
RAMSIS wird heute fast weltweit in der Automobilindustrie zur Packagebewertung und –
konstruktion (vgl. Abbildung 2.1) eingesetzt, da nahezu alle Populationen anthropometrisch
repräsentiert werden können (wie z.B. Deutsche, Japaner, Koreaner oder Amerikaner). Ne-
ben Erwachsenen können auch Kinder simuliert werden (Arlt und Marach [2]). RAMSIS fin-
det auch Einsatz bei der Auslegung von Motorrädern (Kolling [37]), Flurförderfahrzeugen
(Seitz [64]) und anderen Arbeitsplätzen.
26
Abbildung 2.1: Das Menschmodell RAMSIS, mit dessen Hilfe die Fahrzeug-
Ergonomie ausgelegt wird, in der CAD-Umgebung eines KFZ (Foto: Human Solu-
tions GmbH).
2.2 Aufbau des Modells RAMSIS
In dieser Arbeit wird die Struktur des Menschmodells RAMSIS verwendet. Deshalb soll an
dieser Stelle das verwendete Modell dargestellt werden.
Leitgedanke bei der Entwicklung des Modells RAMSIS war, ein anthropometrisch und kine-
matisch korrektes 3-D-Computermenschmodell zu entwickeln, quasi einen virtuellen Zwilling
des Menschen, wie Bubb [12] ausführt. Folglich ist RAMSIS analog zur menschlichen Ana-
tomie konstruiert. Wie der Mensch, so hat RAMSIS ebenfalls ein Skelett, das sog. innere
Modell, und eine Haut, das sog. äußere Modell (Abbildung 2.2).
Das innere Modell dient der Repräsentation der Kinematik und Längenmaße, wie Bein- oder
Armlängen. Es ist dafür verantwortlich, Haltungen und Bewegungen exakt nachstellen zu
können. Einzige Stützpunkte des Skeletts sind dabei die realen Gelenkdrehpunkte. Dies gilt
allerdings nicht für die Wirbelsäule; aufgrund der Komplexität der Wirbelsäule wurde das
Wirbelsäulenmodell vereinfacht und enthält weniger Wirbel als die echte Wirbelsäule. Die
Beweglichkeit ist jedoch trotzdem vergleichbar.
27
An das innere Skelettmodell ist das Hautmodell angehängt und repräsentiert die äußere Er-
scheinung des Menschen. Die Haut ist jener Modellteil, der die Wechselwirkung mit der Um-
welt übernimmt, z.B. den Kontakt beim Greifen eines Gegenstandes oder der Kontakt zwi-
schen Stuhl und Gesäß beim Sitzen. Das Hautmodell definiert ferner durch das Volumen,
das es umschließt, physikalische Eigenschaften, wie die Masse des virtuellen Menschen und
dessen Trägheitseigenschaften.
Eine detaillierte Beschreibung des Aufbaus von innerem und äußerem RAMSIS-Modell findet
sich bei Seidl [60] oder Geuß [24]. In den zwei folgenden Abschnitten sind die wichtigsten
Merkmale zur Verdeutlichung dargestellt.
Abbildung 2.2: Inneres und äußeres Modell von RAMSIS. Am inneren Modell
sind zusätzlich die Kurzbezeichnungen der Gelenke zu sehen, die hier Verwen-
dung finden.
2.2.1 Struktur des inneren Modells
Das innere Modell besteht aus Elementkoordinatensystemen, die jeweils in einem Gelenk-
punkt liegen. Die Elementkoordinatensysteme sind kartesische Koordinatensysteme. Liegt
der Ursprung in einem Gelenkpunkt, so zeigt die Achse Tangente (T) in Richtung des nächs-
ten Gelenkpunktes, der zugleich Startpunkt eines neuen Körperelements ist (Abbildung 2.3).
Generell ist jeder Gelenkpunkt auch einem Körperelement zugeordnet. So ist beispielsweise
28
das linke Hüft- bzw. Oberschenkelgelenk, kurz OSL (vgl. Abbildung 2.2), auch diesem Kör-
perelement (Oberschenkel) zugeordnet. Die Achse Normale (N) zeigt in Richtung Vordersei-
te des Körperelements. Die dritte Achse, die Binormale (B) ergibt sich dann durch das
Kreuzprodukt aus Tangente und Normale. Jeder Gelenkpunkt ist relativ zu seinem Vorgän-
gerpunkt durch einen Satz Elementkoordinaten definiert. Um das Modell zu bewegen dient
das Gelenkkoordinatensystem. Es ist ebenfalls kartesisch und hat seinen Ursprung, wie das
Elementkoordinatensystem, in Gelenkpunkten. Durch Anwendung geeigneter Drehmatrizen
kann so ein Körperelement um ein Gelenk gedreht werden.
Hieraus ergibt sich der hierarchische Aufbau des Modells RAMSIS. Anfangspunkt oder Ur-
sprung des Modells bildet hierbei das Hüftzentrum, die Mitte zwischen der Verbindungslinie
vom rechten Oberschenkelgelenk zum linken, Kurzbezeichnung BEC (vergleiche Abkürzun-
gen der Gelenkpunkte in Abbildung 2.2). Ans BEC sind zunächst die Gelenke der Wirbelsäu-
le bis zum Augenpunkt in ihrer logischen Reihenfolge gekoppelt, es schließen sich rechter
und linker Arm bis zu den Elementen FIL und FIR und schließlich die Elemente der Beine bis
zu FBL und FBR an.
2.2.2 Struktur des äußeren Modells
Das äußere Modell, das die Haut des Menschmodells repräsentiert, hat seinen Ursprung an
jedem Körperelement und ist in dessen Koordinatensystem definiert. Die Haut wird durch
Punkte repräsentiert, die untereinander verbunden sind und so einzelne übereinander gesta-
pelte Scheiben bilden. Die Anzahl der Eckpunkte einer Scheibe eines Körperelements kann
unterschiedlich sein. Die Arme haben 8 Eckpunkte, während die Füße oder der Kopf, die
einen höheren Detaillierungsgrad besitzen, um die gesamte Vielfalt möglicher Oberflächen
befriedigend abbilden zu können, 16 – 24 Eck- oder Stützpunkte haben. Die meisten Schei-
ben sind eben, d.h. sie liegen senkrecht auf der Verbindungslinie zwischen zwei Gelenk-
punkten. Definiert wird die Lage der Eckpunkte im T-B-N-System.
Da der Abstand eines Hautpunkts zum inneren Modell innerhalb der zugehörigen Scheiben-
ebene, frei skalierbar ist, kann jede äußere Anthropometrie also die Oberfläche einer Person
nachgebildet werden. Durch vorherige Skalierung des inneren Modells ist somit eine sehr
detaillierte Repräsentierung einer realen Person möglich. Ferner lassen sich auch beliebige
perzentilierte Anthropometrien erzeugen.
29
Abbildung 2.3: Äußeres Modell eines Körperelements (entnommen aus Seidl
[60]).
2.3 PCMAN – das RAMSIS-Messsystem für Anthropometrie- und
Haltungsmessung
PCMAN ist ein Anthropometrie- und Haltungsmesssystem, das die Modellstruktur des
Menschmodells RAMSIS benutzt. Es wird seit Anfang der 90er Jahre am Lehrstuhl für Ergo-
nomie entwickelt bzw. weiterentwickelt (Geuß [24], Seidl [60], Seitz [61], Seitz, Balzulat und
Bubb [62]) und basiert auf Ansätzen von Weiß [72]. PCMAN bietet die Möglichkeit, dreidi-
mensionale Anthropometrien und Haltungen auf Basis des Menschmodells RAMSIS anhand
digitalisierter Fotos einer Versuchsperson zu messen. Hierzu wird unter Berücksichtigung
perspektivischer Bedingungen das Menschmodell den Bildern überlagert und die Kontur des
Modells mit der Kontur der Versuchsperson zur Deckung gebracht. Zur Erzeugung der Bilder
werden mehrere handelsübliche CCD- oder Videokameras eingesetzt, welche den Proban-
den aus unterschiedlichen Perspektiven zeigen. Dadurch ist das System sehr mobil und fle-
xibel einsetzbar (z.B. für Studien im fahrenden Auto oder in Fabrikhallen).
Das Vorgehen mit PCMAN untergliedert sich in drei Stufen:
1. Kalibrieren
2. Anthropometrische Modelladaption und
3. Haltungsanpassung
30
Mit Hilfe des Systems PCMAN kann ein Proband anthropometrisch beschrieben werden,
sowie individuelle Gelenkwinkel gemessen werden. Auf Grundlage dieser Daten erfolgen
weitere Analysen oder Modellierungen, z.B. Erzeugung anthropometrischer Typologien oder
Erzeugung von Haltungsmodellen.
2.3.1 Prinzip
Grundprinzip von PCMAN ist der Überlagerungsgedanke. Dabei werden mit Video- oder Di-
gitalkameras Fotos eines Probanden erstellt und in diese Fotos das dreidimensionale
Menschmodell projiziert. Wenn das Menschmodell genau die Anthropometrie des Probanden
trägt und die perspektivischen Verhältnisse der Fotos bekannt sind, so lässt sich das Modell
exakt mit der Versuchsperson überlagern. Durch Benutzung von zwei oder mehr Kameras
kann eine Szene mit Hilfe des Triangulationsprinzips dreidimensional erfasst werden. In
Abbildung 2.4 ist dies dargestellt.
Das PCMAN-Prinzip ermöglicht zum einen durch anpeilen eines Punktes in den Bildern, der
in allen Bildern eindeutig zu erkennen sein muss, dessen Lage im Raum zu ermitteln.
PCMAN kann also als optisches 3-D-Messprogramm verwendet werden. Zum anderen er-
laubt die Software das perspektivisch korrekte Projizieren des Menschmodells in die Bilder,
so dass das Modell virtuell am Ort des Probanden zu stehen scheint.
Das zugrunde liegende Triangulationsprinzip, basiert auf der geometrischen Grundlage, dass
zur exakten Vermessung eines Punktes im Raum mindestens zwei Sichtlinien aus unter-
schiedlichen Perspektiven benötigt werden. Der Schnittpunk der Geraden definiert einen
Punkt im Raum. Jeder Bildpunkt definiert dabei eine Sichtlinie vom Brennpunkt der Kamera
durch ein Pixel der Bildebene zum realen Punkt. Wird eine Szene von zwei Kameras aus
unterschiedlichen Perspektiven gefilmt, und ist g1 die Gerade durch die Bildkoordinate (x1, y1)
von Bild B1 und g2 die Gerade durch die Bildkoordinate (x2, y2) von Bild B2, dann schneiden
sich g1 und g2 im Punkt P, wenn P ein so genannter korrespondierender Punkt ist, also ein
Punkt, der in allen Bildern eindeutig zu sehen ist. Durch Auswahl korrespondierender Bild-
punkte (x1, y1) und (x2, y2) können am Probanden anthropometrische Maße abgenommen
werden.
31
Abbildung 2.4: Das PCMAN-Prinzip. Mit Hilfe von Bildern einer Versuchsperson
aus unterschiedlichen Perspektiven, lassen sich per Triangulation dreidimensio-
nale Informationen gewinnen. In die Bilder wird das Menschmodell RAMSIS pro-
jiziert, das virtuell an die gleiche Stelle im Raum gerückt wird, wie die Versuchs-
person und deshalb exakt mit dieser zur Deckung kommt. Es resultiert eine mo-
dellbezogene dreidimensionale Beschreibung von Ort und Haltung der Ver-
suchsperson.
2.3.2 Kalibrierung
Bevor Messungen mit PCMAN erfolgen können, ist es notwendig das System zu Kalibrieren.
Mit Hilfe der Kalibrierung kann die Software die Kamerastandorte bzgl. eines Koordinaten-
systems, das durch den verwendeten Kalibrierkörper definiert wird, bestimmen und – zu-
sammen mit Kameraparametern wie Brennweite und CCD-Größe – die Perspektive ermit-
teln. Um die Relation der Kameras zueinander mathematisch erfassen zu können, wird ein
Kalibrierkörper verwendet, dessen Abmessungen genau bekannt sind. Prinzipiell können alle
möglichen geometrischen Formen als Kalibrierkörper verwendet werden, doch wird hier in
der Regel ein spezielles Messgestänge verwendet, wie es in Abbildung 2.5 gezeigt wird.
32
Abbildung 2.5: Oben: Der Standardkalibrierkörper. Unten: Nach dem manuellen
anklicken der Enden der Stangen des Kalibrierkörpers wird ein Modell des Kör-
pers überlagert, so dass der Benutzer ein Feedback über die Güte der Kalibrie-
rung erhält. Die Ecken des Modells müssen sich dabei exakt mit den Enden der
Stangen decken.
Der Benutzer selektiert zur Kalibrierung manuell die Endpunkte der Stangen des Kalibrier-
körpers. Es wird mit Hilfe eines Algorithmus auf Basis des Levenberg-Marquard-Verfahrens
[46] in die Bilder projiziert, so dass der Benutzer zum einen sieht, ob die Kalibrierung erfolg-
reich war - das Modell muss sich exakt mit dem Kalibrierkörper decken - und zum andern, ist
nun definiert unter welcher Perspektive der Körper von der Kamera gesehen wird. Damit ist
der Kamerastandort definiert. Alle weiteren geometrischen Berechnungen können nun auf
Basis dieser Kalibrierung abgeleitet werden.
33
Da das System jede eigene Definition von Kalibrierobjekten erlaubt, können auch individuelle
und an Experimente angepasste Kalibrierkörper entwickelt und benutzt werden. In Abbildung
2.6 ist eine solche individuelle Kalibrierung gezeigt. Hierbei wurde die Geometrie des Kalib-
rierkörpers so definiert, dass sie sich exakt mit prominenten Punkten (z.B. gut sichtbare E-
cken oder Schraubenköpfe) des gezeigten Flugsimulator-Cockpits deckt. Bei Experimenten
in beengten Verhältnissen ist dies eine geeignete Methode, um eine gute Kalibrierung zu
erreichen (Kaibel et al. [35]).
Abbildung 2.6: Kalibrierung eines Experiments durch markante Geometriepunkte
eines Flugsimulator-Cockpits. Die überlagerten Linien stellen den Kalibrierkörper
dar, dessen Relationen genau bekannt sind.
2.3.3 Anthropometrische Modelladaption
Das verwendete Menschmodel ist frei skalierbar, d.h. Knochenlängen und die Hautoberflä-
che lassen sich verändern (Abbildung 2.7). Die Vorgehensweise zur Adaption des Mensch-
modells an einen Probanden ist dabei fest vorgeschrieben. Da die Software nicht weiß, wo
die Versuchsperson steht (Abbildung 2.10), schiebt der Benutzer das Modell zunächst über
das Becken des Probanden. Ausgehend von dieser Position wird sukzessive die Beckenbrei-
te, die Beinlänge, die Torsogröße, die Hals- und Kopfposition und die Armlänge manuell an
den Probanden angepasst, so dass sich die Gelenkpunkte des Modells mit realen Gelenkör-
tern decken. Da anatomische Gelenkörter nicht direkt sichtbar sind, werden hierfür verschie-
34
dene Haltungen benutzt. So kann das Hüftgelenk, das Kniegelenk und der Knöchel mit zwei
verschiedenen Haltungen ermittelt werden. Dabei ist in einer Haltung das Bein gestreckt, in
einer anderen angewinkelt (Abbildung 2.9). Aus geometrischen Gründen kann eine exakte
Überlagerung beider Haltungen nur dann erfolgen, wenn die Unterschenkel- und Ober-
schenkellänge richtig justiert wird. Somit werden mit unterschiedlichen Haltungen zum einen
Körperelementlängen richtig justiert und zum anderen die Gelenkdrehpunkte bestimmt. Mit
Hilfe dieser beiden Messhaltungen, die Stehhaltung und Pharaohaltung genannt werden,
werden die Gelenkörter der Hüfte, des Knies, des Knöchels, der Schulter, des Ellbogens und
des Handgelenks gefunden.
Nachdem durch obige Prozedur das Skelett des Menschmodells auf den Probanden skaliert
wurde, muss die Oberfläche an die Versuchsperson adaptiert werden. Die Aufnahmen zur
anthropometrischen Adaption des Menschmodells erfolgen in der Sagittal- und Frontalebene
der Versuchsperson. Damit ist die Anpassung der Haut auch auf diese beiden Ebenen fest-
gelegt, d.h. die Hautanpassung erfolgt auch im Modell nur in der Sagittal- und Frontalebene.
Zur Adaption werden die Hautpunkte in der entsprechenden Ebene verschoben, bis sie sich
mit der Kontur des Probanden deckt. Abbildung 2.8 zeigt die Adaption der Bauchoberfläche
an eine Versuchsperson. Abbildung 2.11 zeigt eine fertig angepasste Anthropometrie.
Abbildung 2.7: Verwandlung des Menschmodells. Alle Gelenke des Modells sind
beweglich, doch darüber hinaus sind auch Knochenlängen und Oberflächen-
punkte per Mausklick frei veränderbar und damit z.B. an ein Hintergrundbild, das
einen Probanden zeigt, anpassbar.
35
Abbildung 2.8: „Aufblasen“ des Hautmodells. Links ist der Anfangszustand ge-
zeigt. Rechts der Endzustand, nachdem ein Operateur mit Hilfe von PCMAN ma-
nuell Hautpunkte in der Sagittal- und Frontalebene mit der Körperkontur zur De-
ckung brachte.
Abbildung 2.9: Zwei Messhaltungen mit jeweils zwei Bildpaaren die mit PCMAN
bearbeitet werden.
36
Abbildung 2.10: In die Bildpaare überlagertes Modell, dass sich aber noch nicht
mit dem Probanden deckt.
Abbildung 2.11: Das Modell wurde mit dem Probanden zur Deckung gebracht.
Das Modell repräsentiert nun die Anthropometrie der Versuchsperson – ein virtu-
eller Zwilling ist entstanden.
2.3.4 Haltungsanpassung
Das individuelle Modell, das bei der Anthropometrieanpassung entstand, kann in beliebige
Bilder, welche die Versuchsperson zeigt, projiziert werden. Durch Veränderung der Gelenk-
winkel nimmt das Modell die gleiche Haltung ein, wie die Versuchsperson und deckt sich
optimal mit dieser. Dadurch wird die Haltung der Versuchsperson dreidimensional erfasst.
37
Die Haltungsdaten liegen konform zum verwendeten Modell vor. In Abbildung 2.12 ist das
Prinzip der Haltungsmessung durch Überlagerung dargestellt.
Die Veränderung der Gelenkwinkel erfolgt, wie bei der Anthropometrieanpassung, manuell
nach einem definierten Schema. So wird zunächst das Becken positioniert. Ausgehend von
einer korrekten Beckenposition werden die Gelenkwinkel der Beine, des Torsos, des Kopfs
und der Arme justiert. Diese Prozedur ist relativ einfach und schnell mit Hilfe einer ergonomi-
schen Bedienung möglich, bei der der Benutzer mit der Maus Körperelemente anwählt und
diese dann mit Hilfe der Maus verschieben kann, bis sich das entsprechende Körperelement
mit der Fotografie deckt.
Abbildung 2.12: Prinzip der Haltungsmessung. Das individuelle Modell des Pro-
banden repräsentiert dessen Anthropometrie und wurde zuvor erzeugt. Durch
Überlagerung und entsprechende Veränderung der Gelenkwinkel wird es mit be-
liebigen Haltungen der Versuchsperson zur Deckung gebracht.
38
2.4 PCMAN als Basis für die Bewegungsmessung
Im letzten Kapitel wurde die Methodik vorgestellt, wie mit Hilfe eines exakten Menschmo-
dells, die Haltung eines Probanden ermittelt wird. Das Verfahren lief manuell ab und ist für
eine einzelne Haltung nicht sehr zeitintensiv. Für die Anpassung einer ganzen Serie von Bil-
dern, wie sie durch einen Bewegungsfilm anfallen, ist jedoch die manuelle Anpassung nicht
mehr vertretbar. Kann die Haltungsanpassung also automatisiert werden?
In Kapitel 1.2.4.3 wurde gezeigt, dass mit Hilfe von Markern automatisch die Haltung und
durch zeitlich aufeinander folgende Haltungen auch die Bewegung eines Probanden gemes-
sen und auf ein Modell übertragen werden kann. Bei den Überlegungen zum „Idealen Bewe-
gungsmesssystem“ wurde festgestellt, dass Marker jedoch nicht optimal sind, da sie verrut-
schen und die Versuchsperson behindern können und ferner, der Aufwand des Anbringens
hoch ist. Daraus resultierte die Überlegung auf Marker zu verzichten. Doch blieb die Frage
offen, wie sonst eine Korrespondenz zwischen Modell und Versuchsperson hergestellt wer-
den kann.
Das Messsystem PCMAN liefert mit Hilfe des Überlagerungsprinzips einen Lösungsansatz
hierfür. Denn das überlagerte Menschmodell, definiert sehr genau jene Bildbereiche, die
quasi unter dem Modell liegen und deshalb der Versuchsperson zuzuordnen sind und jene
Bildbereiche die zum irrelevanten Hintergrund gehören. Die Überlagerung ermöglicht also,
Bildbereichen Wissen zuzuordnen, wie dies in Abbildung 2.13 schematisch gezeigt ist. Ein
Bild, das zuvor nur aus aneinadergereihten mehr oder weniger farbigen Bildpunkten bestand,
wird dadurch bedeutungsvoll. Bildbereiche und deren strukturellen Merkmale können anato-
misch interpretiert werden. Der Bildbereich „Hand“ kann vom Bereich „Kopf“ unterschieden
werden, die Arme von den Beinen usw., da die Bildmuster und die Größe der Bereiche un-
terschiedlich sind. Die weiß umrandeten Bereiche in Abbildung 2.13 sollen dies verdeutli-
chen. Die Übertragung des Modellwissens auf Bildbereiche bedeutet auch, dass Bereiche in
Folgebildern wieder gefunden werden und die Verschiebung gegenüber einem Bild vorher
bestimmt werden könnte, sofern sich die strukturellen Merkmale der Bildbereiche nicht sehr
verändert haben
Der Mensch hat keine Probleme oben geschilderte Aufgabe des Wiederfindens von Bildbe-
reichen zu erfüllen. So erkennt ein Betrachter einer Bildsequenz sehr schnell, welche Objek-
te sich wohin bewegt haben. Auch die Interpretation der Objekte fällt leicht. So erkennt man
in der Regel ohne weiteres wohin sich z.B. der Kopf, die Arme oder Beine eines Probanden
bewegt haben. Für diese Bildinterpretation benötigt der Mensch keinerlei Marker an der Ver-
39
suchsperson. Die Natur hat uns mit einem visuelles System ausgestattet, mit dessen Hilfe
wir derartige und viele andere Bewegungen ad hoc „messen“ können.
Die Natur nutzt im Wesentlichen zwei Informationsquellen zur Bewegungsdetektion: Bildkor-
relation und Modellwissen. Bei der Korrelation werden Bildbereiche miteinander verglichen
und Verschiebungen bestimmt. Die Verknüpfung mit Modellwissen stützt die Korrelation und
ermöglicht Falschinformation zu unterdrücken. Im folgenden Kapitel werden diese Mecha-
nismen, die letztlich bei der Realisierung des hier vorzustellenden Bewegungsmesssys tems
relevant sind, näher beschrieben, sowie, im übernächsten Kapitel, die technische Umsetzung
mit Bildverarbeitungsalgorithmen vorgestellt.
40
Abbildung 2.13: Durch die Überlagerung des Menschmodells in die Ansichten ei-
nes Experiments kann das Modellwissen in die Bildinformation übertragen wer-
den. Klar umrissene Bildbereiche können Körperteilen, wie Kopf, Arme, Beine,
usw. zugeordnet werden.
41
Abbildung 2.14: Bei der Bewegungsmessung stellt sich das Problem, dass zum
einen Bildbereiche detektiert werden (oben) und diese dann korrespondierenden
Körperelementen und Haltungswinkeln zugeordnet werden müssen.
42
3 Methodik
3.1 Psychologisch-physiologische Mechanismen der Bewegungs-
erkennung
Der Mensch ist mit einem ausgezeichneten visuellen System ausgestattet, das ihm erlaubt,
Objekte und deren Bewegung im Raum schnell und sicher zu erkennen. Dabei kann ein Ob-
jekt Änderungen in Ort und Zeit unterliegen. Dies bedeutet, dass der Beobachter ein Objekt
aus unterschiedlichen Perspektiven während einer Bewegung sieht oder das Objekt auf-
grund der Bewegung kleiner oder größer wird oder Farbänderungen unterliegt. Trotz solcher
Veränderungen der Erscheinungsform interpretiert das menschliche visuelle System dies als
Bewegung ein und desselben Objekts.
Die Mechanismen, welche die Natur hierzu entwickelt hat, werden im Folgenden vorgestellt
und beschrieben. Nachdem zunächst allgemein die Bildinterpretation, bezogen auf statische
Bilder, diskutiert wird, erfolgt darauf aufbauend der Übergang zur Erkennung von bewegten
Objekten.
3.1.1 Neuronale Bildinterpretation
Durch die Umsetzung von Umweltreizen ist es dem Menschen möglich äußere Reize zu er-
kennen, zu verarbeiten und darauf zu reagieren. Dabei werden physikalische Umweltreize in
physiologische umgesetzt. Für diese Reizumsetzung stehen Rezeptoren zur Verfügung in
denen elektrische Potenziale durch Änderung der Konzentration von Kationen (Kalium- und
Natriumionen) und Anionen (z.B. Chlorionen) zur Reizweiterleitung entlang von sog. Axonen
über Synapsen an Neuronenzellen führen. Wobei hierfür an der Membran der Rezeptorzelle
durch Depolarisation eine bestimmte Schwelle überschritten werden muss. Erst dann liegt
das sog. Aktionspotenzial an und die Zelle „feuert“. Innerhalb des Nervensystems können die
Signale über weitere Neuronen weitergeleitet und verarbeitet werden.
Für die Detektion visueller Reize stehen im Auge Fotorezeptoren zur Verfügung. Es umfasst
ca. 125 Millionen Fotorezeptoren an der Rückseite der Retina. Das Grundprinzip des retina-
len Informationsflusses ist in Abbildung 3.1 gezeigt. Der direkteste Weg der visuellen Infor-
mation ist von Fotorezeptoren durch Bipolarzellen zu den Ganglionzellen. Die Bipolarzellen
werden in zwei Kategorien unterteilt, dies sind die ON und die OFF Bipolarzellen. ON bedeu-
tet, dass die Zelle ein Signal gibt, wenn Licht auf den Rezeptor fällt; OFF bedeutet entspre-
chend, dass die Zelle ein Signal liefert, wenn kein Licht auf den Rezeptor fällt.
43
Die Ganglionzellen feuern entsprechend des empfundenen Lichts. Diese Impulse werden
über den Sehnerv zum Gehirn geleitet. Neben diesem direkten Weg zum Gehirn, kann die
retinale Informationsverarbeitung durch zwei weitere Zelltypen beeinflusst werden. Horizontal
angeordnete Zellen empfangen Signale von den Rezeptoren und feuern an die Bipolarzellen
bzw. an die Ganglionzellen. Durch diese Verschaltung ist es möglich, Signale umliegender
Rezeptoren zu berücksichtigen.
Abbildung 3.1: Grundsystem des Informationsflusses in der Retina (aus Bear,
Connors und Paradiso [7]).
Die meisten Rezeptoren sind durch horizontale und bipolare Zellen verschaltet, so dass sich
ein Zentrum aus einigen Rezeptoren ergibt, das konzentrisch durch weitere Rezeptoren um-
geben ist. Diese Bereiche werden rezeptive Felder genannt. Am Ende jedes rezeptiven Fel-
des ist eine Ganglionzelle, welche die verschalteten Signale zum Gehirn weiterleitet. Bewegt
sich z.B. eine hell-dunkel Kante über diesen Bereich, so liefert eine OFF-Ganglionzelle kein
Signal, wenn der dunkle Bereich nur die Umgebung abschattet, nicht jedoch das Zentrum
des rezeptiven Feldes. Wandert der hell-dunkel Bereich weiter und bedeckt das Zentrum, so
liefert die Ganglionzelle ein starkes Signal, d.h. ein Signal mit höchster Frequenz, wie
Abbildung 3.2 c) zeigt. Bedeckt der dunkle Bereich die gesamte Fläche, so liefert die Gangli-
onzelle ein mäßiges Signal. Entscheidend bei dieser Verschaltung ist, dass hiermit bereits in
der Retina hell-dunkel-Unterschiede, gegenüber absoluten Farb- oder Grauwerten neuronal
44
verstärkt werden (Abbildung 3.2), wenn das Zentrum des rezeptiven Feldes komplett und die
Umgebung nur zum Teil bedeckt ist. Unser visuelles System ist also darauf spezialisiert loka-
le Helligkeitsunterschiede zu detektieren.
Die eben gezeigte einfache Kantendetektion durch rezeptive Felder wird durch weitere Ver-
schaltungen im visuellen Kortex, also jenem Bereich des Gehirns, an den der Reiz vom Auge
weitergeleitet wird. Auf mehreren Ebenen werden dort optische Signale benachbarter rezep-
tiver Felder durch spezialisierte Zellen weiterverarbeitet. Mit Hilfe dieser komplexen und hy-
perkomplexen Zellen realisiert die Natur neuronale Kantendetektoren, Detektoren für die
Länge einer Kante, Detektoren für die Orientierung von Kanten (Abbildung 3.3) und Bewe-
gungsdetektoren [9].
Abbildung 3.2: Ganglionsignal in Abhängigkeit der Lage eines hell-dunkel-
Unterschieds. Bei der Lage, wie in c) gezeigt, liefert die Zelle das stärkste Signal,
d.h. das Ganglion feuert mit höchster Frequenz. Das jeweils resultierende Akti-
onspotenzial ist unterhalb der Bilder dargestellt (aus [7]).
Abbildung 3.3: Mehrere rezeptive Bereiche, die zusammengeschaltet sind, kön-
nen die Orientierung einer Kante messen, wie dies durch den Pfeil rechts symbo-
lisiert ist. Dabei liefert eine entsprechend spezialisierte Zelle, ein Signal, das pro-
portional zum Winkel der Kante ist.
45
3.1.2 Interpretation von Bewegung
Die Empfindung von Bewegung wird in einem eigenen neuronalen Bereich des visuellen
Systems bearbeitet. Form, Farbe und Bewegung werden in räumlich separierten Arealen des
visuellen Kortex bearbeitet. Die Verarbeitung visueller Information erfolgt in drei Ebenen. Die
erste Ebene der Verarbeitung erfolgt auf der Retina, die zweite (einfache Zellen) und dritte
(komplexe Zellen) im Kortex. Daneben fließen in höheren Ebenen der Verarbeitung Kontext-
informationen hinzu.
Bewegung wird von der Retina als zeitlicher Unterschied zwischen dem Signalmuster einzel-
ner rezeptiver Felder an den Kortex codiert. Im visuellen Kortex existieren hierauf speziali-
sierte Neuronen, die auf bestimmte Eigenschaften der Bewegung, wie Geschwindigkeit, Ori-
entierung oder Richtung der Bewegung ansprechen. Ein Teil der Neuronen sind nur sensitiv
auf Stimulierung verschiedener rezeptiver Felder zur selben Zeit, so dass hiermit die Bewe-
gung eines (zusammenhängenden) Objekts als solches erkannt werden kann.
Im Folgenden wird das Problem behandelt, wie das visuelle System ein Objekt identifiziert
und entscheidet, ob das Objekt sich aufgrund von Bewegung oder durch andere Umstände,
z.B. Änderung der Beleuchtung, verändert. Dieses Problem wird im Allgemeinen als Korres-
pondenzproblem bezeichnet, wobei gezeigt wird, dass einfache Bewegungserkennung ein
autonomer Prozess ist, der auf einer sehr niedrigen Verarbeitungsebene stattfindet. Mit Hilfe
des Korrespondenzprozesses, kann das visuelle System die Verbindung zwischen der zeitli-
chen Entwicklung von Objekten herstellen, wie Ullmann [69] zeigte.
Das Hauptproblem, welches das visuelle System lösen muss, ist die Identifikation bestimm-
ter Elemente, die in der zeitlichen Folge der eintreffenden Bilder, ein und das selbe physika-
lische Objekt repräsentieren; d.h. für ein gegebenes Element X in einem visuellen Feld A(t)
zur Zeit t muss das entsprechende Gegenstück X´ im visuellen Feld A(t´) zum späteren Zeit-
punkt t´ gefunden werden. Die Art dieser Elemente, anhand derer ein zeitlicher Zusammen-
hang zwischen Objekten hergestellt wird, wird als Korrespondenzmerkmal bezeichnet. Es
wird angenommen, dass das Bild in kleine Bereiche zerlegt wird, die in kleinen Gruppen or-
ganisiert sind. Auf dieser Ebene erfolgt die Herstellung von Korrespondenz. Die angespro-
chenen Gruppen oder Einheiten sind vermutlich hierarchisch organisiert, in der Form, dass
Einheiten wie Kanten, Fragmente, Linien oder andere kleine Bildbereiche zuerst erkannt
werden und nachher in größere Einheiten und schließlich zu Objekten gruppiert werden. Die
Einheiten, welche die Korrespondenzmerkmale beinhalten, befinden sich hierarchisch auf
einer sehr niedrigen Ebene, sie werden deshalb als „low-level units“ bezeichnet. Das visuelle
System findet auf Wahrscheinlichkeitsbasis heraus, ob ein Element X identisch ist mit einem
46
Element X´ zu einem späteren Zeitpunkt, wobei zunächst die Korrespondenz auf Basis
kleinster Korrespondenzmerkmale gesucht wird. Später werden aus diesen kleinen Grund-
einheiten größere Objekte zusammengesetzt. Die optischen Grundbausteine, wie sie auch
schon im vorherigen Abschnitt beschrieben wurden, sind die Bausteine aller größeren Objek-
te und Figuren.
Anhand einfacher Beispiele zeigt Ullmann, dass das visuelle System durch Korrelation die
Korrespondenz zwischen Grundeinheiten herstellt und Bewegung detektiert bzw. interpre-
tiert, wobei es sich bei der Interpretation streng an die naheliegendste Bildinterpretationen
hält, unabhängig davon, ob diese Interpretation im Widerspruch zu höher geordnetem Mo-
dellwissen steht.
In Abbildung 3.4 sind die Speichen eines Wagenrades in Form einer schwarzweißen Linien-
zeichnung dargestellt, wobei jene Speichen, die diagonal liegen, unterbrochen sind. Wird die
Zeichnung um den Winkel β im Gegenuhrzeigersinn gedreht, resultiert die Stellung, die in
Abbildung 3.4 b) gestrichelt dargestellt ist. Wird das Rad weiter um β gedreht und einem
Probanden die Bilder so schnell präsentiert, dass dieser den Eindruck einer kontinuierlichen
Bewegung hat, so nimmt der Proband nicht die Drehung eines einzelnen Objektes „Wagen-
rad“ wahr, sondern drei verschiedene Rotationen. Das Wagenrad erscheint in drei Ringe
zerteilt, wobei sich der innerste und äußerste langsam im Uhrzeigersinn dreht, während der
mittlere Ring sich schnell gegen den Uhrzeigersinn dreht. Dieser Eindruck, der dem tatsäch-
lichen physikalischen Verhalten widerspricht, denn definitiv wurde das gesamte Objekt ge-
dreht, ist mit Hilfe der angesprochenen Grundelemente, die das visuelle System zur Korres-
pondenzbildung nimmt, zu erklären. Ein solches Grundelement sei durch ein Liniensegment
der Länge x gegeben, wie in Abbildung 3.4 b) eingezeichnet. Die neuronale Bildverarbeitung
sucht dann das Liniensegment, das am besten zu dem davor gesehenen passt. Dabei wer-
den Wahrscheinlichkeiten gebildet, wobei dasjenige Element, das am nächsten an der vor-
herigen Position liegt, die ähnlichste Orientierung und die ähnlichste Länge aufweist, als das
wahrscheinlichste interpretiert wird. So kommt es, dass beim inneren und äußeren Ring jene
Liniensegmente, in Korrespondenz gesetzt werden, die einer Drehung im Uhrzeigersinn ent-
sprechen, während die Korrespondenz im mittleren Ring bei einer Drehung gegen den Uhr-
zeigersinn dem visuellen System am wahrscheinlichsten erscheint. Diese Bildinterpretation
findet auf einer sehr niedrigen Ebene im Kortex statt und lässt sich durch Modellwissen, das
der Proband hat (er weiß, dass das gesamte Bild gedreht wird und es ein zusammenhän-
gendes Objekt ist) nicht beeinflussen.
47
Abbildung 3.4: „Brocken Wheel“. Diese Abbildung erinnert an die Speichen eines
Rads. Die Speichen werden [wie in b) angedeutet] jeweils um den Winkel β in
Filmgeschwindigkeit im Uhrzeigersinn gedreht und einem Probanden präsentiert.
Dadurch entsteht der Eindruck, als ob sich der äußere und innere Ring im Uhr-
zeigersinn drehen, während sich der mittlere Ring gegen den Uhrzeiger dreht.
Das folgende Beispiel lässt sich ebenfalls nur erklären durch die Annahme, dass die Korres-
pondenzbildung mit Hilfe einfachster geometrischer Grundelemente erfolgt. Abbildung 3.5
zeigt einen abstrahierten Zug mit Fenstern, den sog. „Block Train“. Der horizontale Abstand
aller vertikalen Linien ist immer x. Wird der Zug kontinuierlich um die Strecke y nach rechts
verschoben, entsteht der Eindruck, dass die Wagen des Zuges nach rechts laufen, die Fens-
ter hingegen nach links. Dies ist wiederum dadurch zu erklären, dass durch die bewusst ge-
wählte Verschiebung um y, jede vertikale Linie näher an einer Linie rechts von ihr, als links
von ihr ist. So erscheint es dem visuellen System wahrscheinlicher, dass die kurzen vertika-
len Linien sich nach links bewegen, während alle Stoß- und Kreuzungspunkte von Linien
dichter an einem links liegenden Partner liegen, so dass diese nach rechts wandern.
Abbildung 3.5: „Block Train“. Diese einfache geometrische Figur wird einem Pro-
banden ebenfalls als animiertes Objekt präsentiert und dabei bei jedem Bild der
Animation um die Strecke y nach rechts verschoben. Es entsteht der Eindruck,
als ob sich der „Zug“ nach rechts bewegt, die „Fenster“ aber nach links.
48
Durch relativ einfache Versuche fand Ullmann heraus, inwieweit die Korrespondenzherstel-
lung bei simplen Linien von Abstand, Länge oder Orientierung zueinander abhängt. So stellt
sich z.B. auch die Frage, was geschieht, wenn dem visuellen System gleichwertige Lösun-
gen präsentiert werden. Ein Beispiel hierzu zeigt Abbildung 3.6. Zunächst ist eine Linie zu-
sehen. Im Folgebild wird die Linie ersetzt und rechts und links der alten Position jeweils eine
neue Linie gezeigt, die identisch zu der alten in Länge und Strichstärke ist. Der Abstand der
rechten und linken Linie zur alten Linie ist gleich. Somit ist die linke Linie gleichberechtigt zur
rechten und genau so wird es vom visuellen System interpretiert. Der Betrachter gewinnt den
Eindruck, als ob sich die ursprüngliche Linie in eine Linie rechts und links teilt, die dann weg
wandern. Wird jedoch sukzessive der Abstand, z.B. der rechten Linie zur Mittellinie erhöht,
bricht dieser Eindruck irgendwann ab. Es entsteht der Eindruck, als ob nur noch eine Linie
wandert, nämlich die rechte. Das bedeutet, dass das visuelle System nur zu solchen Merk-
malen eine Korrespondenz herstellt, für die das mit einer gewissen Wahrscheinlichkeit ge-
rechtfertigt ist. Scheinbar sinnlose Lösungen werden vom visuellen System unterdrückt.
Abbildung 3.6: Korrespondenz zwischen zwei Merkmalen.
Die Korrespondenzerzeugung bei den gezeigten Liniensegmenten wird mit zunehmendem
Orientierungsunterschied kleiner. In Abbildung 3.7 ist die Linie c gezeigt, die sich in zwei Li-
nien zerteilt. Das Liniensegment l hat dabei dieselbe Orientierung, wie Linie c. Linie r hinge-
gen weist eine andere Orientierung als die Ursprungslinie c auf. Helligkeit und Linienstärke
sind wieder vergleichbar. Unter den gezeigten Bedingungen bevorzugt das visuelle System
die Bewegung zum linken Linienelement l, wohingegen der Bewegungseindruck zum rechten
unterdrückt wird. Dieser Effekt hängt vom Unterschied der Orientierung ab.
Bei Längenänderung der Liniensegmente und Beibehaltung der Orientierung wird ebenfalls
eine Korrespondenz hergestellt, so das ein Liniensegment in Bewegung gesehen wird und
gleichzeitig zu schrumpfen/wachsen scheint. Wie oben, hängt auch hier die Leistung des
visuellen Systems Korrespondenz herzustellen stark von den Bewegungs- und Längenunter-
49
schieden ab. Der Eindruck des Wachsens oder Schrumpfens bricht zusammen, wenn das
Linienelement, das sich in der Länge ändert zu dicht am Ursprungselement ist. Es entsteht
hierbei der Eindruck, als ob nur ein kleiner Teil des Ursprungselements aus diesem „ausbre-
chen“ würde.
Abbildung 3.7: Korrespondenz zwischen Linien unterschiedlicher Orientierung.
Die gezeigten Beispiele zeigen, dass das visuelle System zum einen nur kleine Bildbereiche
interpretiert und zum anderen vergleicht, wie ähnlich ein Objekt zum momentanen Zeitpunkt
einem Objekt zum Zeitpunkt davor war. Wenn das Ähnlichkeitsmaß hoch ist, wird das Objekt
als ein und dasselbe identifiziert. Bei konkurrierenden Interpretationsmöglichkeiten gewinnt
das, mit dem größten Ähnlichkeitsmaß.
3.1.3 Kognitive Verarbeitung
Bisher wurde die reine sensorische Verarbeitung visueller Information betrachtet. Was ge-
schieht jedoch zusätzlich aus psychologischer Sicht? Eingehende sensorische Informatio-
nen, wie oben beschrieben, werden in geeigneter Weise vom Gehirn kategorisiert und mit
Informationen im Langzeitgedächtnis in Übereinstimmung gebracht. Im Wesentlichen ist dies
ein Vorgang von Interpretationen und Zuordnungen von Wissensbeständen unserer Umwelt.
Dieser Vorgang wird in der kognitiven Psychologie als Mustererkennung bezeichnet. Die
Mustererkennung ist eine kognitive Leistung eines biologischen Systems, die sich an eine
Stimulation anschließt. Die zugehörigen Mechanismen werden im Folgenden erläutert [74].
3.1.3.1 Ikonisches Gedächtnis
Viele Umweltreize sind zeitlich überdauernd, was die Wahrnehmung stützt, denn diese
braucht Zeit. Andere Stimuli sind sehr kurzlebig, sind aber nichtsdestotrotz ebenso von Be-
50
deutung für weitere Überlegungen oder weiteres Handeln. Beispielsweise verhilft ein kurzer
Lichtblitz in der Dunkelheit dazu, sich in der Umwelt zu orientieren, obwohl der Reiz sehr
kurz ist, kann der resultierende Eindruck praktisch unbegrenzt im Gedächtnis bleiben. Dieses
und andere Beispiele zeigen, dass höhere Organismen, hier insbesondere der Mensch, in
der Lage sind, auf kurzfristige Stimuli zu reagieren, deren Wahrnehmung nicht zeitgleich mit
dem Reiz erfolgt. D.h. der Reiz wird so lange im Gedächtnis gehalten, bis eine Verarbeitung
erfolgen kann. Im Allgemeinen spricht man bei dieser Art Gedächtnis vom „sensorischen
Gedächtnis“; im speziellen Fall der visuellen Wahrnehmung vom „ikonischen Gedächtnis“.
Das ikonische Gedächtnis kann neben physikalischen Informationen über Größe, Umfang,
Farbe, Helligkeit und Bewegung auch kategoriale Informationen, z.B. handelt es sich beim
Reiz um Buchstaben oder Zahlen, zum Stimulus einbeziehen. Bereits die Stäbchen und
Zäpfchen leisten einen Beitrag zum sensorischen Gedächtnis (Sperling [66]).
Das Erkennen von Mustern involviert zahlreiche Prozesse. Es gibt psychologische und phy-
siologische Untersuchungen, die nahe legen, dass Muster (z.B. Buchstaben) dadurch er-
kannt werden, dass elementare Merkmale, wie horizontale, vertikale und gebogene Linien
detektiert werden. Allerdings deckt das Erkennen solcher Merkmale nicht den gesamten Be-
reich der Mustererkennung ab, deshalb können Reize auch ganzheitlich wahrgenommen
werden. Hierbei wird der Stimulus mit bereits im Gedächtnis abgespeicherten typischen Rep-
räsentanten des Reizes verglichen. Diese Repräsentanten werden als Prototypen bezeich-
net. Der zentrale Prototyp beschreibt dabei den typischsten Vertreter einer Kategorie (z.B.
Prototyp „Mensch“, Merkmale: hat Kopf, Arme, Beine, Torso, usw.). Atypische Vertreter wei-
chen immer mehr vom typischen Vertreter ab, werden aber noch zur betreffenden Kategorie
hinzugezählt. Diese Art Datenbank wird durch Alltagserfahrung stetig erweitert und ggf. neu
spezifiziert. Ob bei der Mustererkennung der holistische Ansatz oder die Suche nach defi-
nierten Merkmalen dominiert hängt von Faktoren wie der Art der vorgegebenen Stimuli und
der Trainiertheit ab.
3.1.3.2 Kontextinformation
Die Verarbeitung von Information basiert nicht allein auf der Analyse von Merkmalen oder
Kategorisierung. In bestimmten Kontexten treten bestimmte Muster eher auf als andere. Mit
welcher Wahrscheinlichkeit in bestimmten Zusammenhängen welche Muster auftreten wird
durch Erfahrungen bestimmt. So erwartet man beim Lesen eines Satzes aufgrund des Zu-
sammenhangs u.U. an einer bestimmten Stelle schon ein bestimmtes Wort, bevor man es
tatsächlich anhand visueller Merkmale detektiert hat. Auch die Art und Weise, wie die Analy-
51
se eines Musters erfolgt, wird durch den Kontext bestimmt. So reicht es, beispielsweise ein
Wort, das man beim Lesen erwartet, anhand globaler Merkmale, die schnell erfassbar sind,
zu detektieren. Es kann auch der Fall eintreten, dass der Kontext dazu führt, dass nur be-
stimmte Merkmale erkannt werden müssen, andere hingegen vernachlässigbar sind. Der
Kontext beeinflusst die Aspekte der sensorischen Daten, die wir verarbeiten, kann aber auch
die Perzeption dieser Daten selbst determinieren.
3.1.4 Zusammenfassung
Die psychologisch-physiologischen Mechanismen der Bewegungserkennung basieren zum
einen auf klar determinierten neuronalen Verschaltungen, die z.T. bereits auf der Netzhaut
des Auges ablaufen und nicht beeinflussbar sind. Zum anderen finden sich komplexere Ver-
fahren, bei denen Gedächtnisinhalte, sog. Kontextinformationen, abgerufen werden und mit
Reizen verglichen und kategorisiert werden. Technisch ausgedrückt, heißt das, dass Bewe-
gung in einer unteren Verarbeitungsebene mit einfachen Bildverarbeitungsoperatoren detek-
tiert und quantifiziert wird. In einer höheren Ebene, wird jedoch Modellwissen, also die Kon-
textinformation, einbezogen und die resultierenden Messwerte damit abgeglichen und im
Sinne des gewählten Modells interpretiert. Deshalb sehen wir bei menschlichen Bewegun-
gen nicht einfach unzusammenhängende Bewegungen, sondern sind in der Lage, die diver-
sen Bewegungen einzelner Körperelemente (in eventuell unterschiedliche Richtungen) als
die Bewegung eines Objektes mit mehreren Gliedern, die aber gekoppelt sind, zu interpretie-
ren. Unser Modellwissen über den Menschen und dessen Bewegungsmuster, erlaubt solche
Interpretationen. Fazit ist also, dass die Natur beim Bewegungssehen einfache Algorithmen
zur Mustererkennung, die der Korrespondenzherstellung zwischen ähnlichen Objekten dient,
mit grundsätzlichem, modellhaftem Wissen über Objekte kombiniert.
Dieses Analogon zum menschlichen visuellen System ist die Basis des realisierten Bewe-
gungsmesssystems, dass wie das menschliche visuelle System, ein Bild zunächst anhand
analytisch zugänglicher Merkmale interpretiert, die Merkmale dann jedoch im Sinne des Mo-
dellwissens mit Hilfe des Modells RAMSIS interpretiert.
3.2 Bildverarbeitung
Im Folgenden wird die Methodik zur bildverarbeitungsbasierten Objektverfolgung betrachtet.
Sie ist die Grundlage der technischen Umsetzung der natürlichen Prinzipien des Bewe-
gungssehens, wie es in Kapitel 3.1 erläutert wurde.
52
3.2.1 Bildvorverarbeitung
Als Aufnahmegerät für die Aufzeichnung von Bewegungsfilmen wurden Videokameras be-
nutzt. Die aufgezeichneten Filme wurden mit Hilfe einer Videokarte an einem Rechner digita-
lisiert und in synchrone Einzelbildpaare zerlegt. Da zum einen der Detektor, also die Kamera
bzw. deren CCD-Chip, als auch das digitalisieren zu Störungen auf den Bildern führt, müs-
sen die Daten, vor einer Weiterverarbeitung, aufbereitet werden. Dabei treten im Wesentli-
chen zwei Effekte auf, das Rauschen und der Interlace-Effekt.
3.2.1.1 Digitalisierung
Entsprechend der Videonorm (PAL in Europa) liefern Videokameras einen Bildstrom mit ei-
ner Wiederholrate von 25 Halbbildern pro Sekunde. Mit Hilfe einer Video- oder Framegrab-
berkarte werden diese analogen Signale digitalisiert. Da es nur mit extrem teuren Geräten
möglich ist, jedes digitalisierte Einzelbild in einem Rohdatenformat (wie BMP oder TIFF),
schnell genug auf ein Speichermedium zu schreiben, wurde hier der übliche Umweg über
das datenreduzierende AVI-Format gewählt. Somit werden zwar Bildverluste in Kauf ge-
nommen, dafür können aber auch längere Filme gehandhabt werden.
3.2.1.2 Glättung
Rauschen
Im Allgemeinen sind Rohbilddaten mit Rauschen behaftet. Selbst modernste, gekühlte CCD-
Kameras, wie sie in der Astronomie zum Einsatz kommen sind nicht frei von Rauschen. Übli-
cherweise besitzt ein CCD mehrere Rauschquellen in der Größenordnung von 0,01 – 0,001
Prozent seiner maximalen Grauwerte. Eine handelsübliche 8-Bit-Kamera mit 256 Graustufen
besitzt demnach bei absoluter Dunkelheit ein Rauschen in der Größenordnung von rund 2,5
bis 0,25 ADU2 [38]. Bei langen Belichtungszeiten wird vor allem durch thermische Anregung
im CCD Rauschen erzeugt, dass sich zu den Grauwerten, die durch den eigentlichen Licht-
einfall erzeugt werden, hinzuaddiert. Bei der weiteren Verarbeitung kommen zusätzliche
Rauschquellen hinzu, wie z.B. das Digitalisierrauschen beim Übertragen eines Bildes vom
Videoband in einen Rechner.
2 ADU ist die Abkürzung für Analog to Digital Unit und ist die Einheit des Grauwerts, der nach der Digi-
talisiertung jedem Pixel zugeordnet wird. Typischerweise liefern gängige A/D-Wandler 8-Bit-Werte.
53
Im Hinblick auf eine Untersuchung von feinen Bildmerkmalen und –strukturen erscheint eine
Bildglättung unerlässlich. Die Beseitigung hochfrequenten Rauschens entspricht im Wesent-
lichen einer Tiefpassfilterung. Allerdings hat die Glättung auch zur Folge, dass feine Struktu-
ren im Bild verwaschen werden und Kanten unscharf erscheinen. Ziel der Glättung muss es
daher sein, Störungen zu unterdrücken, Kanten- und Strukturinformationen jedoch möglichst
zu erhalten. Es existieren verschiedene Methoden zur Glättung von Bildern.
Die einfachste Methode zu Glätten besteht in der Mittelwertbildung. Ein Grauwert wird dabei
durch den Mittelwert aller Grauwerte einer NN × Nachbarschaft ersetzt. Mit solch einem
Mittelwertoperator kann Rauschen sehr gut unterdrückt werden (Abbildung 3.8). Allerdings
werden auch hohe Ortsfrequenzen abgeschwächt, was zu einem Verlust von Details und zu
unscharfen Kanten führt. Die Größe der NN × Nachbarschaft hat erheblichen Einfluss auf
das Ergebnis. Neben dem klassischen Mittelwertfilter gibt es noch Binomialfilter. Diese ent-
halten als Maskenelemente die Werte der diskreten Binomialverteilung. Binomialfilter sind
wesentlich bessere Glättungsfilter als Rechteckfilter, wie der Mittelwertfilter. Diese Filterart
wird als gewichtete Mittelung bezeichnet. Der Binomialfilter ist im Übrigen eine Näherung der
Gaußschen Filterung. Er besitzt fast dieselben Eigenschaften, ist aber leichter zu realisieren.
Leider verwischen alle linearen Filter klar getrennte Bildbereiche, was meistens nicht er-
wünscht ist. Die Mittelung wird ausgeführt, egal, ob die Grauwertunterschiede groß oder
klein sind. Gerade bei Kanten findet man jedoch große Grauwertunterschiede, die erhalten
bleiben sollen. Mit Hilfe adaptiver Filter, also Filter die ihre Glättung von lokalen Gradienten
abhängig machen, kann Rauschen unterdrückt und können Kanten erhalten bleiben. Leider
ist es äußerst schwierig Kriterien für die zu unterdrückenden und nicht zu unterdrückenden
Diskontinuitäten aufzustellen bzw. sind die Rechenzeiten erheblich, so dass diese Filter hier
keine Bedeutung haben.
Mit Mittelwert- und Binomialfilter lässt sich statistisches Rauschen gut unterdrücken. Um
Fehlstellen im Bild zu eliminieren sind diese Filter weniger geeignet. Hier bietet sich der Me-
dianfilter an, der einen Grauwert durch den Medianwert einer NN × Nachbarschaft ersetzt.
Allerdings ist diese Filterart aufgrund der nötigen Sortierung der Grauwerte, wesentlich re-
chenintensiver als lineare Filter.
54
Abbildung 3.8: Rohbild und geglättetes Bild. Bild a) zeigt das Rohbild, Bild b) das
durch Mittelwertfilter geglättete Bild. Bild c) die Grauwertverteilung entlang der
hellen Linie von Bild b), Bild d) zeigt die Grauwertverteilung von Bild a). Deutlich
ist die Unterdrückung des Rauschens in Diagramm c) zu sehen.
Interlace-Effekt
Die Videotechnik arbeitet mit Halbbildern, d.h. anstatt das gesamte Bild zu belichten, wird
dies nur für jede zweite Zeile des CCD-Chips getan, während die anderen Zeilen ausgelesen
werden. Mit diesem Trick behalf man sich bei der Etablierung von Fernseh- und Videonor-
men, da die damalige Technik nicht schnell genug war, um Vollbilder auszulesen. Da sich
die Videonorm nicht veränderte, ist diese Technik noch heute in allen Videokameras zu fin-
den. Die Probleme, die sich mit der Halbbildtechnik ergeben bleiben dem Betrachter im
Normalfall verborgen. Doch bei der Betrachtung eines Einzelbildes, auf dem eine schnelle
horizontale Bewegung zu sehen ist, tritt der Effekt klar hervor. Die Kanten des sich bewe-
genden Objekts sind in jeder zweiten Bildzeile horizontal versetzt. Die Kante wirkt unscharf
und verfranzt. Dieser Effekt wird als Interlace-Effekt bezeichnet. Zur Beseitigung kann man
das ganze Bild glätten, was allerdings zum Verlust feiner Strukturen führt oder man eliminiert
eins der Halbbilder und ersetzt die gelöschten Zeilen durch eine Kopie der darüber liegenden
Zeilen. Dadurch verringert sich allerdings die vertikale Auflösung des Bildes. Kanten treten
dadurch allerdings weiterhin scharf hervor.
55
Kanten bewegter Objekte werden nicht nur durch den Interlace-Effekt verschmiert, sondern
auch durch eine zu lange Shutterzeit. Deshalb muss für eine erfolgreiche Interlace-Effekt-
Beseitigung auch eine kurze Shutterzeit gewählt werden, so dass sich keine Bewegungsun-
schärfe ergibt.
Abbildung 3.9: Beseitigung des Interlace-Effekts. Das linke Bild zeigt die durch
das Interlacing verwaschene Kontur des bewegten Arms. Rechts wurde jede un-
gerade Bildzeile durch eine Kopie der darüber liegenden Zeile ersetzt. Dadurch
werden die Kanten schärfer. Die vertikale Bildauflösung reduziert sich allerdings
um Faktor zwei.
3.2.2 Bewegungsmessung
Bei der Bewegungsmessung muss ein definierter Bildbereich zuverlässig im Folgebild ge-
funden werden. Als Randbedingung gilt dabei, dass die Veränderung des Bildbereichs nicht
so groß sein darf, dass dieses Wiederfinden nicht ermöglicht wird, d.h. Bild-zu-Bild-
Unterschiede sollen klein sein.
Zum Wiederfinden von Bildmustern bieten sich zwei Methoden an. Das sind zum einen die
Differenzbildung, wobei die Differenz Null ist, wenn zwei Bildregionen gleich sind, und zum
anderen die Korrelationsmethode, die gegenüber der Differenzbildung etwas sensitiver ist.
Beide Verfahren wurden implementiert und zeigen befriedigende Ergebnisse.
56
3.2.2.1 Differenzbildung (Template-Matching)
Die Differenzbildung ist eine der einfachsten Methoden, um identische Bildmuster zu detek-
tieren. Dabei wird die Differenz zwischen Bildbereichen gebildet und bewertet. Wenn I1(i,j)
und I2(k,l) Grauwerte eine Bildes sind, wobei i, j, k und l den Bildpunkt in x- und y-Richtung
bezeichnen und )12()12( +×+ NM die Größe des Suchbereichs um I1(i,j) und I2(k,l) ist, wo-
bei M und N natürliche Zahlen sind, dann beschreibt
∑ ∑−= −=
++−++=M
Mu
N
Nv
vlukIvjuiIlkd |),(),(|),( 21 (3.1)
die Differenz d zwischen den Bildbereichen um I1 und I2 . Wird d(k,l) Null, so heben sich die
Grauwerte der Umgebung von I1 und I2 gerade auf, das heißt, der Bereich um I1 sieht genau-
so aus wie der um I2. In Bildfolgen, die frei von Bildstörungen, etwa durch Rauschen, oder
Formveränderungen sind, ist die Differenzmethode eine gute und schnelle Möglichkeit, iden-
tische Bildbereiche zu finden.
Nachteil der oben beschriebenen Differenzmethode ist allerdings, dass sie relativ unsensitiv
ist, wenn Bildmuster nicht identisch sind sondern sich nur ähneln. Das sich Bildmuster nur
ähneln ist jedoch aufgrund von Bildstörungen der häufigste Fall. Zur Steigerung der Sensitivi-
tät bietet sich die Korrelationsmethode an.
3.2.2.2 Bewegungsmessung durch Kreuz-Korrelation
Korrelationsverfahren sind gut geeignet, um Bildmerkmale wieder zu finden, insbesondere
wenn sich diese in Struktur und Farbe nicht verändern, sondern nur im Ort. Damit kann mit
Hilfe der Korrelation die Korrespondenz zwischen Bildmerkmalen in zeitlich aufeinander fol-
genden Bildern hergestellt werden.
Um in Bildfolgen herauszufinden welcher Bildpunkt (i,j) eines Bildes mit dem entsprechenden
Bildpunkt (k,l) des Folgebildes korrespondiert, wird jede mögliche Paarung mit einer Korrela-
tionsfunktion bewertet. Als Zuordnung wird jener Bildpunkt gewählt, der den optimalen Korre-
lationswert aufweist. Da einzelne Bildpunkte in der Regel zu wenig Informationen bieten, wird
die Nachbarschaft um einen Punkt miteinander verglichen. Bei rechteckigen Nachbarschaf-
ten der Größe )12()12( +×+ NM ist
57
∑ ∑−= −=
−++×−++=M
Mu
N
Nv
lkIvlukIjiIvjuiIK
lkc ))],(),(()),(),([(1
),( 2211 (3.2)
mit
21KKK = (3.3)
∑ ∑−= −=
−++=M
Mu
N
Nv
jiIvjuiIK 2111 )),(),(( (3.4)
∑ ∑−= −=
−++=M
Mu
N
Nv
lkIvlukIK 2222 )),(),(( (3.5)
wobei c(k, l) als Kreuz-Korrelationskoeffizient bezeichnet wird (Jiang und Bunke [31]). Der
Index 1 bezeichnet das aktuelle Bild und 2 das Folgebild. ),(1 jiI und ),(2 lkI beschreiben den
Durchschnittsgrauwert der Nachbarschaft um den Punkt (i,j). Durch den Normierungsfaktor K
liegen die Werte von C zwischen null und eins. Eins bedeutet optimale und null sehr schlech-
te Korrelation.
Wird mit dieser Methode die Bewegung eines Menschen verfolgt, so muss bedacht werden,
dass Änderungen von Bild zu Bild das oben genannte Kriterium, dass nämlich Struktur und
Farbe der Nachbarschaft erhalten bleibt, in der Regel nicht gilt. Da normalerweise die Auf-
nahme einer Bewegung mit Kameras erfolgt, die eine konstante Anzahl Bilder pro Sekunde
erzeugt, hängt die Möglichkeit Korrespondenzen zu Bildpunkten herzustellen stark von der
Geschwindigkeit der Bewegung im Verhältnis zu der Aufnahmegeschwindigkeit der Kamera
ab, da Struktur bzw. Farbänderungen um so wahrscheinlicher sind, um so größer der Bewe-
gungsunterschied zwischen zwei Bildern ist. Idealerweise sollte das Objekt, das wieder er-
kannt werden soll, nur minimalen Veränderungen von Bild zu Bild unterliegen, so dass die
wesentlichen Erkennungsmerkmale unangetastet bleiben.
Ein wesentliches Problem bei der Korrespondenzherstellung durch Korrelation ist die optima-
le Wahl der Größe der Nachbarschaft und die Bewertung, ob die Nachbarschaft ausreichen-
de Strukturmerkmale bietet, um identifiziert werden zu können. Wegen des letzten Punktes
werden bis heute in der Regel Marker am Probanden befestigt. Diese Marker haben ein defi-
niertes Erscheinungsbild, das sich mit der Zeit nicht ändert. Bei Verwendung körpereigener
Merkmale, wie das hier angestrebt ist, ist jedoch damit zu rechnen, dass ein gewähltes
Merkmal strukturellen Veränderungen unterliegt. Zur Bewertung einer Nachbarschaft kann
58
z.B. deren Grauwertvarianz benutzt werden. Für die Korrespondenzherstellung eignen sich
inhomogene Nachbarschaften, während homogene ungeeignet sind.
Eng mit diesem Problem ist die Wahl der richtigen Größe der Nachbarschaft verbunden. Ei-
ne kleine Nachbarschaft enthält oft zu wenig Strukturmerkmale erlaubt aber die Verfolgung
kleiner Details. Eine Große Nachbarschaft enthält genügend Strukturmerkmale, löst aber
Details nicht ausreichend auf. Bei der Verfolgung von Körperelementen ergibt sich die Größe
der Nachbarschaft jedoch automatisch durch die scheinbare Größe des zu beobachtenden
Körperelementes. Soll beispielsweise die Position einer Hand verfolgt werden, darf die Grö-
ße der Nachbarschaft den Bildbereich den die Hand abdeckt nicht wesentlich überschreiten.
Abbildung 3.10 zeigt einen Vergleich zwischen der Analyse einer Handbewegung mit zu
großer Nachbarschaft und optimaler Nachbarschaft. Die linke Bildspalte zeigt von oben nach
unten die Bewegung, wobei das betrachtete Pixel mit einem Kreuz markiert ist. Um dieses
zentrale Merkmal liegt die Nachbarschaft, die im linken Beispiel 71 × 71 Pixel groß ist, im
rechten 31 × 31 Pixel. Da die Nachbarschaftsgröße links Strukturmerkmale der Hand und
des Hintergrunds enthält, ist die Bewegungsanalyse sehr instabil Die Strukturmerkmale des
Hintergrunds haben ein entsprechend hohes Gewicht, so dass von Bild zu Bild die detektier-
te Pixelposition weiter in den Hintergrund wandert. Nach wenigen Bildern wird die Position
der Hand nicht mehr korrekt detektiert. Je nachdem, wie der Hintergrund beschaffen ist, wirkt
sich sein Einfluss unterschiedlich aus. Da im gezeigten Beispiel der Hintergrund relativ ho-
mogen ist, verliert der Algorithmus die Hand nicht komplett, jedoch, wie im dritten Bild von
oben zu sehen, resultiert ein großer Offset zur wahren Position. Um den Einfluss des Hinter-
grunds bzw. von Nicht-Objekt-Merkmalen zu eliminieren, muss die Nachbarschaft ans Objekt
adaptiert werden. Die rechte Bildspalte zeigt die ideale Bewegungsverfolgung. Die Nachbar-
schaft ist gerade so groß gewählt, dass möglichst viele Strukturmerkmale der Hand in ihr
liegen. Die Bildreihe zeigt, mit welcher Stabilität hier eine Bewegungsverfolgung realisiert
wird. Die dargestellte Bildfolge umfasst ca. 50 Bilder, dies entspricht 2 Sekunden Film.
59
schlechter AOI guter AOI
Abbildung 3.10: Einfluss der Größe der Nachbarschaft (Quadrat) auf die Korrela-
tionsmethode. Die linke Bildspalte zeigt die detektierte Position der Hand bei Be-
nutzung einer Nachbarschaft, die zu groß gewählt ist. Die rechte Bildspalte zeigt
die gleiche Analyse, bei angepasster Größe der Nachbarschaft. Die zwei mittle-
ren Reihen sind jeweils zeitliche Schnappschüsse aus der gesamten Sequenz
und zeigen die dort detektierte Position der Hand. In der linken Spalte stimmt die
detektierte Position mit der wahren nicht überein. Die untersten Bilder zeigen je-
weils die resultierenden Bewegungsbahnen mit Start und Endpunkt. Die Startpo-
sition war jeweils identisch.
60
3.2.3 Kantenbilder
Zur Analyse von Bewegungen bieten sich auch Kantenbilder an. Die Konturen einer Ver-
suchsperson können mit einem Modell verglichen werden, so dass die Haltung bestimmt
werden kann. Kantenbilder sind die binäre Darstellung von segmentierten Gradientenbildern.
Wird ein Gradienten- bzw. Ableitungsfilter
yx ∂∂
+∂∂
=∇ (3.6)
auf ein Grauwertbild angewendet, treten alle Regionen, in denen hohe Grauwertunterschiede
auftreten, hervor. Da meistens Grauwertunterschiede daher rühren, dass Übergänge zwi-
schen Objekten stattfinden, dient die Gradientenfilterung zur Hervorhebung von Objektgren-
zen, in diesem Fall also der Abgrenzung zwischen Proband und Hintergrund (Jähne [32]).
Die einfachste diskrete Realisierung eines Ableitungsoperators ist der Differenzoperator
[ ]10121
−=xD und
−=
101
21
yD , (3.7)
der hauptsächlich Kanten, die senkrecht zur Operatorrichtung stehen, detektiert. Unabhängi-
ger von der Orientierung einer Kante arbeitet (der hier verwendete) optimierte Sobeloperator,
−−−
=303
10010303
xS und
−−−=
31030003103
yS , (3.8)
der zusätzlich senkrecht zur Ableitungsrichtung eine Bildmittelung durchführt (Scharr [56]).
Durch eine Kantendarstellung werden die Konturen der Versuchsperson sichtbar gemacht.
Allerdings zeichnen sich auch viele andere Konturen des Hintergrunds im Kantenbild ab (vgl.
Abbildung 3.11).
61
Abbildung 3.11: Links: Rohbild. Rechts: Kantenbild.
3.2.4 Zusammenfassung
Zur technischen Nachahmung der Korrespondenzherstellung zwischen Bildmerkmalen be-
wegter Objekte, wie es durch das visuelle Systems des Menschen, geleistet wird, kommen
von algorithmischer Seite im Wesentlichen zwei Methoden in Frage. Es sind dies die gezeig-
te Differenzmethode und die Kreuz-Korrelation. Bei beiden Methoden ist zu beachten, dass
die Größe des Bildbereichs, der das zu verfolgende Objekt zeigt, richtig gewählt wird. Ferner
müssen die Bildmuster ausreichend prägnant sein, so dass sie wieder gefunden werden
können. Letztlich erlauben diese Methoden auch nur sehr geringe Änderungen in der Struk-
tur der Nachbarschaft. Bildänderungen müssen stetig und langsam ablaufen. Prinzipiell sind
dies die gleichen Einschränkungen, die das menschliche visuelle System auch hat. Da der
Rechenaufwand für die Differenzmethode geringer ist, ist sie schneller als die Korrelations-
methode. Allerdings ist die Korrelationsmethode sensitiver.
Zur Hervorhebung von Kanteninformation existieren Standardfilter, die hier zum Einsatz
kommen. Somit kann eine weitere wesentliche Funktion des menschlichen visuellen Sys-
tems, die bei der Bildinterpretation eine Rolle spielt, mitberücksichtigt werden.
Um die Verfahren zuverlässiger anwenden zu können, müssen die aufgezeichneten Video-
bilder zunächst einer Vorverarbeitung unterzogen werden. Standard hierbei ist zunächst das
Glätten der Bilder, wodurch hochfrequentes Rauschen unterdrückt wird (Hochpassfilter). Da
die gängige Videotechnik mit Halbbildern arbeitet, ist es ferner nötig den sog. „Interlace-
Effekt“ zu beseitigen. Dies reduziert jedoch die vertikale Auflösung der Bilder um den Faktor
zwei.
62
4 Realisierung
Der realisierte Ansatz für ein Haltungs- und Bewegungsmesssystem kombiniert die Vorteile
der Benutzung eines detaillierten, anthropometrisch korrekten und dreidimensionalen
Menschmodells mit Techniken der digitalen Bildverarbeitung, so dass die Messung mensch-
licher Haltungen ohne Anbringung externer Marker unter bestimmten Randbedingungen
möglich wird.
Dabei bietet das System die Möglichkeit zum einen reine zweidimensionale Bewegungsda-
ten zu erheben, die frei von Modellinformationen sind und deshalb mit geringerem Aufwand
erhoben werden können. Zum anderen können für modellbasierte Untersuchungen dreidi-
mensionale Daten erhoben werden, die an das Menschmodell RAMSIS gekoppelt sind.
4.1 Zweidimensionale Bewegungsmessung ohne Modell
Bei vielen Fragestellungen in der Ergonomie ist es nicht notwendig eine dreidimensionale
Repräsentation eines Bewegungsablaufs zu messen. Weiterhin ist es nicht immer nötig,
dass Bewegungsdaten modellkonform vorliegen. Vielmehr ist es häufig wichtig schnell und
unkompliziert Daten zu ermitteln, die den prinzipiellen Vergleich und Aussagen über Bewe-
gungen ermöglichen. Mit dem Ansatz, wie in Kapitel 3.2.2.2 beschrieben, lassen sich sehr
gut Objekte in Bildern verfolgen. Es bietet sich also an, mit dieser Methode ein einfaches
System zur Bewegungsmessung zu realisieren. In Abbildung 4.1 ist das prinzipielle Vorge-
hen dieser Anwendung gezeigt.
In Abbildung 4.2 ist ein Proband beim Zähneputzen dargestellt. Das Kind sollte in diesem
Beispiel die Kaufläche der Backenzähne putzen (Seitz et al. [65]). Die Seitenansicht wurde
gewählt, da dann die Bildebene auch die Hauptbewegungsebene der Putzbewegung defi-
niert und eine Reduzierung auf zwei Dimensionen möglich ist. Abbildung 4.3 zeigt dasselbe
Kind aber mit überlagerter Position der Marker aus der gesamten Bewegungssequenz. Weil
die Marker ihre Erscheinungsform nicht wesentlich ändern, kann die Bildanalyse sehr präzise
über lange Zeiten die Markermittelpunkte detektieren. Dabei werden als Basis der Korrelati-
onsanalyse (siehe auch Kapitel 4.2.2) jeweils die Grauwerte jeden Markers aus dem ersten
Bild genommen, d.h. die Folgebilder werden immer mit dem ersten Bild der Sequenz vergli-
chen.
63
Dass der Markermittelpunkt stabil detektiert wird, zeigt Abbildung 4.4. Es ist zu erkennen,
dass der Marker auch am Ende der Sequenz nach 6,72 Sekunden noch stabil detektiert wird,
obwohl die Bildqualität aufgrund der schnellen Bewegung nicht optimal ist.
Das vorgestellte Werkzeug ermittelt die Position der Marker in Bildkoordinaten. Deshalb
können zunächst keine absoluten Messungen gemacht werden. Dennoch lassen sich mit der
Methode schnell und unkompliziert vergleichende Bewegungsmessungen realisieren. Bei der
Anwendung dieses zweidimensionalen Verfahrens ist darauf zu achten, dass die zu analy-
sierende Bewegung in der Bildebene verläuft.
64
Abbildung 4.1: Prinzipielles Vorgehen bei der zweidimensionalen Bewegungs-
messung.
65
Abbildung 4.2: Seitenansicht eines Kleinkindes beim Zähneputzen. Die Markie-
rungen an Kopf, Oberarm, Unterarm und Hand sind deutlich zu erkennen.
Abbildung 4.3: Selbe Versuchsperson wie oben, aber mit überlagerter Position
der Marker (Punktewolken) für alle Bilder der Bewegungssequenz.
66
Abbildung 4.4: Detektierte Position des Handmarkers. Im ersten Bild (ganz links)
ist die manuell markierte Position zur Zeit t = 0s dargestellt. Die anderen Bilder
zeigen von links nach rechts die Markerposition nach eins, zwei, vier, sechs Se-
kunden und am Ende der Bildsequenz nach 6,72 Sekunden.
4.2 Dreidimensionale Bewegungsmessung mit Modell
Bei der dreidimensionalen Bewegungsmessung mit Modell kann ein Bewegungsfilm analy-
siert werden der durch zwei Kameras erzeugt wird. Die Bilder des Bewegungsfilms müssen
dabei als zeitsynchrone Einzelbildpaare vorliegen. In das erste Bildpaar des Films wird das
Menschmodell überlagert und exakt an die Probandenhaltung adaptiert. Nach dieser Präpo-
sitionierung des Modells bestimmt die Software die Bewegung einzelner Körperelemente
anhand der Musterverschiebungen im Folgebildpaar. Sobald die Bewegung für das Bildpaar
bestimmt ist, wird aus den Verschiebungen eine dreidimensionale Haltung berechnet und
dem Bildpaar überlagert. Durch Vergleichen von Körperkanten im Bild mit der Modellhaut
wird die durch das Menschmodell bekannte Anthropometrie des Probanden bei der Analyse
für die Haltungsberechnung ausgenutzt. Nach erfolgreicher Haltungsmessung wird die Pro-
zedur für das nächste Bildpaar erneut gestartet, so dass sukzessive alle Bildpaare des Films
analysiert werden (vgl. Abbildung 4.6). Im Folgenden wird das Vorgehen beschrieben.
4.2.1 Präpositionierung des Modells
Das realisierte System benötigt für die modellbasierte Bildfolgenanalyse die Haltung und
Position des Probanden im ersten Bildpaar zur Initialisierung der Prozedur. Die Platzierung
des Modells erfolgt halbautomatisch, d.h. der Benutzer gibt per Mausklick die Position rele-
vanter Punkte in den Bildern an. Diese relevanten Punkte werden von der Software abge-
fragt und korrespondieren mit Gelenkpunkten oder sonstigen prägnanten Punkten am Pro-
banden, wie z.B. der Augenpunkt. Durch dieses Vorgehen wird vom Benutzer ein Satz drei-
dimensionaler Punkte erzeugt, der die Lage im Raum der folgenden Körperpunkte definiert:
• Augenpunkt
67
• Schultergelenke
• Ellenbogengelenke
• Handgelenke
• Handspitzen
• Hüftgelenke
• Kniegelenke
• Knöchel
• Fußspitzen
Ziel der Präpositionierung des Modells ist es, das Menschmodell in eine Haltung zu bringen,
die durch die Lage der vom Benutzer angegebenen Punkte definiert wird. Während dies bei
den Extremitäten relativ einfach ist, da die Lage der Gelenkpunkte, die der Benutzer vorgibt,
in der Regel eine eindeutige Haltung beschreibt, ist es für die Haltung des Oberkörpers
schwieriger. Die Haltung des Oberkörpers wird durch die Orientierung eines jeden Wirbels
der Wirbelsäule definiert. Da die Raumlage einzelner Wirbel vom Benutzer nicht in den Bil-
dern erkannt werden kann wird hier eine Haltungsschätzung vorgenommen. Aus der Lage
der Hüftgelenke und der Schultern wird die Krümmung der Wirbelsäule berechnet. Ferner
wird die Neigung des Beckens geschätzt.
Im Detail gliedert sich der Ablauf des Algorithmus wie folgt:
1. Modell verschieben: Die Hüftgelenke stellen die Basis der Positionierung dar. Des-
halb werden zunächst die Hüftgelenke des Modells an die vom Benutzer angegebe-
nen Punkte im Raum angepasst. Hierzu wird das Menschmodell in x-, y- und z-
Richtung verschoben, so dass der euklidische Abstand zwischen Modellgelenkpunkt
und vom Benutzer geschätztem Punkt am geringsten ist.
2. Torso krümmen: Ausgehend von der Lage des Beckens aus Punkt 1 wird der Winkel
zwischen Hüftgelenk und Schulterpunkte ermittelt. Daraus resultiert die Beckennei-
gung des Modells. Durch Bewegen der Oberschenkel, so dass die Kniegelenke sich
mit den vom Benutzer markierten Positionen decken, wird die Oberschenkelhaltung
angepasst und hieraus der Öffnungswinkel zwischen Torso und Oberschenkel ermit-
telt. Aus diesem Winkel wird die Krümmung der Wirbelsäule geschätzt, wobei der lor-
dotische (dorsal konkave Krümmung der Wirbelsäule; Rundrücken) und kyphotische
(dorsal konvexe Krümmung der Wirbelsäule; Hohlkreuz) Fall unterschieden wird. Bei
Öffnungswinkeln zwischen Oberschenkel und Torso kleiner 180 Grad ist der konkave
68
Fall wahrscheinlich, bei Öffnungswinkeln größer 180 Grad der konvexe (Lordotische
und kyphotische Sitzhaltungen werden nicht berücksichtigt). Mit Festlegung der
Krümmungsart der Wirbelsäule können dann die Wirbelsäulengelenkwinkel so variiert
werden, dass die Schulterpunkte erreicht werden.
3. Extremitäten anpassen: Kniegelenk, Knöchel, Fußspitze, Ellbogen, Handgelenk,
Handspitze und Augenpunkt werden in der angegebenen Reihenfolge an die vom
Benutzer vorgegebenen Raumpunkte angenähert.
Bei der beschriebenen Anpassung werden für jedes beteiligte Gelenk alle möglichen Winkel-
stellungen berechnet und ausgehend von der resultierenden Haltung der euklidische Ab-
stand zum Zielpunkt bestimmt. Für die endgültige Haltung werden jene Winkel ausgewählt,
die zu einem minimalen Abstand zum Zielpunkt führen. Um den Vorgang zu Beschleunigen
wird dabei zunächst die Haltung in großen Winkelschritten variiert. Sobald die ungefähre
Lage bestimmt wurde, wird in kleinen Winkelschritten die Haltung verfeinert. Dieses Vorge-
hen wirkt sich positiv auf die Berechnungsgeschwindigkeit aus.
Die resultierende Haltung dient als Basis für die weitere Analyse. Falls sich die Haltung nicht
exakt mit dem Probanden deckt, so kann manuell korrigiert werden.
Abbildung 4.5: Bildfolge aus zwei Kameraansichten. Für die Bewegungsverfol-
gung wird Bild für Bild abgearbeitet und die Haltung des Menschmodells berech-
net und in die Bildfolge überlagert.
69
Abbildung 4.6: Übersichtsdiagramm der Funktionsweise der modellbasierten
dreidimensionalen Bewegungsmessung.
70
Abbildung 4.7: Haltungsberechnung durch Vorgabe relevanter Punkte. Die Hal-
tung der Wirbelsäule wird dabei aufgrund der Lage von Schulter und Hüftgelenke
bestimmt.
4.2.2 Gelenkpunktverschiebung detektieren
Das überlagerte Menschmodell beschreibt die Haltung der Versuchsperson dreidimensional
und definiert jene Bildbereiche (AOI), die mit Eigenschaften der Versuchsperson korrespon-
dieren. Durch die Initialisierung kann ein Satz Gn von Vektoren Tjin yxg ),(,, =
verzeugt wer-
den, welche die Position eines jeden AOIs auf einem Bild beschreibt, wobei n die Nummer
des Bildes der Bildfolge (erstes Bild n=0), i die Nummer der Kamera, j eine Modelleigen-
schaft und x sowie y die Koordinate einer korrespondierenden Modelleigenschaft j ist. Jeder
AOI An,i,j ist eine (2M+1) × (2N+1) Matrix und gehört zu je einem Vektor jing ,,v
. Die Matrix An,i,j
71
trägt Grauwertinformationen I als Matrixelemente und beschreibt damit das Bildmuster in der
lokalen Umgebung eines jeden Vektors jing ,,v
.
Für alle Folgebilder (siehe Abbildung 4.5) wird ein neuer Satz von Vektoren Gn berechnet,
welche die neue Position korrespondierender Modelleigenschaften beschreibt. Die Verschie-
bung Vn+1 zwischen Modelleigenschaften aus Bild n und Bild n+1 berechnet sich zu
Vn+1=Gn+1–Gn. Auf Basis der Korrelationsanalyse zur Mustererkennung (wie in Kapitel 3.2.2.2
beschrieben) wird eine Korrelationsmatrix C berechnet. Die Koeffizienten ck,l dieser (2M+1) ×
(2N+1) Matrix C wurden zu
∑ ∑−= −=
−++×−++=M
Mu
N
Nvlk lkIvlukIyxIvyuxI
Kc ))],(),(()),(),([(
12211, (4.1)
mit
21KKK =
∑ ∑−= −=
−++=M
Mu
N
Nv
yxIvyuxIK 2111 )),(),(( (4.2)
∑ ∑−= −=
−++=M
Mu
N
Nv
lkIvlukIK 2222 )),(),(( (4.3)
berechnet, wobei I2 die Grauwerte eines AOI im Folgebild repräsentiert und I1 die Grauwerte
des Vergleichsbildes. Wenn
)min( ,,1,,1 jinjin Cx ++ =v
, (4.4)
ein Vektor, der zur Position des Minimums zeigt, dann ist der Bewegungsvektor jinv ,,1+v
gege-
ben durch
jinjinjin gxv ,,,,1,,1vvv
−= ++ . (4.5)
Cn,i,j beschreibt ein “pattern matching” für Bild n, Kamera i und Modelleigenschaft j (vgl. auch
Seitz und Bubb [63]).
72
4.2.3 Resultierende Haltung im Raum bestimmen
Basierend auf den resultierenden zweidimensionalen Vektoren werden dreidimensionale
Vektoren berechnet, die dann die Position von Modellpunkten im Raum beschreiben. Durch
die Korrelationsanalyse sind für jeden beobachteten Gelenkpunkt Bildkoordinaten ermittelt
worden, die seine neue Position beschreiben. Diese Bildvektoren jinx ,,1+v
beschreiben einen
Punkt auf der Bildebene, der, legt man eine Gerade durch diesen Punkt und den Fokus der
Kamera, eine Sichtgerade beschreibt, entlang derer sich der wahre Gelenkort im Raum be-
finden kann. Da Sichtgeraden aus zwei oder mehr Kameraperspektiven für identische Mo-
dellpunkte vorliegen, ergibt sich durch Schnitt dieser Geraden die Raumkoordinate des ent-
sprechenden Punkts. In Abbildung 4.8 sind zwei Sichtgeraden g1 und g2 dargestellt. Da sich
die Geraden in der Regel nicht wirklich schneiden (wegen Messungenauigkeiten und der
diskreten Pixelmatrix des CCD) muss der Ort der größten Annäherung ermittelt werden. Sei-
en
1011 bsarrrr
+= (4.6)
und
2022 btarrrr
+= (4.7)
Vektoren, die jeweils einen Punkt auf den Sichtgeraden beschreiben. Dann ergibt sich aus
der Bedingung, dass 12 rrrr
− minimal werden soll eine Gleichung für den Vektor rr , der einen
Raumpunkt beschreibt, der in der Mitte der kürzesten Strecke zwischen g1 und g2 liegt. Für
das Beispiel aus Abbildung 4.8 mit zwei Sichtgeraden ergibt sich der Vektor rr zu
[ ] [ ]2
21
2211212
21
12122121
)()()()(2
bb
baabbb
bb
baabbbaar vv
vvvvvv
vv
vvvvvvvvv
×
−××+
×
−××++= . (4.8)
Ausgehend von diesen Gelenkpositionen errechnet der in Abschnitt 4.2.1 erwähnte Algo-
rithmus die Haltung, die durch diese Gelenkorte am besten beschrieben wird, wobei durch
Einschränkung des Suchbereichs gewährleistet wird, dass nur solche Haltungen akzeptiert
werden, die der vorherigen Haltung ähnlich sind, d.h. es wird erwartet, dass die Folgebilder
nur kleine Bewegungsänderungen zeigen. Die resultierenden Haltungen werden den Bildern
anschließend überlagert, so dass die Qualität der Messung begutachtet werden kann. Gege-
benenfalls können nun noch manuelle Korrekturen vorgenommen werden.
73
Abbildung 4.8: Bestimmung eines Raumpunktes mit Hilfe der Sichtgeraden g1
und g2.
4.2.4 Integration von Kanteninformation
Die reine Verwendung der Korrelationsmethode zum Detektieren der Körperhaltungsverän-
derungen hat allerdings zwei entscheidende Nachteile. Zum einen ist die Qualität der Kör-
perverfolgung stark von der Ausgeprägtheit der Bildmerkmale die für die Bildverfolgung ver-
wendet werden abhängig und zum anderen fehlt die Möglichkeit, eine mögliche Abweichung
zwischen wahrer und berechneter Körperhaltung zu messen und zu bewerten. Dies hat zur
Folge, dass die Bewegungsanalyse Haltungen ermittelt, die nach einiger Zeit deutliche Ab-
weichungen zur tatsächlichen Haltung aufweisen, ohne das dies vom System bewertet bzw.
korrigiert werden kann. Abbildung 4.9 zeigt die Qualität der Bildverfolgung am Beispiel einer
Schaltbewegung im PKW. Es ist zu erkennen, dass die Position des RAMSIS-Arms eine ge-
ringfügig falsche Position aufweist. Gerade bei ergonomischen Untersuchungen ist jedoch
eine höhere als die hier erreichte Genauigkeit bei Bewegungs- bzw. Haltungsmessungen
gefordert. Die Abweichung rührt vor allem von Verschiebungen bei der Bildkorrelation her, da
der Arm keine ausreichend prägnanten Bildmuster liefert. Diese Drift beim Korrelieren von
Bildmerkmalen in langen Bildsequenzen gilt es durch einen geeigneten Mechanismus zu
erkennen und zu korrigieren. Der Abstand zwischen der Kontur des Modells zur Kontur des
realen Körpers gibt hierbei ein Maß für die Größe der Fehlplatzierung.
Eine Möglichkeit, Konturen in Bildern zu detektieren, ist die Erzeugung von Kantenbildern,
wie es in Kapitel 3.2.3 dargestellt ist. Die Information über die Lage von Körperkonturen er-
möglicht es einen Abgleich mit Modellkonturen durchzuführen. Da die Bilder nach einer Kan-
tendetektion sehr viele Kanten zeigen, beschränkt sich die Vorgehensweise hier darauf, Kan-
ten in der Nähe von Gelenkpunkten zu detektieren. Durch diese lokale Kantendetektion wird
zum einen der Rechenaufwand reduziert und zum anderen der Einfluss des Hintergrunds
74
minimiert. Wie in Abbildung 4.10 dargestellt, sucht der Algorithmus in der Nachbarschaft, des
Modellgelenkpunktes nach Kanten. Wenn der Abstand x’ der detektierten Kanten zueinander
vergleichbar des vom Modell vorgeschriebenen Abstands x ist (Abbildung 4.11), wird das
Modell entlang der Kanten ausgerichtet. Durch diesen Vergleich wird gewährleistet, dass nur
Kanten berücksichtigt werden, die wahrscheinlich zur Person gehören. Mit diesem Ansatz
können kleine Fehler der Korrelationsanalyse ausgeglichen werden (Seidl [59], Werner [73]).
Abbildung 4.9: Oben: Startbild für die Analyse. Unten: Nach der Verfolgung von
25 Bildern kann ein deutlicher Unterschied zwischen wahrer und überlagerter
Armposition erkannt werden.
75
Abbildung 4.10: Durch Detektion lokaler Kanten in der Nachbarschaft von Ge-
lenkpunkten werden Modellkanten mit Bildkanten abgeglichen, um das Modell
präziser zu platzieren.
Abbildung 4.11: Durch den Vergleich des Abstands zwischen detektierten Kör-
perkanten x’ und dem Sollwert x wird gewährleistet, dass das Modell nur an ech-
ten Körperkanten ausgerichtet wird.
4.3 Probleme
Die genaue und stabile Messung menschlicher Bewegungen stellt bis heute eine große Her-
ausforderung dar. Weltweit existieren viel versprechende Ansätze, die jedoch alle mit Tücken
und Problemen behaftet sind. So ist auch der hier vorgestellte Ansatz ein weiterer Beitrag
menschliche Bewegungen einfach zu erfassen, der aber naturgemäß seine Probleme und
Grenzen hat.
76
4.3.1 Drift beim Verfolgen unprägnanter Strukturen
Das Wiederfinden von Körpermerkmalen in Bildfolgen mit Hilfe der Kreuz-Korrelation bzw.
Differenzbildung funktioniert in der Regel sehr stabil, solange die gesuchte Struktur ausrei-
chend prägnante Merkmale besitzt, anhand derer sie eindeutig im Folgebild wieder erkannt
werden kann. Jedoch besitzt der menschliche Körper bzw. getragene Kleidung oft keine sol-
chen Merkmale, so dass zwangsläufig Körperpunkte ungenau wieder gefunden werden. In
Abbildung 4.12 ist die Drift beim Verfolgen des Ellenbogengelenks dargestellt. Obwohl bei
der Bildfolge die Bild-zu-Bild-Veränderungen gering sind, ist schon nach kurzer Zeit das
Merkmal fehldetektiert. Die vorgestellte Einführung der Kantenstabilisierung kann hier zwar
eine Korrektur bewirken, doch problematisch bleibt die Tatsache, dass in der Regel in beiden
Kameraansichten diese Drift zu beobachten ist und deshalb der resultierende 3-D-Punkt weit
außerhalb des Körpervolumens liegen kann. Daraus folgt, dass die Haltungsberechnung
eine Haltung prognostiziert, bei der das überlagerte Menschmodell außerhalb der Bildberei-
che, die dem Probanden zugeordnet sind, liegt. Bei solch einer Fehldetektion ist die Kanten-
stabilisierung nicht mehr in der Lage, eine Korrektur durchzuführen. Denn für die Kantensta-
bilisierung ist es nötig, dass überlagerte Modellgelenke innerhalb des Bildbereichs des Pro-
banden liegen.
Das beschriebene Problem führt dazu, dass eine manuelle Korrektur der Haltungsprognose
vorgenommen werden muss. Ausgehend von der manuell bestimmten Lage erfolgt die weite-
re automatische Analyse der Folgebilder, bis wieder eine deutliche Differenz zwischen Soll-
und Ist-Haltung auftritt.
77
Abbildung 4.12: Drift beim Wiederfinden des Ellenbogengelenks. Die Kreuze
markieren die von der Kreuz-Korrelation gelieferten Ergebnisse. Deutliche ist ei-
ne Wanderung der detektierten Punkte längs des Arms zu erkennen. n bezeich-
net die laufende Bildnummer der Sequenz.
4.3.2 Nicht ausgeprägte Kanten
Die Kantenstabilisierung kann nur erfolgen, wenn
1. Kanten detektiert werden und wenn
2. die detektierten Kanten zum Körperumriss des Probanden gehören.
Beide Punkte sind in der Realität nicht immer erfüllbar. Abbildung 4.13 zeigt, dass Körper-
kanten in der Regel nicht über die ganze Sequenz gleich prägnant hervortreten. So treten
hier die Konturen des bewegten rechten Arms mal mehr und weniger deutlich hervor. Die
Kantenstabilisierung steht nun vor dem Problem prinzipiell zu erkennen, ob eine Kante über-
haupt zur gesuchten Kontur gehört. Als Kriterium hierfür wird der Abstand von zwei Kanten
zueinander verwendet. Wenn er in der Größenordnung des Durchmessers des korrespondie-
renden Körperelements ist, dann wird die Kante als Körperkante interpretiert und das Modell
dazwischen platziert. Im Falle des Arms heißt dies, dass die obere und untere Armkante de-
tektiert werden muss. Wird nur eine Kante gefunden, so kann nicht eindeutig gesagt werden,
78
ob die Kante ein Bildartefakt (Schatten, Hintergrund oder andere Strukturen) oder die tat-
sächliche Körperkante darstellt. Eine Anpassung an die Kontur bleibt aus. In die Haltungs-
prognose geht dann nur die Information aus der Korrelation ein. Bei einer fehlerhaften Detek-
tion, muss manuell korrigiert werden.
4.3.3 Verdeckung
Von Seiten der Bildverarbeitung kann eine Bewegung eines verdeckten Körperelements oder
–bereichs nicht behandelt werden. In der Bewegung von Abbildung 4.9 beispielsweise kann
die Bewegung der linken Schulter wegen der Verdeckung nicht ermittelt werden. Allerdings
bietet das verwendete Menschmodell die Möglichkeit automatisch zu erkennen, welche Kör-
perregionen verdeckt sind, so dass entweder verdeckte Körperteile starr bleiben bzw. der
Benutzer diese ggf. manuell justiert. Mit Hilfe von Prognosemodellen (wie z.B. Kalman-
Filter) könnten kurzzeitige Verdeckungen einzelner Körperelemente behandelt werden, so
dass nach verlieren eines Körpermerkmals, dieses wieder gefunden und das Tracking fort-
gesetzt werden kann.
4.3.4 Rotation
Der entwickelte Ansatz zur Bewegungsmessung benutzt die Detektion translatorischer Ver-
schiebungen in Bilder, um hieraus eine Haltung zu berechnen. Dabei können Rotationen von
Körperelementen entlang der Längsachse nur richtig interpretiert werden, wenn ein Winkel
zwischen rotiertem Körperelement und nachfolgendem bzw. vorhergehendem Körperele-
ment besteht. Die Rotation des Oberarms ist beispielsweise bei angewinkeltem Unterarm
aus der Unterarmposition eindeutig zu bestimmen (siehe Abbildung 4.14). Bei gestrecktem
Unterarm – Ober- und Unterarm bilden eine Linie – ist eine Rotation längs der Knochenach-
se nicht zu detektieren, da die Bildverarbeitung zwar eine translatorische Verschiebung de-
tektieren würde (Punkte auf dem Arm wandern während der Rotation in der Bildebene), die-
se aber zu einer fehlerhaften Haltungsprognose führt.
79
Abbildung 4.13: Innerhalb einer Bildsequenz variiert die Ausgeprägtheit von Kan-
ten, z.B. weil der Hintergrund sich nicht stark vom Körper unterscheidet. So ist
bei n=0 die Armkontur praktisch verschwunden, bei n=10 die obere Kontur des
rechten Arms deutlich zu sehen und bei n=20 und n=30 die obere und unter Kon-
tur ausgeprägt.
Abbildung 4.14: Eine Rotation um Körperelementlängsachsen ist mit dem vorge-
stellten Ansatz nur messbar, wenn ein Winkel zwischen zwei Körperelementen
besteht (rechte Abbildung).
80
4.3.5 Genauigkeit
Ziel der vorgestellten Methode ist es, einen zeitlichen Winkelverlauf aller Modellgelenke zu
erhalten. Aus Modellparametern sind ferner die räumlichen Orte von Gelenk- und Hautpunk-
ten des Modells zu ermitteln. Die Genauigkeit, mit der die Messung eines Punktes im Raum
erfolgen kann, hängt von der Auflösung der verwendeten Kamera, so wie dem Abstand zwi-
schen Kamera und Person ab. Generell lässt sich sagen, dass bei doppeltem Abstand auch
nur die halbe räumliche Genauigkeit erreicht werden kann. Bei Verwendung von Kameras
mit Standardauflösung von 576x768 Pixeln kann bei der Vermessung einer Versuchsperson
von 1,80 m Körpergröße eine Auflösung von 3 mm erreicht werden. Bei Messungen des Tor-
sos (ca. halbe Körperhöhe) können die Kameras entsprechend näher an der Versuchsper-
son platziert werden, so dass sich eine Auflösung von ca. 1,5 mm ergibt. Die durch die An-
zahl der Pixel vorgegebene Auflösung definiert die kleinstmöglichen Distanzen, die vermes-
sen werden können. Dieser Wert vergrößert sich jedoch durch leichte Kalibrierfehler bei der
Korrektur der Linseneigenschaften sowie der Standortbestimmung der Kameras. Hinzu
kommen ferner Fehler bei der Analyse mit Bildverarbeitung sowie beim Rückrechnen von
Raumpositionen auf Bildpositionen und umgekehrt. Die Analyse einer Ganzkörperbewegung
mit einem angenommenen Bildverarbeitungsfehler von 2 - 4 Pixeln würde zu Fehlern in der
Positionierung der Körperelemente von minimal 9 - 15 mm im Raum führen. Die Verwendung
hoch auflösender Kameras kann hierbei die Genauigkeit stark erhöhen.
4.4 Zusammenfassung
Ausgehend von der Idee biologische Prinzipien des Bewegungssehens nachzuahmen und
Funktionen, wie Korrelation und Modell-Bild-Vergleich zu integrieren, entstand der vorgestell-
te Ansatz. Das vorgestellte Verfahren detektiert durch Bild-zu-Bild-Vergleich Bewegungen.
Dabei können sowohl prägnante Markierungen ohne Verwendung eines überlagerten
Menschmodells, als auch Texturmerkmale mit Unterstützung eines Menschmodells verfolgt
werden.
Im ersten Fall, der im Wesentlichen die heutige kommerzielle Vorgehensweise in der Bewe-
gungsanalyse repräsentiert, wird ein Proband gezielt mit Markierungen bestückt. Durch die
Tatsache, dass sich die Markierungen in ihrer Erscheinung nicht verändern, wird deren Posi-
tion zuverlässig verfolgt. Als Resultat ergeben sich markerabhängige Bewegungsdaten.
81
Im zweiten Fall wird die Bewegungsanalyse unterstützt durch das verwendete Menschmo-
dell. Die Lage von angebrachten Markierungen oder Texturmerkmalen in Relation zum Mo-
dell ist dabei unerheblich, denn durch die Überlagerung des Modells wird diese Relation indi-
viduell neu erstellt. Dies hat zur Konsequenz, dass bei Verwendung von Markern diese an
nicht näher definierten Stellen am Körper positioniert werden können, so dass bei Folgemes-
sungen mit der selben Versuchsperson Marker nicht wieder an den selben Körperstellen
angebracht werden müssen. Ferner kann ganz auf externe Markierungen verzichtet werden,
da mit Hilfe der Bildverarbeitung auch körper- und kleidungseigene visuelle Merkmale detek-
tiert werden. Allerdings ist dann die erzielte Genauigkeit geringer, da die Verfolgung von
wenig ausgeprägten Körpermerkmalen zu einer unstabilen Bildverfolgung führt.
Um dieses Problem in den Griff zu bekommen wurden zusätzlich die Körperumrisse in der
Nähe von Gelenkpunkten zur Stabilisierung der Bewegungsverfolgung hinzugezogen. Da
aus dem individuellen Modell des Probanden die genaue Anthropometrie bekannt ist, kann
die Abweichung zwischen Modellposition und realer Probandenposition ermittelt und die La-
ge des Modells korrigiert werden.
82
5 Ausblick
Auf Grundlage dieser Arbeit können in Zukunft Haltungs- und Bewegungsmessungen kon-
form zum Menschmodell RAMSIS einfacher und schneller durchgeführt werden. Damit ist
eine Erleichterung der Forschungen auf dem Gebiet des Human Modeling, insbesondere der
Modellierung von Bewegungen, erreicht worden. Dieser Ansatz erlaubt es modellbasiert und
ohne Verwendung von Markern die Bewegung von Menschen zu messen. Daher werden die
Probanden in keiner Weise bei ihrer Bewegung behindert oder eingeschränkt, wie dies bei
Markersystemen der Fall ist – ungestörte Bewegungen können beobachtet werden. Aufgrund
der nicht zwingend nötigen Präparierung von Probanden können außerdem wesentlich mehr
Versuche pro Zeiteinheit durchgeführt werden, als dies heute der Fall ist.
Allerdings ist die Genauigkeit und Stabilität des Ansatzes verbesserungsfähig. Dies kann vor
allem durch eine Verfeinerung der vorgestellten Methoden erreicht werden, z.B. Betrachtung
von Kanten über das ganze Modell. Da Kanten bzw. Konturen in der Regel nur unvollständig
aus Bildern zu extrahieren sind, müssen hier stabilere Methoden verwendet werden. Hansen
[26] beispielsweise detektierte mit Hilfe aktiver Konturen Körperumrisse von beliebig beklei-
deten Menschen. Eine Kombination des hier vorgestellten Ansatzes und dieser Arbeiten
erscheint nahe liegend. Allerdings ist anzumerken, dass ganz generell die Genauigkeit durch
die Auflösung des verwendeten CCD-Chips eingeschränkt ist. Bei der Aufzeichnung von
Bildsequenzen tritt jedoch die Videotechnik zusehens in den Hintergrund, so dass hier zu
erwarten ist, dass die heutige Technik bald durch hoch auflösende CCDs und digitale Tech-
nik abgelöst wird.
Die Kopplung von Videoaufnahmen an das Menschmodell RAMSIS erlaubt eine Reihe nütz-
licher Interpretationen der gemessenen Haltungen, die ergonomische Untersuchungen er-
leichtern. So könnten beispielsweise mit Hilfe des Systems dynamische Arbeitplatzuntersu-
chungen durchgeführt und mit Hilfe der Haltungsinformationen im Sinne der in der Ergono-
mie etablierten OWAS-Methode analysiert werden. Ferner können mit Hilfe des individuellen
Menschmodells kinematische Aspekte einer Bewegung untersucht werden, so dass z.B. aus
den Trägheitstensoren einzelner Körperelemente und den gemessenen Bewegungsbahnen
die dynamischen Belastungen des Körpers ermittelt werden können (Zauner [80]). Ein wei-
teres Entwicklungspotenzial stellt die Onlinefähigkeit dar, so dass z.B. der Einsatz in Virtual
Reality Umgebungen in Frage käme oder allgemein beim Visualisieren von natürlichen Be-
wegungen, wie es für die Produktions- und Produktplanung nötig ist. Heute werden dort Tra-
cking-Systeme benutzt, die ohne Modell und mit Markern arbeiten.
83
6 Literatur
1. Aggarwal, K.J. und Cai, Q., Human Motion Analysis: A Review. Computer Vision and
Image Understanding, 73(3), S. 428-440, 1999.
2. Arlt, F. und March, A., CAD modelling of a human 3D child body, Int. J. of Industrial
Ergonomics 22, 1998.
3. Badler, N.I., Philipps, C.B., und Webber, B.L., Simulating Humans: Computer Graphics
Animation and Control, Oxford University Press, New York, 1993.
4. Bakic, V. and Stockman, G., Menu Selection by Facial Aspect, Proceedings of Vision
Interface, Québec, 1999.
5. Barnes, R.B., Motion and Time Study, Whiley, New York, Seite 10ff, 1968.
6. Baum, E., Motografie, Bundesanstalt für Arbeitsschutz und Unfallforschung, Dortmund,
1980.
7. Bear, M. F., Connors, B. W. und Paradiso M.A., Neuroscience – Exploring the Brain,
Williams & Wilkins, Baltimore, 1996.
8. Braune, W. und Fischer, O.: Der Gang des Menschen, in: Abhandlungen der mathem.-
phys. Classe der Königl. Sächsischen Gesellschaft der Wissenschaften, Leipzig, 1895.
9. Bubb, H., Ergonomie des Mensch-Maschine-Systems, Habilitationsschrift, Technische
Universität München, 1977.
10. Bubb, H., From Measurement to Design and Evaluation – the Idea of the CAD-tool
RAMSIS, Workshop on 3-D Anthropometry and Industrial Products Design, Editor A.
Coblentz, Paris, 1998.
11. Bubb, H., Human Modeling in the Past and Future – The Lines of European Develop-
ments, SAE International Conference, Digital Human Modeling for Design and Engi-
neering, The Hague, The Netherlands, 1999.
12. Bubb, H., Küger, W., Schmidtke, H. und Speyer, H., Ergonomie im Fahrzeuginnenraum
– Rechnergestützte Insassensimulation auf der Basis mathematischer Modelle und ak-
tueller ergonomischer Daten, VDI-Berichte 816, S.459-468, VDI Verlag Düsseldorf,
1990.
13. Case, K., Porter, J.M. und Bonnes, M.C., SAMMIE: A Man and Workplace Modeling
System, in Karwowski, W., Genaidy, A.M. und Asfour, S.S. (Eds.), Computer-aided Er-
gonomics, S. 47, Taylor & Francis, London, 1990.
84
14. Chaffin, D., Digital Human Modeling for Vehicle and Workplace Design, Society of
Automotive Engineers Inc., Warrendale, 2001.
15. Chaffin, D.B., Andersson, G.B.J. und Martin, B.J., Occupational Biomechanics, 3rd Edi-
tion, John Wiley and Sons, New York, 1999.
16. Chung, J.-M., Nagata, t. und Ohnishi, N., Measuring Human Actions using Sequential
Boundary Contour Pairs, In: Proceedings of the IEEE International Workshop on Robot
and Human Communication, 1996.
17. Darell, T. Maes, P., Blumberg B. und Pentland, A., A novel environment for situated
vision and behavior. In: IEEE Workshop for Visual Behaviors, 1994.
18. Davis, W., J. und Bobick, F., A., SIDEshow: A Silhouette-based Interactive Dual-screen
Environment, M.I.T. Media Laboratory Perceptual Computing Section Technical Report
No. 457, M.I.T., Cambridge, 1999.
19. Elgammal, A., Harwood, D. und Davis, L., Non-parametric Model for Background Sub-
traction, Publications of the Computer Vision Laboratory, University of Maryland, 2000.
20. Gavrila, D. und Davis, L.S., 3-D model-based tracking of humans in action: a multi-view
approach, In: Proceedings of the IEEE International Conference on Computer Vision
and Pattern Recognition, San Francisco, 1996.
21. Gavrila, D. und Fritsche M., persönliche Kommunikation, DaimlerChrysler Research,
Ulm, 2001.
22. Gavrila, D.M., The Visual Analysis of Human Movement: A Survey. Computer-Vision
and Image Understanding, 73(1), S. 82-98, 1999.
23. Gavrila, D.M., Vision-based 3-D Tracking of Humans in Action, Dissertation an der Uni-
versity of Maryland, 1996.
24. Geuß, H., Entwicklung eines anthropometrischen Meßverfahrens für das CAD-
Menschmodell RAMSIS, Dissertation, Lehrstuhl für Ergonomie, Technische Universität
München, 1994.
25. Gilbreth, F.B. und Gilbreth L.M.: Ermüdungsstudium, Eine Einführung in das Gebiet
des Bewegungsstudiums, Verlag des Vereins deutscher Ingenieure, Berlin, 1920.
26. Hansen, C., Modellgetriebene Verfolgung formvariabler Objekte in Videobildfolgen,
Dissertation, Institut für Informatik, Technischen Universität München, 2002.
85
27. Haritaoglu I., Harwood D. und Davis, L.S., W4: Who? When? Where? What? A Real
Time System for Detecting and Tracking People, In: Proceedings of IEEE Interna-
tional Conference on Automatic Face and Gesture Recognition, Nara, 1998.
28. Heinrich, S., Real time fusion of motion and stereo using flow/depth constraint for fast
obstacle detection, In: Proceedings of the 24th DAGM Symposium on Pattern Recogni-
tion, Zürich, 2002.
29. Hilf, H.H., Einführung in die Arbeitswissenschaft, de Gruyeter, Berlin, S. 28f, 1976.
30. Hogg, D., Model-based vision: a paradigm to see a walking person. Image and Vision
Computing, 1(1), 1983.
31. Jiang, X. und Bunke, H., Dreidimensionales Computersehen, Springer Berlin Heidel-
berg, 1997.
32. Jähne, B., Digitale Bildverarbeitung, 4. Auflage, Springer Berlin Heidelberg, 1997.
33. Kamusella, Ch., Tommy – ein Konzept zur 3D Simulation des menschlichen Körpers,
Wissenschaftliche Zeitschrift der Humboldt-Universität zu Berlin, R. Med. 38, 1989.
34. Karwowski, W., Genaidy, A.M., und Asfour, S. S. (Eds.), Computer-Aided Ergonomics,
pp. 138 – 156, Taylor & Francis, London, 1990.
35. Kaibel, J., Kubbat, W., Albert, O., Balzulat, J. und Seitz, T., Posture Prediction Model
for Pilots in Cockpits and the Appliance on the Human Model RAMSIS, VDI/SAE Inter-
national Conference on Digital Human Modeling for Design and Engineering, VDI-
Berichte Nr. 1675, München, 2002.
36. Kinzel, W., Präattentive und attentive Bildverarbeitungsschritte zur visuellen Erkennung
von Fußgängern, Nummer 329 in Fortschr.-Ber. VDI Reihe 10, VDI-Verlag, Düsseldorf,
1994.
37. Kolling, J., Validierung und Weiterentwicklung eines CAD-Menschmodells für die Fahr-
zeuggestaltung, Dissertation, Lehrstuhl für Ergonomie, Technischen Universität Mün-
chen, 1998.
38. Léna, P., Observational Astrophysics, Springer Berlin Heidelberg, 1988.
39. McDaniel, J.W., Human Modeling: Yesterday, Today, and Tomorrow, SAE International
Conference, Digital Human Modeling for Design and Engineering, Dayton, Ohio, 1998.
40. Mochimaru, M. und Yamazaki, N., The marker-less measurement method of the two-
dimensional human motion, In: Proceedings of the 10th Conference of the ESB, 1996.
86
41. Mochimaru, M. und Yamazaki, N., The three-dimensional measurement of uncon-
strained motion using a model matching method, Ergonomics, 37(3), S. 493-510,
1994.
42. Morguet, P. und Lang, M., Comparison of Approaches to Continuous Hand Gesture
Recognition for a Visual Dialog System, Proceedings of ICASSP 99, Phoenix, S. 3549-
3552, 1999.
43. Oberseminar „Sprache, Mimik, Gestik“, persönliche Kommunikation, Wintersemester
2000/2001, Institut für Phonetik, Ludwig-Maximilians-Universität München.
44. Peacock, B. und Karwowski, W., Automotive Ergonomics, Taylor & Francis, Washing-
ton, D.C., 1993.
45. Pentland, A., Smart rooms, Scientific American, 274(4), S. 54-62, 1996.
46. Press, W. et al., Numerical Recipes in C, Cambridge University Press, 1995.
47. Produkt „Contour“ der Human Solutions GmbH, www.human-solutions.com
48. Quesada, P.M., Video-based measurements of human movement, The Occupational
Ergonomics Handbook, CRC Press LCC, 1999.
49. Radig, B., et al., A Model-Driven Three-Dimensional Image-Interpretation System Ap-
plied to Person Detection in Video Images. In: Jähne, B., Haußecker, H. und Geißler,
P. (Hrsg.), Handbook of Computer Vision and Applications, Band 3: Systems and Ap-
plications, Kapitel 22, Academic Press, San Diego, New York, Boston, London, Syd-
ney, Tokyo, 1999.
50. Raschke, U., Schutte, L. und Chaffin, D.B., Simulating Humans: Ergonomic Analysis in
Digital Environments, in Salvendy, G. (Ed.), Handbook of Industrial Engineering, J.
Wiley & Sons, New York, 2001.
51. Rehg, J., und Kanade, T., Visual tracking of high dof articulated structures: an applica-
tion to human hand tracking. In: European Conference on Computer Vision, S. 35-46,
1994.
52. Remlinger, W., Using RAMSIS in automotive conception and design at AUDI, RAMSIS
User Conference, Technische Universität München, Garching, 2001.
53. Ridder, Ch., Interpretation von Videobildfolgen zur Beobachtung artikularer Bewegung
von Personen anhand eines generischen 3D Objektmodells, Dissertation , Technische
Universität München, 2000.
87
54. Rohr, K., Towards Model-Based Recognition of Human Movements in Image Se-
quences, Computer Vision, Graphics and Image Processing: Image Understanding, 59
(1), S. 94-115, 1994.
55. Ryan, P.W. und Springer, W.E., Cockpit Geometry Evaluation Final Report, Vol. V,
JANAIR Report 69105, Office of Naval Research, Washington, D.C., 1969.
56. Scharr, H., Diplomarbeit, Ruprecht-Karls-Universität Heidelberg, 1996.
57. Schaub, K., Entwicklung eines modularen, rechnergestützten, dreidimensionalen man
models mit interaktiver Anpassung an die Arbeitsgestaltungsaufgabe. Schriftenreihe
Fortschrittsbericht Nr. 51, VDI-Reihe 17: Biotechnik, Düsseldorf, VDI-Verlag, 1988.
58. Schmidtke, H., Ergonomie, 3. Auflage, Hanser, München, 1993.
59. Seidl, A., Automatisierte Haltungsanalyse des Menschen, Diplomarbeit, Lehrstuhl für
Ergonomie, Technische Universität München, 1989.
60. Seidl, A., Das Menschmodell RAMSIS – Analyse, Synthese und Simulation dreidimen-
sionaler Körperhaltungen des Menschen, Dissertation, Lehrstuhl für Ergonomie, Tech-
nische Universität München, 1994.
61. Seitz, T., The optical measurement system PCMAN, Workshop on 3-D Anthropometry
and Industrial Products Design, Editor A. Coblentz, Paris, 1998.
62. Seitz, T., Balzulat, J. und Bubb, H., Anthropometry and measurement of posture and
motion, Int. J. of Industrial Ergonomics 25, 2000.
63. Seitz, T. und Bubb, H., Human model-based movement-capturing without markers for
ergonomic studies, Proceedings of the SAE Conference on Digital Human Modeling for
Design and Engineering, Washington D.C., 2001.
64. Seitz, T., PCMAN – ein Messsystem nicht nur zur Analyse von Fahrerarbeitsplätzen in
Gabelstaplern, REFA-Nachrichten, Heft 6, 2002
65. Seitz, T., Garcia-Gil, H., Stüdeli, T. und Menozzi, M., Digital image processing for the
determination of body movements in young children, Konferenzbeitrag zur Internationa-
len Frühjahrstagung der Gesellschaft für Arbeitswissenschaft, München, 2003.
66. Sperling, G., The information available in brief visual presentations, Psychological
Monographs, 74: No. 498, 1960.
67. Speyer, H., Wirsching, H.-J., Devolder, S. und van Roemdonk, R., ALERT - Motion
Capturing using a Suit, VDI/SAE International Conference on Digital Human Modeling
for Design and Engineering, VDI-Berichte Nr. 1675, München, 2002.
88
68. Taylor, F.W., The Principles of Scientific Management, Harper and Bros., New York,
1929.
69. Ullmann, S., The Interpretation of Visual Motion, The Massachusetts Institute of Tech-
nology, 1979.
70. Wachter, S. und Nagel, H.-H., Tracking Persons in Monocular Image Sequences,
Computer Vision and Image Understanding, 74 (3), S. 174-192, 1999.
71. Wachter, S., Verfolgung von Personen in monokularen Bildfolgen, Vice Versa Verlag,
Berlin, 1997.
72. Weiß, D., Entwicklung eines Systems zur Analyse menschlicher Bewegung, Diplomar-
beit, Lehrstuhl für Ergonomie, Technische Universität München, 1985.
73. Werner, C., Stabilisierung von Bewegungsanalyse mit Hilfe von Kanteninformation,
Diplomarbeit, Lehrstuhl für Ergonomie, Technische Universität München, in Vorberei-
tung.
74. Wessels, M., G., Kognitive Psychologie, Ernst Reinhardt Verlag, München, 1994.
75. Wren, C.R. und Pentland, A.P., Dynamic Models of Human Motion, In: Proceedings of
IEEE International Conference on Automatic Face and Gesture Recognition, Nara,
1998.
76. www.simi.com
77. www.vicon.com
78. Yamamoto, M. et al., Incremental Tracking of Humans in Action from Multiple Views,
In: Proceedings of the IEEE International Conference on Computer Vision and Pattern
Recognition, Santa Barbara, 1998.
79. Yamamoto, M. et al., Human Action Tracking Guided by Key-Frames, In: Proceedings
of the Fourth International Conference on Automatic Face and Gesture Recognition,
Grenoble, 2000.
80. Zauner, C., Integration of the man model RAMSIS into MBS software Simpack – model
comparison and biomechanical simulation for verification, Master Thesis, Lehrstuhl für
Ergonomie, Technische Universität München, 2002.
89
7 Anhang
Exemplarisch werden hier zwei Bewegungssequenzen dargestellt, die mit Hilfe des darge-
stellten Verfahrens gemessen wurden.
Abbildung 7.1: Beispiel Armbewegung.
90
Abbildung 7.2: Beispiel Schaltvorgang im KFZ.
91