entwicklung und einsatz von lokalisierungswerkzeugen (web-tcm) informatik-, computerlinguistik-,...
TRANSCRIPT
Entwicklung und Einsatz vonLokalisierungswerkzeugen
(Web-TCM)
Informatik-, Computerlinguistik-, Fachsprachenkompetenz
Uta Seewald-Heeg
„Interdisziplinäre Zusammenarbeit in der Medieninformatik“Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz
Köthen, 22. November 2001
Entwicklung und Einsatz vonLokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
Lokalisierung
• Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten
• Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten
• Sprachliche und kulturelle Anpassung vonWeb-Seiten
Entwicklung und Einsatz vonLokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
Lokalisierungsprozess(nach Microsoft)
Kompetenzen bei derEntwicklung von Software und
Lokalisierungswerkzeugen
• Internationalisierung (I18N)• Globalisierung (G11N)
– (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten)
• Lokalisierung (L10N)
• Internationalisierung (I18N)• Globalisierung (G11N)
– (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten)
• Lokalisierung (L10N)
Internationalisierung
Bsp.: SortierroutinenBsp.: Sortierroutinen
Codierungssysteme
Codepages• Zuordnung von Byte-Werten auf Buchstaben eines
Alphabets• Byte-Werte (auch: Code-Points) sind Indizes in einer
Codepage• Bis zum Code 0x7F (127) werden Code-Points von allen
Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz)
• Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255)
Codepages• Zuordnung von Byte-Werten auf Buchstaben eines
Alphabets• Byte-Werte (auch: Code-Points) sind Indizes in einer
Codepage• Bis zum Code 0x7F (127) werden Code-Points von allen
Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz)
• Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255)
Byte String Windows Codepage 1252 Windows Codepage 1253Hex Dez (W. European) (Cyrillic)0xD6 214 Ö Ц0xFF 252 ü ь
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Печатать'Cancel = 'Прерывание'Help = 'Помощь'tryAgain = 'Новая попытка'Icon = 'Пиктограмма'inspect = 'Исследовать'
Action = 'Окно переключить'
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Печатать'Cancel = 'Прерывание'Help = 'Помощь'tryAgain = 'Новая попытка'Icon = 'Пиктограмма'inspect = 'Исследовать'
Action = 'Окно переключить'
Locales(Variablen mit sprach- bzw. marktabhängig
unterschiedlichen Werten)
• Zeichenketten• Datumsformate• Kalender, Zeitformate• Währungsformate• Maßeinheiten• Grafiken• Farben• Schreibstile• Produktverpackung
• Zeichenketten• Datumsformate• Kalender, Zeitformate• Währungsformate• Maßeinheiten• Grafiken• Farben• Schreibstile• Produktverpackung
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Drucken'Cancel = 'Abbruch'Help = 'Hilfe'tryAgain = 'Neuer Versuch'Icon = 'Ikone'inspect = 'Untersuchen'
Action = 'Fenster umschalten'
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Drucken'Cancel = 'Abbruch'Help = 'Hilfe'tryAgain = 'Neuer Versuch'Icon = 'Ikone'inspect = 'Untersuchen'
Action = 'Fenster umschalten'
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Print'Cancel = 'Cancel'Help = 'Help'tryAgain = 'Retry'Icon = 'Button'inspect = 'Inspect'Action = 'Switch Window'
encoding: #UTF_8catalog: #labelscacheSize: 113 Hardcopy = 'Print'Cancel = 'Cancel'Help = 'Help'tryAgain = 'Retry'Icon = 'Button'inspect = 'Inspect'Action = 'Switch Window'
VisualWorks 5.i
Datumsformate
22. November 200122.11.200122/11/2001
2001-11-22
11/22/2001November 22, 200122 November 2001
22/11/200122 novembre 2001
22. November 200122.11.200122/11/2001
2001-11-22
11/22/2001November 22, 200122 November 2001
22/11/200122 novembre 2001
Deutsch
EU
Amerikanisch
Französisch
Feldlängen
!
Entwicklung und Einsatz vonLokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
Kompetenz beim Einsatz von Lokalisierungswerkzeugen
MaschinelleÜbersetzungssysteme
Translation-Memory-Systeme
Programme zur Bearbeitungvon Online-Hilfen
Programme zur Lokalisierungvon Software-Quelldateien
Kompetenz beim Einsatz von Lokalisierungswerkzeugen
• Kulturkompetenz• Textsortenkompetenz• IT-Kompetenz
• Kulturkompetenz• Textsortenkompetenz• IT-Kompetenz
Kulturkompetenz
„Laufschrift“von links nach rechts laufend
„Laufschrift“von links nach rechts laufend
NavigationsleisteNavigationsleiste
DatumsangabenDatumsangaben
Textsortenkompetenz
• Textsorten– Handbücher– Online-Hilfe-Texte (i.d.R. HTML-Dateien)– Benutzerschnittstelle (Menüs, Benutzerdialoge,
Schaltflächen, Fensterinhalte, Icons)– Fehlermeldungen– Schulungsmaterial– Lizenzverträge
• Textsorteneigenschaften• Technische Realisierung, Formate
• Textsorten– Handbücher– Online-Hilfe-Texte (i.d.R. HTML-Dateien)– Benutzerschnittstelle (Menüs, Benutzerdialoge,
Schaltflächen, Fensterinhalte, Icons)– Fehlermeldungen– Schulungsmaterial– Lizenzverträge
• Textsorteneigenschaften• Technische Realisierung, Formate
BenutzerschnittstelleInterne Repräsentation von Textelementen
Menü in einem Entsprechung in der QuelldateiWindows-Programm (Resource File)
6 MENU FIXED IMPUREBEGINPOPUP "&DATEI"BEGINMENUITEM "&NEU...\tSTRG+N"MENUITEM "Ö&ffnen...\tSTRG+O"MENUITEM "S&chließen"MENUITEM SEPARATORMENUITEM "S&peichern\tSTRG+S"MENUITEM "&Speichern &unter..."MENUITEM "Als Websei&te
speichern..."MENUITEM "Pac&k & Go..."MENUITEM SEPARATORMENUITEM "&Webseitenvorschau"MENUITEM SEPARATORMENUITEM "Seite einr&ichten"
Tastenkombinationen
IT-KompetenzAufbau und Funktionsweise von
Lokalisierungswerkzeugen
PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen
PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen
Entwicklung und Einsatz vonLokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
Entwicklung desLokalisierungswerkzeugs
Web-TCM
• Web-TCM: Web Translation & Content Management • Kooperationsprojekt
– Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen)
– Firma Georg Heeg
• Web-TCM: Web Translation & Content Management • Kooperationsprojekt
– Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen)
– Firma Georg Heeg
Web-TCM
SmalltalkProgrammier-werkzeug des
Web-TCM
Web Translation& Content Management
• Web Translation– Lokalisieren, Übersetzen
• Content Management– Verwalten von Inhalten bzw. Änderungen
auf einer WWW-Seite (in einer beliebigen Sprache)
• Web Translation– Lokalisieren, Übersetzen
• Content Management– Verwalten von Inhalten bzw. Änderungen
auf einer WWW-Seite (in einer beliebigen Sprache)
Web-TCM
<!doctype ....><html><head>
<title> Fachübersetzen</title></head><body> ...<body></html>
Fachübersetzen
Extraktion derTextblöckeNummerierung derTextblöcke
Segmentierung
123....n
Deutsch
FachübersetzenEnglish
FrançaisTraduction specialisée
Русский технический перевод
HTML-Seite mitZugriffsfunktionüber die Nummernder Textblöcke
Memory
Web-TCM
Memory (TM)
Nr. DE EN FR RU
1 Sprache language langue язык
2Fachüber-
setzenTraduction spécialisée
3
.
.
n
HTML-Seite mitZugriffsfunktionüber die Nummernder Textblöcke
<!doctype ....><html><head>
<title><%=tm at: 2%></title></head><body> ...<body></html>
Sprachparameter (lang=de) in der URL
de fr
Web-TCM
<!doctype ....><html><head>
<title>Fachübersetzen</title></head><body> <h1>Fachübersetzen</h1> <body></html>
<!doctype ....><html><head>
<title>Traduction spécialisée</title></head><body> <h1>Traduction spécialisée</h1><body></html>
Fachübersetzen Traduction spécialisée
http://fue.htm?lang=deURL http://fue.htm?lang=frURL
Fachübersetzen Traduction spécialisée
Web-TCM
Workfloweinsprachig → mehrsprachig
1. HTML-Dateien bereitstellen– HTML Tidy (www.w3.org)
2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>,
kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>
Web-TCM
XHTML
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org" />
<meta http-equiv="Content-Type"
content="text/html; charset=utf-8" />
<title>Fachübersetzen</title>
</head>
...
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org" />
<meta http-equiv="Content-Type"
content="text/html; charset=utf-8" />
<title>Fachübersetzen</title>
</head>
...
Web-TCM
Workfloweinsprachig → mehrsprachig
1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)
2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>
3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-
Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM
Web-TCM
SSPSmalltalk Server Pages
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<%lang := request anyParameterValueAt: 'lang'.
tm := Heeg.Translator.TM new: lang.%>
<html>
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>
<%=tm at: 158%>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<%lang := request anyParameterValueAt: 'lang'.
tm := Heeg.Translator.TM new: lang.%>
<html>
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>
<%=tm at: 158%>
Web-TCM
Workfloweinsprachig → mehrsprachig
1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)
2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>
3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-
Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM
4. ResegmentierenWeb-TCM
Workfloweinsprachig → mehrsprachig
1. HTML-Dateien bereitstellen– HTML Tidy (www.w3w.org)
2. HTML-Dateien in XHTML-Dateien konvertieren– Jede Datei beginnt mit einer DTD– Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br>– Alle HTML-Bestandteile werden klein geschrieben.– Substitution bestimmter Tags, z.B. <b> <strong>
3. Segmentierung der HTML-Dateien– *.htm (XHTML)– XML-Parser in Smalltalk (Parse-Tree)– Segmentierer in Smalltalk (Baumtransformation, TM-Segmente)– Generierung der ssp-Dateien (*.ssp)– Ablegen der AS-Segmente (hier: deutsch) in das TM
4. Resegmentieren5. Übersetzen
– Translation Memory in allen Zielsprachen
Web-TCM
Export in kommerzielle TM-SystemeTMX-Austauschformat
<?xml version="1.0"?>
<!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd">
<tmx version="1.1">
<header
creationtool="Web-TCM"
creationtoolversion="0.55"
datatype="HTML"
o-tmf="Web-TCM"
segtype="sentence"
adminlang="en-us"
srclang="DE"
o-encoding="utf-8">
</header>
<?xml version="1.0"?>
<!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd">
<tmx version="1.1">
<header
creationtool="Web-TCM"
creationtoolversion="0.55"
datatype="HTML"
o-tmf="Web-TCM"
segtype="sentence"
adminlang="en-us"
srclang="DE"
o-encoding="utf-8">
</header>
<body><tu tuid="1"><tuv lang="de"><seg>Sprach- und Sachfachangebot</seg></tuv><tuv lang="en"><seg>Languages and application domains</seg></tuv><tuv lang="fr"><seg>Langues et disciplines spécialisées</seg></tuv><tuv lang="ru"><seg>Языка и дисциплина</seg></tuv></tu>... </body>
<body><tu tuid="1"><tuv lang="de"><seg>Sprach- und Sachfachangebot</seg></tuv><tuv lang="en"><seg>Languages and application domains</seg></tuv><tuv lang="fr"><seg>Langues et disciplines spécialisées</seg></tuv><tuv lang="ru"><seg>Языка и дисциплина</seg></tuv></tu>... </body>
Entwicklungsaufwand
• Zwei Arbeitswochen• Interaktive Weiterentwicklung während der
Nutzung
• Zwei Arbeitswochen• Interaktive Weiterentwicklung während der
Nutzung
Web-TCM
ROBUSTROBUST
Web-TCMVergleich mit kommerziellen TM-basierten
Lokalisierungswerkzeugen
• Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstütztBei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer
• Passwort-geschützter Zugang• https (http mit Verschlüsselung)• Kombiniert Translation-Memory-Technologie mit Content-
Management• Unterstützt Export in kommerzielle TM-Systeme
(TMX-Austauschformat)• Unterstützt Export statischer Web-Seiten in allen
verfügbaren Sprachen
• Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstütztBei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer
• Passwort-geschützter Zugang• https (http mit Verschlüsselung)• Kombiniert Translation-Memory-Technologie mit Content-
Management• Unterstützt Export in kommerzielle TM-Systeme
(TMX-Austauschformat)• Unterstützt Export statischer Web-Seiten in allen
verfügbaren Sprachen
Kompetenz für das Lokalisierungsprojektund den Einsatz von Web-TCM
Sprachdatenverarbeitung„Grundlagen der Lokalisierungstechnologie“
• Codierungssysteme• Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM• Dynamische Web-Seiten, HTML, XML• Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R)
– Projektorganisation• Projektmanager• Übersetzungsteams• „Proofreading”, Qualitätskontrolle
– Arbeitsschritte• Extraktion von Textelementen aus Grafiken• Vorbereitung der Terminologie• Übersetzung der Webseiten• „Proofreading“• Übergabe
• Lokalisierungswerkzeug (Web-TCM)
• Codierungssysteme• Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM• Dynamische Web-Seiten, HTML, XML• Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R)
– Projektorganisation• Projektmanager• Übersetzungsteams• „Proofreading”, Qualitätskontrolle
– Arbeitsschritte• Extraktion von Textelementen aus Grafiken• Vorbereitung der Terminologie• Übersetzung der Webseiten• „Proofreading“• Übergabe
• Lokalisierungswerkzeug (Web-TCM) SS 2001
Entwicklung und Einsatz vonLokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Softwareund Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von Softwareund Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen
4. Entwicklung des LokalisierungswerkzeugsWeb-TCM
5. Resümee
Resümee
• Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen:– Informatik– Computerlinguistik– Sprachmittlung, Fachsprachen
• Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung
• FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend
• Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen:– Informatik– Computerlinguistik– Sprachmittlung, Fachsprachen
• Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung
• FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend