element-vergleich latex und html -...

7
1 Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 1 5. Übersicht über Textformate HTML: Hypertext Markup Language – Standard im Web RTF: Rich Text Format (Austauschformat für WORD) – Standard im Büro LaTeX: Erweiterung zu TeX (D. Knuth) von L. Lamport – Standard für wissenschaftliche Publikationen – Homepage: http://www.latex-project.org/ Postscript: – Standard für Drucker (nicht editierbar) PDF (Portable Document Format) – Standard für Anzeige von Dokumenten im Internet Konverter: – WORD-RTF / LaTeX HTML, Postsript, PDF (integriert) – Zwischen WORD, LaTeX und anderen Textformaten, s. unter http://ftp.agh.edu.pl/pub/tex/help/wp-conv/texcnven.html Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 2 Übersicht über Texteditoren Ascii-Editoren (Winedit, Ultraedit, Textpad,“Editor“,, usw.) –Formatanweisungen müssen textuell eingegeben werden –Kein WYSIWYG (what you see is what you get) –Einrücken / farbliches Hervorheben von Strukturen sinnvoll WYSIWYG-Editoren (z.B. MS-WORD, MS-Frontpage) –Formatanweisungen durch Markierung und Menü eingeben –Formatierung sofort auf Bildschirm sichtbar –Interne Darstellung verborgen (oft ausufernd) Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 3 Textverarbeitung mit LaTex Vorteile von LaTex – Standardisierte Layouts (Definierbare Styles, automatische Formatierung) – Handhabung großer Dokumente (Dissertationen, Bücher) – Automatisches Abgleichen von Querverweisen (Bibliographie, Abbildungsreferenzen..) – Eingabe naturwissenschaftlicher Formeln (Mathematik, Physik, Chemie) – Frei verfügbar für viele Plattformen (Windows, Linux, Mac) Nachteile von LaTex – Hoher Einarbeitungsaufwand – Weniger intuitiv (kein WYSIWYG, keine direkte Manipulation) – Schwierige Handhabung von Tabellen Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 4 Element-Vergleich LaTex und HTML \begin{center} zentrierter Text \end{center} {\bf Fettgedruckt} {\sl kursivgeschrieben} <div align = „center“> zentrierter Text </div> <b> Fettgedruckt </b> <i> kursivgeschrieben </i> LaTex HTML Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 5 Beschreibung der Dokumentstruktur Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 6 Spezielle Formatvorlagen \begin{definition} [Dominating Set] Sei $G=(V,E)$ und $D \subseteq V$. Dann ist $D$ Dominating Set, wenn jeder Knoten aus $V - D$ einen Nachbarn in $D$ hat. \end{definition} \begin{itemize} \item Erster Punkt \item Zweiter Punkt \end{itemize}

Upload: others

Post on 30-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

1

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 1

5. Übersicht über Textformate

• HTML: Hypertext Markup Language– Standard im Web

• RTF: Rich Text Format (Austauschformat für WORD)– Standard im Büro

• LaTeX: Erweiterung zu TeX (D. Knuth) von L. Lamport– Standard für wissenschaftliche Publikationen– Homepage: http://www.latex-project.org/

• Postscript:– Standard für Drucker (nicht editierbar)

• PDF (Portable Document Format)– Standard für Anzeige von Dokumenten im Internet

• Konverter:– WORD-RTF / LaTeX → HTML, Postsript, PDF (integriert)– Zwischen WORD, LaTeX und anderen Textformaten, s. unter

http://ftp.agh.edu.pl/pub/tex/help/wp-conv/texcnven.html

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 2

Übersicht über Texteditoren

• Ascii-Editoren (Winedit, Ultraedit, Textpad,“Editor“,, usw.) –Formatanweisungen müssen textuell eingegeben werden–Kein WYSIWYG (what you see is what you get)–Einrücken / farbliches Hervorheben von Strukturen sinnvoll

• WYSIWYG-Editoren (z.B. MS-WORD, MS-Frontpage)–Formatanweisungen durch Markierung und Menü eingeben–Formatierung sofort auf Bildschirm sichtbar–Interne Darstellung verborgen (oft ausufernd)

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 3

Textverarbeitung mit LaTex

• Vorteile von LaTex– Standardisierte Layouts (Definierbare Styles, automatische

Formatierung)– Handhabung großer Dokumente (Dissertationen, Bücher) – Automatisches Abgleichen von Querverweisen

(Bibliographie, Abbildungsreferenzen..)– Eingabe naturwissenschaftlicher Formeln (Mathematik,

Physik, Chemie)– Frei verfügbar für viele Plattformen (Windows, Linux, Mac)

• Nachteile von LaTex– Hoher Einarbeitungsaufwand– Weniger intuitiv (kein WYSIWYG, keine direkte Manipulation)– Schwierige Handhabung von Tabellen

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 4

Element-Vergleich LaTex und HTML

\begin{center}zentrierter Text

\end{center}

{\bf Fettgedruckt}

{\sl kursivgeschrieben}

<div align = „center“>zentrierter Text

</div>

<b> Fettgedruckt </b>

<i> kursivgeschrieben </i>

LaTex HTML

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 5

Beschreibung der Dokumentstruktur

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 6

Spezielle Formatvorlagen

\begin{definition} [Dominating Set]Sei $G=(V,E)$ und $D \subseteq V$. Dann ist $D$ DominatingSet, wenn jeder Knoten aus $V - D$ einen Nachbarn in $D$ hat.

\end{definition}

\begin{itemize}\item Erster Punkt\item Zweiter Punkt

\end{itemize}

Page 2: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

2

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 7

Eingabe von Formeln

Solange $I-D \not= \emptyset$ wähle $v \in I-D$.$S_1=_{def} \{x \in D \mid (x,v) \in E\}$$S_2=_{def} \{x \in V-D\mid \exists w \in S_1 : (x,w) \in E\}$$S=_{def} S_1 \cup S_2$

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 8

Bibliographien mit BibTex

@book{goerz2000,EDITOR = "Görz G. and Rollinger C.-R and Schneeberger",TITLE = "Handbuch der Künstlichen Intelligenz",PUBLISHER = "3. Auflage",ADDRESS = "Oldenburg",YEAR = 2000,LANGUAGE = "german"}

@book{puppe1996,AUTHOR = "Puppe F. and Gappa U. and Poeck K. and Bamberger S.",TITLE = "Wissensbasierte Diagnose- und Informationssysteme",PUBLISHER = "Springer",YEAR = 1996,LANGUAGE = "german"}

Anlegen einer seperaten Bibliographie-Datei:

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 9

Zitieren aus der Bibliographie

Künstliche Intelligenz (KI) ist ein interdisziplinäresForschungsgebiet, das sich mit dem Verständnis und derAutomatisierung von intelligentem Verhalten beschäftigt. \cite{puppe1996}Ähnlich vielfältig wie der Begriff der Intelligenz sind auchdie bisherigen Ansätze, mit denen versucht wurde, menschlichesDenken zu modellieren bzw. "intelligente" Systeme zu konstruieren.

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 10

Wechseln der Styles

\bibliographystyle { gerapali }

\bibliographystyle { gerplain }

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 11

Quellen

• LaTex für Windows– Eine LaTex-Distribution für Windows

http://www.miktex.org– Editor

http://winedt.com

• Andere Quellen– Deutschsprachige Anwendervereinigung Tex

http://www.dante.de/dante/ – LaTex-Project

http://www.latex-project.org

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 12

Layout-Elemente in WORD

• Schrifttyp: Font, Größe, Effekte (Fett, Kursiv, …), Farbe (Format .. Zeichen)

• Absatz: Ausrichtung (align), Zeilenabstand, Einzug Absatz-kontrolle (Format .. Absatz)

• Rahmen (Format .. Rahmen und Schattierung)

• Aufzählungstypen (Format .. Nummerierung und Aufzählungszeichen)

• Spalten: Mehrspaltigkeit (Format .. Spalten)

• Tabellen: #Zeilen, #Spalten, -breite, Zellen verbinden, (Tabelle)

• Dokument: Breite, Höhe, (Datei .. Seite einrichten) Hintergrund-farbe (Format .. Hintergrund)

• Kopf- und Fußzeilen (Ansicht .. Kopf- und Fußzeile)

• Spezialelemente: Sonderzeichen (Einfügen .. Symbol), Fußnoten (E. .. Fußnote), Datum, SeitenNr., usw. (E. .. Feld), Link (E .. Hyperlink)

• Grafik (Einfügen .. Grafik)

Page 3: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

3

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 13

Logische Strukturierung in WORD

• Formatierungen fassen Layout-Elemen-te zu logischen Elementen zusammen.

• Erstellung von Formatierungen– Einige Formate vordefiniert (Standard,

Überschriften) – Weitere selbstdefinierbar (erst Layout-

Formatierung einer Textpassage, dann Definition als logisches Format)

• Vorteile von Formatierungen– Erleichtert einheitliche Formatierung im

ganzen Dokument– Automatisches Erstellen eines Inhalts-

verzeichnis aus markierten Überschrif-ten (Einfügen .. Feld .. TOC)

– Voraussetzung für weiterverarbeitbaren Export nach HTML

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 14

Aus WORD mit Formatvorlagen geniertes HTML (1)

<head> <meta http-equiv=Content-Type content="text/html; charset=windows-1252"><meta name=Generator content="Microsoft Word 10 (filtered)"><title>Denkende Maschinen – Künstliche Intelligenz am Beispiel der Wissens- undSprachverarbeitung</title>

<style> <!-- /* Font Definitions */ @font-face {font-family:Times; panose-1:2 2 6 3 5 4 5 2 3 4;} /* Style Definitions */

p.MsoNormal, li.MsoNormal, div.MsoNormal {margin:0cm;margin-bottom:.0001pt; text-align:justify; font-size:12.0pt;

H1 {margin-top:12.0pt; margin-right:0cm; margin-bottom:3.0pt; margin-left:0cm; text-align:center; page-break-after:avoid; font-size:16.0pt; font-family:Arial;} p.Autortyp, li.Autortyp, div.Autortyp{margin:0cm; margin-bottom:.0001pt; text-align:center; font-size:10.0pt; font-family:"Times New Roman";}

p.Aufzhlung, li.Aufzhlung, div.Aufzhlung{margin-top:0cm; margin-right:0cm; margin-bottom:0cm; margin-left:18.0pt; margin-bottom:.0001pt; text-align:justify; text-indent:-18.0pt; font-size:12.0pt; font-family:"Times New Roman";}

p.Literatur, li.Literatur, div.Literatur{margin-top:0cm; margin-right:0cm; margin-bottom:0cm; margin-left:14.2pt; margin-bottom:.0001pt; text-align:justify; text-indent:-14.2pt; font-size:10.0pt; font-family:"Times New Roman"; font-style:italic;} …

--> </style> </head>

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 15

Aus WORD mit Formatvorlagen geniertes HTML (2)<body lang=DE> <div class=Section1><h1>Denkende Maschinen – Künstliche Intelligenz am Beispiel der Wissens- und Sprachverarbeitung</h1><p class=MsoNormal>&nbsp;</p><p class=Autortyp>Frank Puppe</p> <p class=Autortyp>Universität Würzburg</p><p class=MsoNormal>&nbsp;</p><p class=MsoNormal>Künstliche Intelligenz (KI) ist ein inter-dis-zipli-näres Forschungsgebiet, das sich mit dem

Ver-ständnis und der Auto-ma-tisierung von intelligentem Verhalten beschäftigt. Ähn-lich vielfältig wie der Begriff der Intel-li-genz sind auch die bisherigen Ansätze, mit de-nen versucht wurde, menschliches Denken zu model-lieren bzw. „intelligente“ Systeme zu kon-struieren. Der am weitesten verbreitete Ansatz geht davon aus, dass im Zentrum von Intel-ligenz die Repräsentation und Verar-bei-tung von Wissen steht. Nach einer kurzen Übersicht wird im Vortrag auf zwei zentrale wissensintensive Bereiche eingegangen:</p>

<p class=Aufzhlung><span style='font-family:Symbol'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span>Bei wissensbasierten Systemen (Expertensystemen) wird Wissen über einen eingegrenzten Bereich (z.B. Medizinische Entscheidungsfindung, juristische Beratung, Fehlerdiagnose in Maschinen, Angebotserstellung usw.) formalisiert und zur Lösung häufig wiederkehrender Probleme eingesetzt. Durch das Internet können solche Beratungssysteme bequem genutzt werden.</p>

<p class=Aufzhlung><span style='font-family:Symbol'>·<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span>Sprachverarbeitende Systeme dienen u.a. der maschinellen Übersetzung oder der natürlichsprachlichenSchnittstelle von interaktiven Systemen. Sie benötigen Wissen über Wörter, Grammatik und vor allem auch über ihr Anwendungsgebiet wie z.B. Fahrplanauskunft oder Hotelreservierung. Das Hauptproblem sind die Mehrdeutigkeiten der Sprache, die oft nur mit viel Allgemeinwissen aufgelöst werden können, was noch eine schwer überwindbare Barriere ist. Derzeit sind z.B. maschinelle Übersetzungs-programme im Interne schon kostenlos verfügbar, aber ihre Qualität reicht oft nur aus, um eine grobe Übersicht über den Inhalt des Textes zu bekommen.</p> <p class=MsoNormal>&nbsp;</p>

<p class=Literatur>Görz, G., Rollinger, C.-R., und Schneeberger, J. (Hrsg.): Handbuch der Künstlichen Intelligenz, 3. Auflage, Oldenbourg, 2000.</p>

<p class=Literatur>Puppe, F. Gappa, U., Poeck, P., Bamberger, S.: Wissensbasierte Diagnose- und Informationssysteme, Springer, 1996.</p> </div></body>

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 16

Textgenerierung mit Schablonen

• Problem: Ökonomische Eingabe gleichartiger Texte • Lösungen:

–Textbausteine: vordefinierter Text, der mit einem Kürzel abgerufen und eingesetzt wird.

–Schablonen: Text mit variablen Teilen, wobei nur diese eingegeben werden und daraus der Text generiert wird

• Grad der Variabilität in Schablonen:–Kontextfreier Ersatz –Kontextsensitiver Ersatz (regelbasiert)

• Typischer Einsatz: Serienbriefe

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 17

Serienbriefe in WORD

• Hauptdokument mit festen Dokumentbestandteilen sowie Platzhaltern für variable Informationen („Seriendruckfelder“):

–Normales Dokument–Kontextfreie Platzhalter–Kontextsensitive „if .. then .. else“ – Regeln

• Datenquelle, die die variablen Informationen enthält:–Ad hoc erstellt–Aus Excel importiert (Spaltennamen der Tabellen werden

als Namen der Platzhalter übernommen)–Aus anderen Quellen importiert (Datenbanken – Access,

Adresslisten usw.)

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 18

Beispiel für SerienbriefAn {if Geschlecht = w then Frau else Herrn}«Titel» «Vorname» «Name»«Strasse»«PLZ» «Stadt»

{if Geschlecht = w then Liebe else Lieber} «Vorname»,

ich freue mich, dich am «Wann» Uhr zum «was» zu treffen. Das wird bestimmt ein toller Tag und das Wetter scheint auch mitzuspielen. Was hälst Du von einem «dann» hinterher?

Viele Grüße

An FrauDr. Claudia MarkerJuluispromenade 1197070 Würzburg

Liebe Claudia,ich freue mich, dich am Mittwoch um 15:00 Uhr zum Rad fahren zu treffen. Das wird bestimmt ein toller Tag und das Wetter scheint auch mitzuspielen. Was hälst Du von einem Radler hinterher? Viele Grüße

An HerrnAnton Huber

Hauptstr. 197218 Gerbrunn

Lieber Anton,ich freue mich, dich am Dienstag um 17:00 Uhr zum Joggen zu treffen. Daswird bestimmt ein toller Tag und dasWetter scheint auch mitzuspielen. Was hälst Du von einem Bier hinterher? Viele Grüße

Page 4: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

4

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 19

Schritte beim Erstellen von Serienbriefen mit Excel

1. Platzhalter in Excel als Tabelle definieren und ausfüllen.

2. Feste Bestandteile des Hauptdoku-mentes schreiben.

3. Extras .. Briefe und Sendungen .. Seriendruck-Assistent aktivieren.

4. Excel-Tabelle als Datenquelle (Empfänger) auswählen.

5. Seriendruckelemente auswählen und in Dokument einfügen (s. rechts).

6. „Bedingungsfelder“ (Regeln) für kontextsensitive Elemente hinzufügen.

7. Sich Vorschau ansehen & korrigieren.

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 20

7. Nützliche Hilfsmittel in Textsystemen (1)

• Silbentrennung (sprachabhängig):–Regel- oder Lexikon-basiert–manuelle Korrektur notwendig

• Rechtschreibkorrektur (sprachabhängig): –abhängig vom Lexikon (Sprache), oft erweiterungsfähig

• Grammatik-Check (sprachabhängig): –Für zunehmend mehr grammatikalische Konstrukte

(Übereinstimmung Subjekt-Verb, Advektiv-Substantiv, usw.)• Dokumentenvergleich für verteilte Texterstellung

–Buchstabenweiser Vergleich zweier Dokumente mit Färbung der Unterschiede

• Statistik: Wörter, Buchstaben etc. zählen: z.B. für Publikationen

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 21

Nützliche Hilfsmittel in Textsystemen (2)• Vorlagen für verschiedene Zwecke (z.B. Formatvorlagen)• Makros: Automatisierung wiederkehrender Prozesse• Textbausteine:

–Über Eingabe definierter Kürzel–Autovervollständigung von Texten aufgrund Anfangssequenz

(Einfügen .. Autotext) • Dynamische Elemente (Zeit, Seitenzahlen, … ): (Einfügen .. Feld)

• Inhaltsverzeichnis: Automatische Erstellung aus Überschriften; s.o.

• Index: Manuelle Markierung („Wort markieren“ → Feld .. XE .. Indexeintrag markieren; Anschau in Extras .. Optionen .. Formatierungs-zeichen .. alle); Eigentliche Indexerstellung: Feld .. Index

• Wortsynonyme, Wortübersetzungen (Kontextmenü zu markiertem Wort)

• Autokorrektur: automatische Korrektur häufiger FEhler

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 22

Ein typisches Webdokument

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 23

8. Das World Wide Web als Hyperdokument

Das World Wide Web (WWW, W3, Web) ist ein• globales (Verbreitung auf der ganzen Welt)• plattformübergreifendes (läuft auf allen Rechnertypen)• interaktives (z.B. Formulare) • dynamisches (Dokumente & Links jederzeit änderbar)• verteiltes (die Dokumente befinden sich auf versch. Rechnern) • Hypermedia-Informationssystem (Hypertext + versch. Medien) • das auf dem Internet läuft

Andere Dienste, die auf dem Internet ablaufen können:• Email • Chat• ftp (file transfer protocal zur Datenübertragung)• newsgroups (Nachrichtengruppen)• telnet (Fernbedienung eines Computers)

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 24

Das Internet

Das Internet besteht aus:• einer Vielzahl von Computern, • die direkt oder indirekt miteinander verbunden sind,• die dasselbe Übertragungsprotokoll (TCP/IP) verwenden,• auf denen dieselben Dienste angeboten bzw. genutzt werden,• einer Vielzahl von Benutzern,• einer Vielzahl weiterer Netze mit anderen Übertragungsproto-

kollen, verbunden über Gateways (Kommunikationscomputer)

Dezentraler Aufbau des Internets:• die Organisationen wie Universitäten mieten Leitungen

zwischen den Mitgliedern mit kostenlosem oder pauschal mitfinanziertem Nutzungsrecht aller Teilstrecken für alle Mitglieder

Page 5: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

5

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 25

Datenübertragung im Internet

Beim TCP/IP-Protokoll wird die Nachricht in Pakete einheitlicher Größe unterteilt, die voneinander unabhängig (d.h. auf verschie-denen Wegen zu verschiedenen Zeiten) zum Ziel kommen.• Router verteilen die Last• Gateways übersetzen Protokolle

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 26

Adressierung im Internet

• Jeder Computer (der an das Internet angeschlossen ist) benötigt eine eigene IP-Adresse

• Weltweit eindeutige Adressenvergabe notwendig, z.B.–IP-Adresse der Universität Würzburg: 132.187.x.x–IP-Adresse des Lehrstuhlservers: 132.187.103.80

• IP-Adressen können in Namen umgesetzt werden, z.B. 132.187.x.x = y.uni-wuerzburg.de

• Zuordnung von IP-Adressen zu Namen über hierarchische DNS-Server (Distributed Naming Service): „de“ (Deutschland) „uni-wuerzburg.de“ (Univ.), „informatik.uni-wuerzburg.de“ (Inf.)

• Jedes Hypertextdokument hat die Adresse des Computers (IP-Adresse oder Name) und einen Dateipfad, ist also eindeutig.

• Für (lange) Namen können Ersatznamen gewählt werden.

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 27

HTTP – Das Basisprotokoll des WWW

• HTTP: Hypertext Transfer Protocol• Baut auf TCP/IP auf• HTTP-Nachrichten bestehen aus Kopf und Rumpf

–Kopf enthält protokollspezifische Informationen (Art des Nachrichteninhalts, Herkunft der Nachricht, Anweisungen zur Verarbeitung)

–Rumpf enthält die eigentlichen Nutzerdaten• Cookies: Kleine Datenpakete, die vom Server auf den Client

geschickt werden und dort gespeichert werden–speichern vor allem Sitzungsnummern–erlauben dem Server den Client zu identifizieren (z.B.

Personalisierung der GUI, aber auch Werbezwecke)–werden automatisch jeder HTTP-Anfrage beigefügt–sollten auf bestimmte Server und Zeiten beschränkt sein

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 28

Ablauf einer Server-Client-Kommunikation

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 29

Vorgeschichte des World Wide Web

1945 Vannevar Bush stellt in einem Zeitungsartikel „As we mayThink“ eine Maschine „Memex“ (MEMory EXtender) vor: Informationen müssen nicht sequentiell gelesen werden, sondern es sind Sprünge erlaubt!

1962 Doug Engelbart startet die Entwicklung von NLS (on lineSystem), in dem Dokumente, Links und Informations-hierarchien aufgebaut werden können.

1963 Ted Nelson führt den Begriff „Hypertext“ ein. Er will alle wissenschaftlichen Publikationen über den Computer zugänglich machen.

Später: Zahlreiche Hypertextsysteme werden entwickelt (Intermedia, Zog, Notecards, Guide, HyperCard, usw.)

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 30

Geschichte des Internet

60iger Jahre Amerikanisches Verteidigungs-ministerium beschließt ein robustes Computernetz zu entwickeln, das den Ausfall einzelner Rechner verkraftet: ARPA-Netz

1969: Die ersten 4 Rechner im ARPA-Netz1971 Standardisierung des ftp-Protokolls1973/1978 Standardisierung des Datenüber-

tragungsprotokoll: TCP/IP Anfang 80iger Trennung des Netzes in militärischen

und wissenschaftlichen Teil (National Science Foundation)

Anfang 80iger Analog: Europäisches Rechnernetz

Wachstum des Internet (Anzahl Hosts):

8000089

2817487

196185

56283

21381

11177

3573

1370

469# HostsJahr

Page 6: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

6

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 31

Geschichte des World Wide Web

1989 Proposal von Tim Berners Lee (CERN): „World Wide Web: Proposal for a HyperText Project“

1990 Entwicklung des HTTP-Protocolls und von HTML sowie eines einfachen Browsers (und Editors)

1992 Einführung der URLs1993 Entwicklung des Mosaik-Browsers (später

Netscape) von Marc Andersson 1994 Gründung des WWW-Consortiums (W3C) unter

Leitung von T.B.L, da das CERN das WWW nicht länger betreuen will; Standardisierungsbestreben

1995 Einführung von Java zur Dynamisierung von HTML 3.2

1995 Erste Suchmaschinen: LYCOS und ALTAVISTA1996 Vorstellung von XML2000 Kommerzielle Nutzung (B2C, B2B)Zukunft? Semantisches WEB (T.B.L.) 3*10801

2*10800

6*10799

2*10798

1*10797

2*10596

2*10495

3*10394

1*10293

WWW-Server

Jahr

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 32

9. Funktionsweise von Suchmaschinen

Finden von Informationen im Internet:• Zugangstechniken: Suche und Browsen• Umfrage unter 1000 Leuten, die Informationen suchen:

–10 % Nur Browsen–23 % Hauptsächlich Browsen–37 % Browsen und Suchen–20 % hauptsächlich Suchen–10 % Suchen

• Vorteil Browsen: Linklisten werden meist manuell gepflegt und haben daher eine hohe Qualität, allerdings nur beschränkter Suchhorizont.

• Vorteil Suchen: Viel größere Auswahl, aber auch viel Unwichti-ges; gewisses Geschick bei Definition der Suchanfrage nötig.

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 33

Browsing-Varianten: Link-Verfolgung + Klapphierarchie

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 34

Suchmaschinen: Beispiel

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 35

Erweiterte Suche in Suchmaschinen

Boolsche Suche: AND (alle Wörter), OR (irgendein Wort), NOT (ohne)Attributsuche: sprachlich, strukturell, zeitlich, geografisch Phrasensuche: „Wordsequenzen in Hochkommata“(Wildcardsuche): ? für einzeln? Zeichen, * für beliebig viele Zeich*

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 36

Suchanfrage mit Boolschen Operatoren

Die Anfrage in Google entspricht:

"Geschichte des WWW" UND MEMEX UND ARPRA UND(Hypertext ODER Hypermedia) UND (NICHT XML)

Weitere Operatoren sind z.B. NEAR oder FAR, die sich auf die Distanz der Suchbegriffe im Dokument beziehen.

Page 7: Element-Vergleich LaTex und HTML - uni-wuerzburg.deki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/... · 2013. 4. 2. · abgerufen und eingesetzt wird. – Schablonen: Text mit

7

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 37

Aufbau eines Index für Suchmaschinen

• Aufgaben eines Web-Roboters (Web Crawlers):–Aufbau von Indizes–Überwachen von Änderungen auf Web-Seiten–intelligente Informationsbeschaffung (z.B. Preisvergleiche)

• Arbeitsweise:–WWW kann wegen Hypertextstruktur als gerichteter Graph

betrachtet werden (Dokumente = Knoten, Links zu anderen Dokumenten = gerichtete Kanten)

–Web-Roboter erkennen Links und durchlaufen sie meist gemäß Breitensuche

–Extrahieren Wörter aus den Dokumenten, die in Index eingefügt werden

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 38

Beispiel für Suchindex

• Für Dokumente werden Wortvektoren gespeichert• Suchindex (inverted file) ordnet jedem Wort das Vorkommen in

den Wortvektoren zu.• Beispiel: gegeben seien 4 Dokumente:

(1) I love you (2) love is in the air(3) love is blind (4) blind justiceDann ist der Suchindex der Art: Wort (Dokument,Wortposition)*)

–blind (3,3) (4,1)–in (2,3)–the (2,4)–I (1,1)–is (2,2) (3,2)–justice (4,2)–love (1,2) (2,1) (3,1)–you (1,3)

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 39

Generierung der Suchantworten

• Vergleich der Suchanfrage mit den Dokumentwortvekto-ren, deren Kandidatenmenge über Index ermittelt werden, und anschließendes Ranking der Treffer.

• Zusätzliches Wissen:–Synonymliste–Akronymliste–Stemming-Algorithmus (Standardi-

sierung von Wortformen)–Stoppwortliste (Entfernen sehr

häufiger Wörter, z.B. "der")–fremdsprachiges Wörterbuch–Lexikon–Thesaurus

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 40

Ausgabe der Retrievalergebnisse

• Häufigkeit (Frequency)• Position (Location)• Abstand

• Linkpopularität• Klickpopularität• Top-Level-Domain• Domain

Ranking ohne Zusatzwissen Ranking mit Zusatzwissen

Meist Einbeziehen mehrerer Kriterien bei der Berechnung des Rankingwerts

Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen 41

Umfang der Web-Seiten in Suchmaschinen