thai research

23
รรรรรรรรรรรรรรรรรรรร ดด. ดดดดด ดดดดดดดดดด ดดดดด รรรรรรรรรรรรรรรรรรรรรรรร รรรรรรรรรรรรรรรรร รรรรรรรรรรรรรร รรรรรรรรรรรรรรรรร รรรรรรรรรรรรรรรรรรร

Upload: guest9563e7

Post on 29-May-2015

1.282 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Thai Research

ระบบภาษาไทยในย�น กซ์�

ดร. วิ�ร�ช ศรเลิ�ศลิ�� วิ ณิ�ชผู้��อำ�านวยการฝ่�ายว จั�ยและพั�ฒนาสาขา

สารสนเทศศ�นย�เทคโนโลย$อำ เล%กทรอำน กส�และ

คอำมพั วเตอำร�แห่)งชาต [email protected]

http://www.links.nectec.or.th/virach

for IBM at SoftwarePark 15 June 2001

Page 2: Thai Research

ย,คขอำงการพั�ฒนาระบบภาษาไทย ย,คสร�างมาตรฐาน (-1990-) ย,ค Implementation (1991-) ย,ค Solution (1996-) ย,คผู้��ใช�/ย,ครณรงค� (2001-)

Page 3: Thai Research

1. ย,คสร�างมาตรฐาน รห่�สเกษตร (เน�นการแสดงผู้ล ), IBM EBCDIC, รห่�สผู้��

ผู้ล ต รห่�สมาตรฐาน มอำก. 620-2529 และ มอำก . 620-2533

(เน�นการเร$ยงล�าด�บ) : ASCII, EBCDIC Extensions รห่�สส)วนขยายขอำงผู้��ผู้ล ต (เพั12อำการแสดงผู้ลและการพั มพั�) การก�าห่นดรห่�สภาษาไทยแบบ EUC (Extended UNIX

Code)– TIS : รห่�ส มอำก . 620-2533– X-TIS : รห่�ส 2 ไบต�เพั12อำการแสดงผู้ลแบบ cell-based

“ ”อำย�) อำ ย ย� ย)CDC2D9E8

อำ ย อำ�)CDB0C2EA

TIS X-TIS

EA = B0 (base) + 38 (อำ�) + 02 (อำ))

Page 4: Thai Research

1. ย,คสร�างมาตรฐาน การก�าห่นดเป็4นมาตรฐานสากล

– ISO-IR-166– Unicode & ISO/IEC 10646– ISO/IEC 8859-11

ข�อำก�าห่นด วทท 2.0 (Thai API Consortium)– Character set (TACTIS)– Input/Output Method

มาตรฐานอำ12นๆ เช)น แป็6นพั มพั� ร�ป็แบบ ว�นท$2 ฯลฯ

Page 5: Thai Research

1. ย,คสร�างมาตรฐาน มาตรฐานขอำงผู้��ผู้ล ต

– IBM CP838 (รห่�สเกษตร)– IBM CP874 (รห่�ส มอำก . + ส)วนขยาย)– Microsoft Windows-874 (รห่�ส มอำก . +

ส)วนขยาย)– Mac Thai (รห่�ส มอำก . + ส)วนขยาย)

Page 6: Thai Research

2. ย,ค Implementation

X Consortium : ภาษาไทยใน X11R6 Sun : Thai Solaris (วทท 2.0) , ภาษาไทยใน CTL/Motif

(With OSF), ภาษาไทยใน Pango Engine DEC : วทท 2.0 ใน Digital UNIX IBM : ระบบภาษาไทยใน AIX, OS/2, codepage ภาษา

ไทย Microsoft : codepage ภาษาไทย , ฟอำนต�ส)วนขยาย ,

Unicode ใน Office 97 และ Windows 2000 MacIntosh : codepage ภาษาไทย , ฟอำนต�ส)วนขยาย ,

การสน�บสน,นภาษาไทย

Page 7: Thai Research

2. ย,ค Implementation

NECTEC :– tterm : เทอำร�ม น�ลไทย ด�ดแป็ลงจัาก kterm

โดยใช� X-TIS620 การสร�าง X bitmap font

– มานพั , วรเดช , ไพัศาล ฯลฯ

Page 8: Thai Research

2. ย,ค Implementation

Thai Project ท$2 NACSIS (ว,ฒ ช�ย):– cttex : โป็รแกรมต�ดค�าและจั�ดเร$ยงวรรณย,กต�ส�าห่ร�บ

LaTeX– thailatex-component : style, font ส�าห่ร�บ

LaTeX– likit : editor ภาษาไทย– xiterm+thai : เทอำร�ม น�ลภาษาไทยท$2ม$ keyboard

map ในต�ว แสดงผู้ลภาษาไทย 4 ระด�บ ด�ดแป็ลงจัาก xiterm ขอำง AfterStep

– http://thaigate.nacsis.ac.jp/

Page 9: Thai Research

2. ย,ค Implementation

ZzzThai (พั�ลลาภ):– TE (Thai Extension)– xfig-thai – RPM packages– Thai HOWTO– http://www.fedu.uec.ac.jp/ZzzThai/

Linux/

Page 10: Thai Research

2. ย,ค Implementation

โครงการ Mozilla Thai Enabling (ส�มพั�นธ์� ) :– การสน�บสน,นรห่�ส MIME TIS-620– การต�ดค�าภาษาไทย– libInThai

Page 11: Thai Research

2. ย,ค Implementation

NECTEC :– ภาษาไทยใน Mule/GNU Emacs

• quail keyboard map ภาษาไทย• การ render ด�วยรห่�ส 2 ไบต� (Language Char

[LC] + มอำก.)• Mule ผู้นวกก�บ GNU Emacs ต�:งแต)ร, )น 20.1

(1997)• Emacs 20.3.10.1 -• ฟอำนต�ให่ม) (nectec18)• การตรวจั/แก�ล�าด�บการป็6อำนอำ�กขระภาษาไทย• การต�ดค�า• พัจันาน,กรม (Lexitron, ราชบ�ณฑิ ตยสถาน)

Page 12: Thai Research

2. ย,ค Implementation

NECTEC :– ภาษาไทยใน Xemacs

• Xemacs : Emacs ส�าห่ร�บ X Window โดย Sun• การ render ภาษาไทยด�วย pre-composed font

(X-TIS620)• ใช�ภาษาไทยได�ต�:งแต)ร, )น 21.2

Page 13: Thai Research

2. ย,ค Implementation

NECTEC :– Babel-based Thai LaTeX

• Babel: การสน�บสน,นภาษาท�อำงถ 2นส�าห่ร�บ LaTeX โดยJohannes Braams

• กฎส�าห่ร�บการจั�ดเร$ยงวรรณย,กต�ด�วย TeX virtual font(.enc -> .vf)

• LaTeX style ส�าห่ร�บ Babel package (.sty)• การเล1อำก roman, san serif type face• ต�ดค�าด�วย swath โดยใช�เป็4น external filter• ย�งไม)ได�รวมใน Babel แต)แจักจั)ายเป็4น package ต)างห่าก

Page 14: Thai Research

2. ย,ค Implementation

NECTEC :– ภาษาไทยใน Omega

• Unicode TeX kernel โดย John Plaice, Yannis Haralambus

• การจั�ดเร$ยงวรรณย,กต�ด�วย TeX virtual font• ต�ดค�าด�วย swath โดยใช�เป็4น external filter• Kerning ส�าห่ร�บภาษาไทย• ฟอำนต� Norasi• Omega ย�งไม)แจักจั)าย

Page 15: Thai Research

2. ย,ค Implementation

NECTEC :– ฟอำนต�แห่)งชาต

• โดย NECTEC ร)วมก�บน�กพั�ฒนาฟอำนต�• ข�อำก�าห่นดส�าห่ร�บการสร�างฟอำนต�ไทย : ร�ป็ร)าง ขนาด

ส�ดส)วน• ฟอำนต�ต�วอำย)าง

– ฟช ๑ : ฟอำนต�ก นร$ : Roman Style– ฟช ๒ : ฟอำนต�คร,ฑิ : San Serif Style– ฟช ๓ : ฟอำนต�นรส$ห่� : จัากโครงการ Omega (Roman Style)

• ห่น�งส1อำค�)ม1อำการสร�างฟอำนต�

Page 16: Thai Research

2. ย,ค Implementation

NECTEC :– โลแคลไทย ใน GNU C Library

• การใช�รห่�สอำ�กขระท�อำงถ 2น : TIS-620• LC_COLLATE : ข�อำก�าห่นดการเร$ยงล�าด�บค�าไทยอำย)าง

ละเอำ$ยด• LC_CTYPE : การจั�ดการอำ�กขระไทย• LC_TIME : ป็ฏิ ท นไทย + พั,ทธ์ศ�กราช• LC_MONETARY : ห่น)วยเง นบาท , การแสดงผู้ลค)าเง น• LC_NUMERIC : ร�ป็แบบการเข$ยนต�วเลข• เร 2มใช� th_TH.TIS-620 locale ได�ต�:งแต) glibc 2.1.1

Page 17: Thai Research

2. ย,ค Implementation

NECTEC :– Thai Translation Project

• การแป็ลข�อำความในโป็รแกรมต)างๆ เป็4นภาษาไทย• GNOME Thai translation• Sourceforge.net Thai translation• การพั�ฒนาโป็รแกรมช)วยเก%บป็ระว�ต การแป็ลในงานเก)าๆ

เพั12อำการแป็ลท$2คงเส�นคงวา• ระบบการแป็ลผู้)านเว%บเพั12อำการร)วมงานแป็ลผู้)านเคร1อำ

ข)าย

Page 18: Thai Research

2. ย,ค Implementation

NECTEC :– SWATH (Smart Word Analysis for

THai)• ต�ดค�าโดยอำาศ�ยพัจันาน,กรม (longest matching,

maximal matching, or bi-gram model)• สน�บสน,น plain text (TIS-620, UTF-8), LaTeX,

HTML, RTF• แจักจั)ายเป็4น package อำ สระ

Page 19: Thai Research

2. ย,ค Implementation

NECTEC :– ภาษาไทยใน OpenOffice

• OpenOffice : Open-source StarOffice จัาก Sun• การต�ดค�าไทยด�วยพัจันาน,กรม• งานในอำนาคต

– การเร$ยงล�าด�บค�าไทย

ไกว�ลซ์อำฟต�แวร� :– KDE ไทย– K Office ไทย

Page 20: Thai Research

3. ย,ค Solution

ไกว�ลซ์อำฟต�แวร� : KW Linux : RedHat based ม . บ�รพัา : Burapa Linux : Slackware based NECTEC : Linux-SIS : Slackware, RedHat - NECTEC/TLWG : Linux TLE : Mandrake,

RedHat Zion Interface : ZiiF Linux : RedHat

Debian GNU/Linux : ม$ package ภาษาไทยแล�ว (cttex, font, xiterm+thai, thai-latex)

Page 21: Thai Research

4. ย,คผู้��ใช�/ย,ครณรงค� TLUG :

– สน�บสน,นผู้��ใช�ล น,กซ์�– http://tlug.cpe.ku.ac.th/

TLWG :– พั�ฒนาระบบภาษาไทยในล น,กซ์�– เว%บบอำร�ดให่�ค�าป็รCกษา– ข)าว– http://www.linux.thai.net/

Page 22: Thai Research

4. ย,คผู้��ใช�/ย,ครณรงค� NECTEC :

– Open Source section ในการป็ระกวดซ์อำฟต�แวร�ขนาดเล%ก

– Linux Installation Contest (LinuxSIS, LinuxTLE)

Software Park :– การจั�ด/สน�บสน,นงานส�มมนา– การต�:ง Special Interest Group

Page 23: Thai Research

Future Issues tis620-0 (มอำก.), tis620-1 (Mac), tis620-2

(Windows) Propotional, Monospace, CharCell

XIM: (callback ส�าห่ร�บการจั�ดการ input buffer) Space char ท�ายบรรท�ดส�าห่ร�บ Markup

language การใช� ZWSP High quality printout