番号制度へ向けた文字情報基盤の活用と実践 - ipa2014/06/13  · u+908a u+908a...

41

Upload: others

Post on 29-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 2: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 3: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 4: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 5: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 6: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

外字約58,000字

非漢字 659字

第四水準 2,436字

第三水準 1,259字

JIS X 0213

JIS X 0208

第二水準 3,390字

第一水準 2,965字

非漢字524字

Page 7: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

Unicodeバージョン

制定年

文字数 詳細

1.1 1992 34,233 • JIS X 0208 と JIS X 0212 を含む Unicode のバージョン

2.0 1996 38,950

• サロゲート ペアを技術仕様として採用 (この時点では文字は未定義であり、3.1にて実装)

• ハングル文字の移動 (Unicode 1.1 と互換性消失)

• (技術仕様としては、JIS X 0213:2004 に対応)

2.1 1998 38,952 • ユーロ通貨記号追加、多少数の記号定義変更

3.0 1999 49,259 • CJK 統合漢字拡張A、漢字 6,582 文字追加

3.1 2001 94,205

• サロゲートペア 303 文字を追加• JIS X 0213:2000 一部対応、言語タグ追加• CJK 統合漢字拡張 B ブロック追加• CJK 統合漢字拡張 B、漢字 42,711文字追加

3.2 2002 95,221

• JIS X 0213:2000 および JIS X 0213:2004 に正式対応、• 異体字セレクタ 1 ~ 16 追加• (JIS X 0213:2004 の追加 10 文字は、すでに存在)• CJK 互換漢字ブロックに追加された JIS X 0213:2000 漢字の 59 文字および追加丸付き

数字 (~㊿) などの非漢字を追加

4.0.0 2003 96,447 • 異体字セレクタ 17 ~ 256 追加

5.0.0 2006 99,089• BMP(基本多言語面) 領域にバリ文字など追加• サロゲート領域にフェニキア文字など追加

6.0 2010 109,449• ISO/IEC 10646:2010• 絵文字の追加

Page 8: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 9: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 10: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 11: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

登記固有文字10,330字

戸籍統一文字55,267字

住民基本台帳ネットワーク統一文字19,432字

無い文字は外字で対応・・・

一般に・・・

JIS、Unicodeを初め標準に含まれない字

改定常用漢字表

JIS X 0208, JIS X 0213

この他、フォントに含まれず独自に追加した字

登記統一文字 65,597字

Page 12: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

渡 氏 の 絵 は 作 だ

渡 邉 氏 の 絵 は 傑 作 だ

渡 氏 の 絵 は 作 だ

Page 13: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 14: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

外字

=0xE000

環境により異なる文字コード

外字

=0xE021

Page 15: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 16: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 17: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

登録されている「邉」のバリエーションだけでも、15以上存在する。

標準 IVS

辺 辺 辺󠄂

U+8FBA U+8FBA U+E0101 U+8FBA U+E0102

邉 邉 邉󠄐 邉󠄑 邉󠄒 邉󠄓 U+9089 U+9089 U+E010F U+9089 U+E0110 U+9089 U+E0111 U+9089 U+E0112 U+9089 U+E0113

邉󠄔 邉󠄕 邉󠄖 邉󠄗 邉󠄘 U+9089 U+E0114 U+9089 U+E0115 U+9089 U+E0116 U+9089 U+E0117 U+9089 U+E0118

邉󠄙 邉󠄚 邉󠄛 邉󠄜 邉󠄝 U+9089 U+E0119 U+9089 U+E011A U+9089 U+E011B U+9089 U+E011C U+9089 U+E011D

邊 邊 邊󠄉 邊󠄊 邊󠄋 邊󠄌 U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C

邊󠄍 邊󠄎 邊󠄏 邊󠄐 U+908A U+E010D U+908A U+E010E U+908A U+E010F U+908A U+E0110

𨕙

U+28559

𫟪

U+2B7EA

Page 18: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

様々なグリフをIdeographic Variation

Databaseとして管理、利用可能にすることで、固有のIDによりグリフの個別認識を実現

Page 19: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

9085 邅

9086 邆

9087 邇

9088 邈

9089 邉

908A 邊

908B 邋

908C 邌

908D 邍

908E 邎

908F 邏

E010F 邉

E0110 邉󠄐

E0111 邉󠄑

E0112 邉󠄒

E0113 邉󠄓

E0113 邉󠄔

E0114 邉󠄕

E0115 邉󠄖

E0116 邉󠄗

E0117 邉󠄘

E0118 邉󠄙

U+9089 U+E0116

U+9089

Page 20: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

渡 邉 氏 の 絵 は 傑 作 だ

E010A E0103

渡 氏 の 絵 は 作 だ

U+6E21 U+9089 U+6C0F U+306E U+7D75 U+306F U+5091 U+4F5C U+3060

U+6E21

U+9089+

U+E010A U+6C0F U+306E U+7D75 U+306F

U+5091+

U+E0103 U+4F5C U+3060

Page 21: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

IVDIVD

=0xE010A =0xE010A標準のグリフデータベース

Page 22: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 23: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 24: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 25: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 26: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 27: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 28: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

BMP

U+00000

U+010000U+00FFFF

U+10FFFF

Plane 0

Plane 1

U+020000U+010FFD

Plane 2

U+030000U+02FFFD

U+03FFFDPlane 3

U+0E0000

U+0EFFFDPlane 14

Page 29: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

符号長/1文字 不足する文字への対応

シフトJIS 可変(8、16ビット) 外字

Unicode 基本多言語面 固定(16ビット)*1 外字

Unicode サロゲートペア 可変(16、32ビット)*1 外字

Unicode IVS/IVD 可変(16、32、48、64ビット)*1 国際標準

16ビット 16ビット

16ビット16ビット16ビット 16ビット

16ビット 16ビット

16ビット 16ビット

Page 30: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

標準化完了まで符号化されない文字がある

暫定的な符号化(ユーザー定義文字としての実装が不可避)

暫定的な私的文字コードと正規コード混在期間とデータ移行の課題

相互運用性の欠如による、新たな混乱を招く危険性

Page 31: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 32: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

フェーズ1 フェーズ2 フェーズ3 フェーズ4

Page 33: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 34: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 35: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

Unicode IVS (Ideographic Variation Sequence)は、これまで困難であった文字入力から、メール・記録媒体による情報の伝送、受信、そして情報の表示・印刷において、常に同じ文字(字体)であることを保証できる仕組みです。また、これにより歴史的・文化的資産の電子書籍化や、電子政府システムを促進するために不可欠な人名、地名の正確な表記を、国際基準に則り、クラウドコンピューティング時代に欠くことのできない相互運用性を担保しながら実現することが可能となります。 IVS 技術の普及が始まったばかりですが、文字情報技術促進協議会は、オペレーティングシステムからアプリケーションまでの文字情報技術を促進することで、字体を含む文字情報の保全を可能にし、相互運用性の向上を実現するための技術啓発、参加企業間での相互運用性検証、事例紹介、 そして共同マーケティングまで幅広い活動を行います。

Page 36: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A

UTF-8(Unicode)

Page 37: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 38: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 39: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 40: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A
Page 41: 番号制度へ向けた文字情報基盤の活用と実践 - IPA2014/06/13  · U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C jS jR jP jW U+908A