番号制度へ向けた文字情報基盤の活用と実践 - ipa2014/06/13 · u+908a u+908a...
TRANSCRIPT
外字約58,000字
非漢字 659字
第四水準 2,436字
第三水準 1,259字
JIS X 0213
JIS X 0208
第二水準 3,390字
第一水準 2,965字
非漢字524字
Unicodeバージョン
制定年
文字数 詳細
1.1 1992 34,233 • JIS X 0208 と JIS X 0212 を含む Unicode のバージョン
2.0 1996 38,950
• サロゲート ペアを技術仕様として採用 (この時点では文字は未定義であり、3.1にて実装)
• ハングル文字の移動 (Unicode 1.1 と互換性消失)
• (技術仕様としては、JIS X 0213:2004 に対応)
2.1 1998 38,952 • ユーロ通貨記号追加、多少数の記号定義変更
3.0 1999 49,259 • CJK 統合漢字拡張A、漢字 6,582 文字追加
3.1 2001 94,205
• サロゲートペア 303 文字を追加• JIS X 0213:2000 一部対応、言語タグ追加• CJK 統合漢字拡張 B ブロック追加• CJK 統合漢字拡張 B、漢字 42,711文字追加
3.2 2002 95,221
• JIS X 0213:2000 および JIS X 0213:2004 に正式対応、• 異体字セレクタ 1 ~ 16 追加• (JIS X 0213:2004 の追加 10 文字は、すでに存在)• CJK 互換漢字ブロックに追加された JIS X 0213:2000 漢字の 59 文字および追加丸付き
数字 (~㊿) などの非漢字を追加
4.0.0 2003 96,447 • 異体字セレクタ 17 ~ 256 追加
5.0.0 2006 99,089• BMP(基本多言語面) 領域にバリ文字など追加• サロゲート領域にフェニキア文字など追加
6.0 2010 109,449• ISO/IEC 10646:2010• 絵文字の追加
登記固有文字10,330字
戸籍統一文字55,267字
住民基本台帳ネットワーク統一文字19,432字
無い文字は外字で対応・・・
一般に・・・
JIS、Unicodeを初め標準に含まれない字
改定常用漢字表
JIS X 0208, JIS X 0213
この他、フォントに含まれず独自に追加した字
登記統一文字 65,597字
渡 氏 の 絵 は 作 だ
渡 邉 氏 の 絵 は 傑 作 だ
渡 氏 の 絵 は 作 だ
外字
=0xE000
環境により異なる文字コード
外字
=0xE021
登録されている「邉」のバリエーションだけでも、15以上存在する。
標準 IVS
辺 辺 辺󠄂
U+8FBA U+8FBA U+E0101 U+8FBA U+E0102
邉 邉 邉󠄐 邉󠄑 邉󠄒 邉󠄓 U+9089 U+9089 U+E010F U+9089 U+E0110 U+9089 U+E0111 U+9089 U+E0112 U+9089 U+E0113
邉󠄔 邉󠄕 邉󠄖 邉󠄗 邉󠄘 U+9089 U+E0114 U+9089 U+E0115 U+9089 U+E0116 U+9089 U+E0117 U+9089 U+E0118
邉󠄙 邉󠄚 邉󠄛 邉󠄜 邉󠄝 U+9089 U+E0119 U+9089 U+E011A U+9089 U+E011B U+9089 U+E011C U+9089 U+E011D
邊 邊 邊󠄉 邊󠄊 邊󠄋 邊󠄌 U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C
邊󠄍 邊󠄎 邊󠄏 邊󠄐 U+908A U+E010D U+908A U+E010E U+908A U+E010F U+908A U+E0110
𨕙
U+28559
𫟪
U+2B7EA
様々なグリフをIdeographic Variation
Databaseとして管理、利用可能にすることで、固有のIDによりグリフの個別認識を実現
9085 邅
9086 邆
9087 邇
9088 邈
9089 邉
908A 邊
908B 邋
908C 邌
908D 邍
908E 邎
908F 邏
E010F 邉
E0110 邉󠄐
E0111 邉󠄑
E0112 邉󠄒
E0113 邉󠄓
E0113 邉󠄔
E0114 邉󠄕
E0115 邉󠄖
E0116 邉󠄗
E0117 邉󠄘
E0118 邉󠄙
U+9089 U+E0116
U+9089
渡 邉 氏 の 絵 は 傑 作 だ
E010A E0103
渡 氏 の 絵 は 作 だ
U+6E21 U+9089 U+6C0F U+306E U+7D75 U+306F U+5091 U+4F5C U+3060
U+6E21
U+9089+
U+E010A U+6C0F U+306E U+7D75 U+306F
U+5091+
U+E0103 U+4F5C U+3060
IVDIVD
=0xE010A =0xE010A標準のグリフデータベース
BMP
U+00000
U+010000U+00FFFF
U+10FFFF
Plane 0
Plane 1
U+020000U+010FFD
Plane 2
U+030000U+02FFFD
U+03FFFDPlane 3
U+0E0000
U+0EFFFDPlane 14
符号長/1文字 不足する文字への対応
シフトJIS 可変(8、16ビット) 外字
Unicode 基本多言語面 固定(16ビット)*1 外字
Unicode サロゲートペア 可変(16、32ビット)*1 外字
Unicode IVS/IVD 可変(16、32、48、64ビット)*1 国際標準
16ビット 16ビット
16ビット16ビット16ビット 16ビット
16ビット 16ビット
16ビット 16ビット
標準化完了まで符号化されない文字がある
暫定的な符号化(ユーザー定義文字としての実装が不可避)
暫定的な私的文字コードと正規コード混在期間とデータ移行の課題
相互運用性の欠如による、新たな混乱を招く危険性
フェーズ1 フェーズ2 フェーズ3 フェーズ4
Unicode IVS (Ideographic Variation Sequence)は、これまで困難であった文字入力から、メール・記録媒体による情報の伝送、受信、そして情報の表示・印刷において、常に同じ文字(字体)であることを保証できる仕組みです。また、これにより歴史的・文化的資産の電子書籍化や、電子政府システムを促進するために不可欠な人名、地名の正確な表記を、国際基準に則り、クラウドコンピューティング時代に欠くことのできない相互運用性を担保しながら実現することが可能となります。 IVS 技術の普及が始まったばかりですが、文字情報技術促進協議会は、オペレーティングシステムからアプリケーションまでの文字情報技術を促進することで、字体を含む文字情報の保全を可能にし、相互運用性の向上を実現するための技術啓発、参加企業間での相互運用性検証、事例紹介、 そして共同マーケティングまで幅広い活動を行います。
UTF-8(Unicode)