인코딩 발표
TRANSCRIPT
유니코드와 UTF-8
Encoding???
Encoding
ASCII
- American Standard Code for Information Interchange
- 1967년 에 표준으로 제정
- ASCII 는 2007 년 12 월까지 가장 보편적인 인코딩 이었음
EUC-KR
- 2 바이트 완성형- 완성된 음절을 코드와 일대일 대응시키는 방식 . 예를
들어 , ' 가 ' 는 0xB0A1, ' 각 ' 은 0xB0A2 로 코드화
- 2,350 자의 한글 표현 가능
- 1990 년 방영된 MBC 드라마 제목 ‘똠방각하 ' 문제
문제점
어떻게 동시에 한국어 , 중국어 , 일본어를 표현하지 ?
- 하나의 문자 집합을 사용하는 문서에서는 이를 동시에 표현할 수 없다
중복되는 코드
- 0xA4: ISO 8859-15(Latin 9) 에는 ‘€’ , ISO 8859-1(Latin 1) 에는 ‘ ¤’
유니코드
- 17 Plane
- 16 Bit code point
- 코드 포인트를 Bit 로 표현하는 인코딩 방법 : UCS-2, UTF-8, UTF-16 등이 있음
한글 완성형의 코드 포인트 범위는 U+AC00~U+D7AF 이므로 , UTF-8 인코딩에서 한글은 무조건 3 바이트 인코딩이다 .
UTF-8
UTF-8 로 변환
U+0080 코드 포인트 (16진수 )000 1000 0000 2 진수 표현
11000010 10000000 인코딩 방식에 따라 인코딩
0xC2 0x80 16 진수 변환
%C2%80 URL parameter
There Ain't No Such Thing As Plain Text
● HeaderContent-Type: text/plain; charset="UTF-8"
● Web page ‘meta’ tag<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">
참고자료
http://www.joelonsoftware.com/articles/Unicode.html
http://www.kristalinfo.com/K-Lab/unicode/Unicode_intro-kr.html
http://d2.naver.com/helloworld/76650
http://d2.naver.com/helloworld/19187
번외 - 알고리즘 대회
https://www.evernote.com/l/ANVqOmAxN3VHxad_5191-fHfvIRI53JHc1Q