한중일 통합 한자

유니코드
부호화 형식 UTF-7 UTF-8 CESU-8 UTF-16 UTF-32 UTF-EBCDIC SCSU 퓨니코드 GB18030
UCS
양방향 텍스트
BOM
한중일 통합 한자
유니코드 범위 목록
유니코드 등가성
유니코드와 HTML
유니코드와 전자 우편
유니코드 글꼴
v • d • e • h

한중일 통합 한자(韓中日統合漢字, CJK Unified Ideographs)는 유니코드에 담겨 있는 한자들의 집합으로, 현재 총 98,190개이며 한국, 중국, 일본에서 쓰이는 한자를 묶은 것이기 때문에 머리 글자를 따서 한중일 통합 한자라고 불린다. 최근에는 베트남에서 쓰이는 한자도 추가되었기에 한중일월 통합 한자(韓中日越統合漢字, CJKV)라고 부르기도 한다. 그러나 20세기 들어서 베트남의 한자는 라틴문자로 대체되었기 때문에 거의 쓰이지 않는다.

처음에 유니코드에는 65,536(=2¹⁶)자만 들어갈 수 있었기 때문에, 가장 많은 문자가 배당되는 한자를 위해서 한국, 중국, 일본에서 사용하는 한자 중에 모양이 유사하며 그 뜻이 같은 글자를 같은 코드로 통합했다. 따라서 문자 코드만으로 그 한자가 사용되는 언어를 알아 낼 수 없는데, 다만 중국의 간체자나 번체자, 일본의 구자체나 신자체 등 분명하게 모양이 다른 글자는 별도의 부호를 할당하고 있다. 이런 문자 할당 정책에 반발하여 TRON과 같은 인코딩이 만들어지기도 했으나, 실제로 통합된 한자의 차이가 별로 크지 않기 때문에 문제가 되지 않는다는 의견도 있다.

한중일 통합 한자 영역[편집]

한중일 통합 한자[편집]

한중일 통합 한자 영역(4E00–9FFF)에는 U+4E00부터 U+9FD5까지 20,950개의 한자가 수록되었다.

목록[편집]

4E00-62FF, 6300-77FF, 7800-8CFF, 8D00-9FFF.

출처[편집]

Country or region	Code	Standard	Character count	Total
중화인민공화국	G0	GB 2312-80	6763	20913
	G1	GB 12345-90	2202
	G3	GB 7589-87 traditional form	4834
	G5	GB 7590-87 traditional form	2841
	G7	Modern Chinese general character chart	42
	G8	GB8565-88	290
	G9	GB18030-2000	8
	GE	GB16500-95	3779
	GH	GB/T 15564-1995	59
	GHZ	Hanyu Da Zidian	1
	GK	GB 12052-89	89
	GKX	Kangxi Dictionary	2
	GFC	Modern Chinese Standard Dictionary (现代汉语规范词典)	2
	GGFZ	General Chinese Standard Dictionary (通用规范汉字字典)	1
홍콩	H	Hong Kong Supplementary Character Set	2292	15353
	HB0	Computer Chinese Glyph and Character Code Mapping Table, Technical Report C-26 (電腦用中文字型與字碼對照表, 技術通報C-26)	10
	HB1	Big-5, Level 1	5401
	HB2	Big-5, Level 2	7650
일본	J0	JIS X 0208-1990	6356	12563
	J1	JIS X 0212-1990	3058
	J3	JIS X 0213-2004 Level 3	1132
	J3A	JIS X 0213-2004 Level 3 addendum	9
	J4	JIS X 0213-2004 Level 4	2005
	JARIB	ARIB STD-B24	3
대한민국	K0	KS C 5601-87 (now KS X 1001:2004)	4620	15390
	K1	KS C 5657-91 (now KS X 1002:2001)	2855
	K2	PKS C 5700-1:1994	7911
	K4	PKS 5700-3:1998	4
중화민국	T1	CNS 11643-1992 plane 1	5413	18370
	T2	CNS 11643-1992 plane 2	7650
	T3	CNS 11643-1992 plane 3	4144
	T4	CNS 11643-1992 plane 4	894
	T5	CNS 11643-1992 plane 5	63
	T6	CNS 11643-1992 plane 6	31
	T7	CNS 11643-1992 plane 7	16
	TC	CNS 11643-1992 plane 12	1
	TF	CNS 11643-1992 plane 15	158
베트남	V0	TCVN 5773-1993	593	4757
	V1	TCVN 6056-1995	3310
	V2	VHN 01-1998	763
	V3	VHN 02-1998	91
Unicode UTC	UTC	UTC sources	13	13

유니코드 4.1에서, HKSCS-2004 한자 14개 와 GB 18030 한자 8개가 U+9FA6과 U+9FBB 사이에 추가되었다.

한중일 통합 한자 확장 A[편집]

유니코드 3.0(1999)에서 한중일 통합 한자 확장 A(3400–4DBF)에는 U+3400부터 U+4DB5까지 6,582개의 한자가 수록되었다.

목록[편집]

3400-4DBF.

출처[편집]

중화인민공화국

코드	기준
GE	GB 16500-95
GS	Singapore CJK ideographs

중화민국

코드	기준	비고
T3	CNS 11643-1992 plane 3
T4	CNS 11643-1992 plane 4
T5	CNS 11643-1992 plane 5
T6	CNS 11643-1992 plane 6
T7	CNS 11643-1992 plane 7
TF	CNS 11643-1992 plane 15

일본

코드	기준	비고
JA	Unified Japanese IT Vendors Contemporary Ideographs, 1993

대한민국

코드	기준	비고
K3	PKS C 5700-2:1994(현 KS X 1027-2:2011)
K4	PKS 5700-3:1998(현 KS X 1027-3:2011)

베트남

코드	기준	비고
V0	TCVN 5773:1993
V1	TCVN 6056:1995

한중일 통합 한자 확장 B[편집]

유니코드 3.1(2001)에서 한중일 통합 한자 확장 B(20000–2A6DF)에는 U+20000부터 U+2A6D6까지 42,711개의 한자가 수록되었다.

목록[편집]

20000-215FF, 21600-230FF, 23100-245FF, 24600-260FF, 26100-275FF, 27600-290FF, 29100-2A6DF.

출처[편집]

강희자전
한어대자전
사원
사해
한어대사전
중국대백과전서
베이징 대학 Founder DTP
사고전서
HKSCS
JIS X 0213 제3수준한자와 제4수준한자
PKS 5700-3:1998(현 KS X 1027-3:2011), Korean IRG Hanja Character Set 5th Edition: 2001(현 KS X 1027-4:2011)
KPS 9566-97, KPS 10721-2000
CNS 11643 planes 4-7, 15
TCVN, VHN 01:1998, VHN 02:1998

한중일 통합 한자 확장 C[편집]

유니코드 5.2(2009)에서 한중일 통합 한자 확장 C 영역(2A700–2B73F)에는 U+2A700부터 U+2B734까지 4,149개의 한자가 수록되었다.

목록[편집]

2A700-2B73F.

출처[편집]

중국

일본

Japanese KOKUJI Collection

대한민국

Korean IRG Hanja Character Set 5th Edition: 2001 (KS X 1027-4:2011)

조선민주주의인민공화국

KPS 10721:2003

베트남

쯔놈 사전 (喃字典), Nguyễn Quang Hồng, 2006
Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994

기타

Unicode UTC
ABC Chinese-English Dictionary, John DeFrancis (德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
The Church of Jesus Christ of Latter-day Saints Hong Kong division
Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
광운
Chinese bird system index (中國鳥類系統檢索), Zheng Zhuoxin (鄭作新), et al. (2000), Beijing, 科學出版社 (www.sciencep.com)
Annotated Shuowen Jiezi, Duan Yucai

한중일 통합 한자 확장 D[편집]

유니코드 6.0(2010)에서 한중일 통합 한자 확장 D 영역(2B740–2B81F)에는 U+2B740부터 U+2B81D까지 222개의 한자가 수록되었다.

목록[편집]

2B740-2B81F.

출처[편집]

사해
중화인민공화국공안부 신분증
현대한어자전
중화자해
통용전자정보교환환경정비계획
Adobe-Japan1-5와Adobe-CNS1-5자체속의 이체자

한중일 통합 한자 확장 E[편집]

유니코드 8.0(2015)에서 한중일 통합 한자 확장 E 영역(2B820-2CEAF)에는 U+2B820부터 U+2CEAF까지 5762개의 한자가 수록되었다.

목록[편집]

2B820-2CEAF.

출처[편집]

중화대백과전서
사해
사원
중국측회과학원
지질출판사
고대한어사전
한어대사전
중화인민공화국공안부 신분증
상무인서
강희자전
인민일보
한어대사전출판사
현대한어사전
신화자전
한어방언대사전
은주금문집성
CNS 11643-1992
일본국자
마카오자문위원회
각 수집 미수록 한자
쯔놈 사전

한중일 통합 한자 확장 F[편집]

유니코드 10.0(2017)에서 한중일 통합 한자 확장 F 영역(2CEB0-2EBE0)에는 U+2CEB0부터 U+2EBE0까지 7473개의 한자가 수록되었다.

목록[편집]

2CEB0-2EBE0.

출처[편집]

사원
현대한어규범사전
공안부신분증
장족요가연구
옥스포드 영한한사전
신화대사전
고장자자전
은주금문집성
일본문자메세지기초공정
한국 역사 정보 통합 시스템
마카오자문위원회
대장경연구팀
각 수집 미수록 한자

한중일 통합 한자 확장 G[편집]

유니코드 13.0(2020)에서 한중일 통합 한자 확장 G 영역(30000-3134F)에는 U30000부터 U3134F까지 4,939개의 한자가 수록되었다.

목록[편집]

30000-3134F.

출처[편집]

한어대사전
장족요가연구
고장자자전
한국 역사 정보 통합 시스템
CNS 11643
IRG N2107R2
대장경연구팀
각 수집 미수록 한자

한중일 통합 한자 확장 H[편집]

유니코드 15.0(2022)에서 한중일 통합 한자 확장 H 영역(31350–323AF)에는 U31350부터 U323AF까지 4192개의 한자가 수록되었다.

목록[편집]

31350–323AF.

한중일 통합 한자 확장 I[편집]

유니코드 15.1(2023)에서 한중일 통합 한자 확장 I 영역(2EBF0–2EE5F)에는 U2EBF0부터 U2EE5F까지 622개의 한자가 수록되었다.

목록[편집]

2EBF0–2EE5F.

한중일 호환용 한자[편집]

한중일 호환용 한자 영역(F900–FAFF)에는 오직 12개의 한중일 통합 한자가 존재하며 나머지는 통합 한자와 관련이 없다.

목록[편집]

한중일 호환용 한자(F900-FAFF)
한중일 호환용 한자 보충(2F800-2FA1F)

유니코드 버전 이력[편집]

유니코드 버전별 한중일 통합 한자
유니코드 버전	내용	위치	개수	누계
1.0	한중일 통합 한자	기본 다국어 평면(BMP, U+4E00부터 U+9FA5)	20,902	20,902
1.0	한중일 호환용 한자에 있지만 실제로는 중복되지 않는 한자	기본 다국어 평면	12	20,914
3.0	한중일 통합 한자 확장 A	기본 다국어 평면(U+3400부터 U+4DB5)	6,582	27,496
3.1	한중일 통합 한자 확장 B	보조 상형 문자 평면(SIP, U+20000부터 U+2A6D6)	42,711	70,207
4.1	HKSCS-2004와 GB 18030-2000에 없었던 ISO 10646 한자	기본 다국어 평면(HKSCS에서: U+9FA6부터 U+9FB3, GB 18030에서: U+9FB4부터 U+9FBB)	22	70,229
5.1	일본 한자(U+9FBC~U+9FC2), U+4039의 분리(U+9FC3)	기본 다국어 평면	8	70,237
5.2	한중일 통합 한자 확장 C	보조 상형 문자 평면(SIP, U+2A700부터 U+2B734)	4,149	74,386
6.0	한중일 통합 한자 확장 D	보조 상형 문자 평면(SIP, U+2B740부터 U+2B81F)	222	74,616
8.0	한중일 통합 한자 확장 E, 한중일 통합 한자 9가지	보조 상형 문자 평면(SIP, U+2B820부터 U+2CEAF), 기본 다국어 평면(BMP, U+9FCD부터 U+9FD5까지)	5,780	80,397
6.1	한중일 통합 한자 1가지	기본 다국어 평면	1	74,617
10.0	한중일 통합 한자 확장 F, 한중일 통합 한자 21가지	보조 상형 문자 평면(SIP, U+2CEB0부터 U+2EBE0), 기본 다국어 평면(BMP, (U+9FD6부터 U+9FEA까지)	7,484	87,882
11.0	한중일 통합 한자 5가지	기본 다국어 평면(BMP, U+9FEB부터 U+9FEF까지)	5	87,887
13.0	한중일 통합 한자 확장 G, 한중일 통합 한자 13가지, 한중일 통합 한자 확장 A 10가지, 한중일 통합 한자 확장 B 7가지	상형 문자 제3 평면(TIP, U+30000부터 U+3134F까지), 기본 다국어 평면(BMP, U+9FF0부터 U+9FFB까지), 기본 다국어 평면(U+4DB6부터 U+4DC6까지), 보조 상형 문자 평면(SIP, U+2A6D7부터 U+2A6DD까지)	4,969	92,856
14.0	한중일 통합 한자 3가지, 한중일 통합 한자 확장 B 2가지, 한중일 통합 한자 확장 C 4가지	기본 다국어 평면(BMP, U+9FFC부터 U+9FFF까지), 보조 상형 문자 평면(SIP, U+2A6DE부터 U+2A6DF까지), 보조 상형 문자 평면(SIP, U+2B735부터 U+2B738)	9	92,865
15.0	한중일 통합 한자 확장 H, 한중일 통합 한자 확장 C 1가지	상형 문자 제3 평면(TIP, U+31350부터 U+323AF까지), 보조 상형 문자 평면(SIP, U+2B739)	4,193	97,058
15.1	한중일 통합 한자 확장 I	보조 상형 문자 평면(SIP, U+2EBF0부터 U+2EE5F까지)	622	98,190

알려진 문제[편집]

U+4039 문자[편집]

유니코드 버전 5.0까지, U+4039(䀹)에는 서로 다른 두 한자인 夾(협)이 들어간 한자와 㚒(섬)이 들어간 한자가 통합되어 있었다. 그러나 두 글자는 훈과 음이 모두 다른 한자로 사실 통합되어서는 안 될 한자였다.

U+4039의 분리 제안^[1]이 받아들여져서 유니코드 5.1에서 U+9FC3 (鿃)으로 새로 분리되었다.

여전히 두 글자가 분리된 이후에도, MS 한글 IME에서는 U+4039를 U+9FC3의 음인 "섬"과 한자 키를 사용해야 입력할 수 있다.

확장 B 한자 영역의 같은 모양의 글자[편집]

확장 한자 B 영역에는 수백 개의 이체자가 수록되어 있다.^[2] 그 중 일부는 자형이 완전히, 또는 거의 일치하는 글자로, 유니코드 글자 수록 과정에서의 실수 등으로 인해 중복으로 수록되었다.^[3] 아래는 자형이 일치하는 한자의 목록이다.

U+34A8 㒨 = U+20457 𠑗 : U+20457는 중국(간체권) 한자 U+34A8와 같음, 그러나 중국(번체권)의 글자 U+34A8와는 모양이 약간 다름.
U+3DB7 㶷 = U+2420E 𤈎 : 모양이 같은 한자
U+8641 虁 = U+27144 𧅄 : U+27144는 한국 한자 U+8641와 같음, 그러나 일본, 중국(간체권, 번체권)의 글자 U+8641와는 모양이 약간 다름.
U+204F2 𠓲 = U+23515 𣔕 : 모양이 같은 한자, 그러나 부수가 다름.
U+249BC 𤦼 = U+249E9 𤧩 : 모양이 같은 한자
U+24BD2 𤯒 = U+2A415 𪐕 : 모양이 같은 한자, 그러나 부수가 다름.
U+26842 𦡂 = U+26866 𦡦 : 모양이 같은 한자
U+FA23 﨣 = U+27EAF 𧺯 : 모양이 같은 한자 (U+FA23 﨣 cjk compatibility ideograph-fa23은 한중일 호환용 한자로 분류되어 있으나 실제로는 통합 한자임.)

같이 보기[편집]

한중일 호환용 한자

각주[편집]

↑ Andrew West and John Jenkins, proposal of disunification of U+4039
↑ “unifiable glyph variants” (PDF). 2006년 5월 15일에 원본 문서 (PDF)에서 보존된 문서. 2017년 4월 7일에 확인함.
↑ Cook, Richard (2003년 10월 6일). “Defect Report on Duplicate Encoded CJK Forms” (PDF). ISO/IEC JTC1/SC2/WG2. 2012년 3월 28일에 확인함.

외부 링크[편집]

[1] Andrew West and John Jenkins, proposal of disunification of U+4039

[2] “unifiable glyph variants” (PDF). 2006년 5월 15일에 원본 문서 (PDF)에서 보존된 문서. 2017년 4월 7일에 확인함.

[3] Cook, Richard (2003년 10월 6일). “Defect Report on Duplicate Encoded CJK Forms” (PDF). ISO/IEC JTC1/SC2/WG2. 2012년 3월 28일에 확인함.

[1]

[2]

[3]