유니한 데이터베이스

위키백과, 우리 모두의 백과사전.

유니한 데이터베이스 (Unicode Han Database, Unihan Database)는 유니코드 컨소시엄에서 정기적으로 업데이트하는 한자 데이터베이스이다. 유니한 데이터베이스에서는, 유니코드의 투고자가 CJK 문자의 특성을 보존한다.

유니한 데이터베이스의 내용, 스키마 등은 유니코드 표준 부속서 UAX # 38에 설명되어있다.[1] .

한자 통합 여부의 결정 절차는 "부속서 S"의 ISO/IEC 10646 :2010에 설명되어 있다.

유니한에서는 한자의 의미를 정의하고 있는 것은 아니고, 글자의 형상이 'X는 Y와 동등'하다라고 설명하고 있다. 예를 들어, 'U+4E00 '는 GB/T 2312-1980의 0x523B、CNS 11643의 0x14421, JIS X 0208의 0x306C등과 동등하다고 정의하고 있다.[1]:제1장

배열[편집]

CJK 문자는 원칙적으로 등록될 때마다 부수획수에 따라 배열되어 있다. 단, 일부 혼란이 있을뿐만 아니라, 한자의 추가가 잇따르고 있어 검색이 어려워지고 있어, 유니한 데이터베이스에서는 할당된 유니코드 값과 부수 번호, 부수별 획수에서 도출되는 값을 소트 키로 규격화하고 있다.

유사한 한자의 통합[편집]

한자에는 '형태・소리・의미'의 3가지 측면이 있다고 한다. 한중일 통합 한자(CJK 통합 한자)에서는 중국·대만·일본·한국의 한자 코드표의 한자 중에서 유래가 동일하고, 자형이 동일하거나 유사한 한자를 일정한 기준에 의하여 통합하기로 했다. 통합 기준에 대해서는 ISO/IEC 10646 부록 S에 자세히 설명되어 있다. 유래가 동일해도 국가·지역에 따라 한자의 의미나 발음이 크게 변화하고 있기 때문에, 현대 각국가 사이에서도 소리와 의미가 동일하다고는 할 수 없다. 이 때문에 CJK 통합한자에서는 일본의 '机'(つくえ, 책상)와 중국의 ''(機의 간체자)가 통일되어 있거나, 현대의 일본어와 중국어에서 의미가 크게 다르게 된 '届'등의 한자에도 동일한 코드가 할당되어 있다( en:Han unification[2] ).

CJK 통합 한자는 글자 모양이 동일하지 않더라도 "동일한 추상 자형(抽象字形)을 가지는 한자"도 통합하기로 결정했다. 동일하게 되는 추상자형에는 '為'와 '爲', '単'과 '' 등이 있다. 그 결과, '僧'과 '', '廐'와 '', ''과 ''등도 동일한 코드로 되어서, 코드만으로는 자형이나 획수를 명확하게 정하는 것이 곤란하게 되었다.

원규격 분리규칙[편집]

중국·대만·일본·한국의 국내규격과 UCS 사이에서 왕복변환을 실현하기 위해 통합한자의 최초 URO 20,902자에 한하여 중국·대만·일본·한국의 국내규격에서 구별되어 있는 한자는 CJK 통합한자에서도 반드시 분리하기로 했다. 예를 들면 JIS의 오류에 의하여 별도로 부호화되고 있던 '飲'과 '飮'는 통합 한자에서도 역시 분리되어 있고( 다른 한자로 '飠'과 '𩙿'의 차이만 있는 한자는 모두 통합되어 있다), 또 ''과 '', ''과 '' 등의 한자는 통합되어 있는 반면에, ''과 ''이나 ''과 ''는 대만의 CNS규격(중국어판) CNS 11643 에서 구별되어 있다는 이유에 의해서 별도로 코드화 되어 있다.

통합의 모순[편집]

CJK 통합한자는 위와 같은 '통합원칙' 및 '원규격 분리규칙'을 정했음에도 불구하고, 이들에 적합하지 않은 통합·분리의 사례를 몇 개 가지고 있다.

일례를 꼽으면, '戋'와 '㦮'는 통합 원칙에서는 통합하는 것으로 되어 있고, 구체적으로 예를 들면 ''과 '', ''과 '', ''과 ''은 통합 한자에서는 동일한 코드로 되어 있다. 그런데 왠지 '桟'와 '栈'는 중국·대만·일본·한국의 어느 국내 규격에서도 구별되어 있지 않는데,[3] 통합한자에서는 U+685F와 U+6808로 분리되어 있다.[3]

CNS 11643:1992 표준과의 비호환성[편집]

URO의 제정 작업 직전에 대만에서는 CNS 11643 : 1992 규격으로 강희자전대한화사전의 한자를 포함하는 4만7천개 한자의 코드를 제정했다. 이 한자 집합에서는 다수의 이체자를 규정하고 있지만, 그 이체자 중에는 CJK 통합한자에서는 통합되어 있는 것도 많이 포함되어 있다. 그 때문에, CNS 규격은 Unicode와의 사이에서 왕복변환이 불가능하게 되었다.

일례로서, CNS 11643:1992에서는 종래의 ''(1면 4E7E)에 더하여, ' '(6면 2D45)을 새롭게 규정했다. 그러나 통합한자에서 이들 자형은 76F4로 코드화되어 있었다(' '은 일본자형, ' '은 중국·대만자형). 그 결과 원규격에 따른 분리의 실시로 유지하고자 한 왕복변환이 CNS 11643:1992와의 사이에서는 불가능하게 되었다(다만 이 문제는 2001년의 ISO/IEC 10646-2:2001의 제정에 의해 마침내 해소되었다).[4]

유령 한자[편집]

1991년 7월에 CJK-JRG는 CJK 통합한자의 대상이 되는 한자는 1991년 시점에 있어서의 각국·각 지역에서 공식적으로 제정된 규격에만 한정하는 것으로 합의했다. 이에 따라 일본에서는 JIS X 0208 : 1990, JIS X 0212 : 1990, 한국에서는 KS C 5601, KS C 5657, 대만에서는 CNS 11643 : 1987, 중국에서는 GB 2312, GB 7589, GB 75 GB/T 12345, GB 8565에 규정된 한자가 통합의 대상이 되었다(실제로는 GB 7589, GB 7590 그 자체가 아니라, 여기에 기재되어 있는 글자의 번체자가 통합의 대상으로 제출되었다 ). 그러나 중국은 이 합의로는 넣을 수 없는 현대 한어 통용자표와 CCITT Chinese Primary Set의 한자, 표준 전소본(標準電碼本)의 한자를 CJK통합 한자에 포함하려고 하여, 위의 규격에 포함되지 않는 다수의 한자를 기존 규격의 빈 부호 위치에 혼입시켜 통합 대상의 한자로 제출했다. 그 결과, 일견 유래가 불명확한 다수의 유령 한자가, CJK 통합 한자에 혼입하게 되었다.[5]

중복 한자[편집]

CJK 통합 한자 중에는 정확히 동일한 문자가 복수의 부호 위치에 중복 등록되어 있는 것이나, 본래 통합될 문자가 별자로 등록되어 있는 것 등이 발견되고 있다. 특히, 일단 BMP로 통합되어 있는 "점 없는 '器' "(U+5668에서 점이 있는 것과 없는 것이 모두 포섭)에, 확장 B를 추가하면서 새로운 코드 위치(U+20F96)를 부여하고 있는 것과 같이 앞뒤가 맞지 않는 예가 다수 발견된다.[4]

잘못 통합된 한자[편집]

CJK 통합한자 중에는 글자 모양이 비슷하다라는 이유만으로 잘못 통합된 사례가 1개 확인되고 있다. 확장 A에 포함되는 U+4039(䀹)가 그것이다. 이 정정을 위해 CJK 통합한자 U+9FC3(鿃)에 U+FAD4를 할당하여 수정하였다(Unicode 5.1). 대한화사전에서 23381번(U+4039)과 23380번(U+FAD4 = U+9FC3)이다.

䀹 ⇔ 鿃 (이 글자의 우변은 陝의 우변과 같음)
U+4039 ⇔ U+9FC3

'하나조노민초'(花園明朝) 폰트와 '함초롱바탕체' 폰트에서는 두개의 글자를 구분하여 표시하고 있다.

함초롱바탕체에서 유니코드 4039와 9FC3

Surrogate Pair[편집]

CJK 통합 한자 확장 B 이후의 확장 한자 세트는 추가 한자 평면에 있기 때문에 UTF-16 코드를 채용한 시스템에서는 유니코드 2.0에서 추가된 Surrogate pair라는 두 개의 대용 부호 위치를 조합하여 1문자로 인식시키는 방법을 취하지 않으면 코드화할 수 없다. 따라서 응용 프로그램에 따라 아직 대응할 수없는 경우가 있다. JIS X 0213 한자 중 일부는 이 확장 B에 포함되기 때문에, 문자열을 UTF-16으로 처리하는 시스템에서 JIS X 0213의 모든 문자에 대응하는 경우는 Surrogate pair를 제대로 처리할 수 있어야 한다.

관련 항목[편집]

참고문헌[편집]

  1. “Unicode® Standard Annex #38 ― Unicode Han Database (Unihan)”. 2020년 7월 8일에 확인함. 
  2. まつもとゆきひろ (2009). 《コードの世界》. 日経BP. ASIN B00HZGBI76. 2020년 3월 26일에 확인함. 
  3. 安岡孝一. “Unicodeの矛盾”. 2008년 3월 22일에 확인함. 
  4. 川幡太一 (2001). “新ISO/IEC 10646とUnicodeの漢字を検証する”. 《漢字文献情報処理研究》 2: pp.134-140. ISBN 4-87220-051-9. 2007년 7월 1일에 원본 문서에서 보존된 문서. 2008년 3월 22일에 확인함. 
  5. 安岡孝一・安岡素子『「唡」はなぜJIS X 0221に含まれているのか ―Unicode幽霊字研究―情報処理学会研究報告、人文科学とコンピュータ 35-9、1997-08-29