사용자토론:Yes0song/다지모/1

문서 내용이 다른 언어로는 지원되지 않습니다.
위키백과, 우리 모두의 백과사전.

한자 혼용판과 문화어판 도입 관련 의견[편집]

저는 한국어판 위키프로젝트(위키백과 포함)에서 자동 변환기를 이용하여 한자 혼용판과 문화어판 문서들을 볼 수 있게 했으면 좋겠다고 생각하고 있습니다. 변환기의 작동 방식에 관한 저의 의견은 m:User:Yes0song/ko 자동변환기에서 보실 수 있습니다.

  1. 한자 혼용판에 관해: 저는 1차적으로 한자→한글 자동 변환기를 개발, ko에 탑재하여 기존의 한글 전용판 문서 뿐만 아니라 한자 혼용판 문서도 볼 수 있게 하면 좋을 것 같습니다. 이것은 중국어판에서 간체↔번체 자동 변환기를 탑재하고 있는 것과 비슷합니다. 다만 한글→한자 자동 변환은 기술적으로 거의 불가능하기 때문에, 한자→한글 변환기만 만들 수밖에 없습니다. 나중에 한글→한자 자동 변환기가 개발되어 ko에 탑재되면 그때부터 한자 혼용판 문서를 작성할 수 있게 될 것입니다.
  2. 문화어판에 관해: 아직 북한이 인터넷 쇄국 정책을 펴고 있지만, 언젠가는 북한 주민들이 한국어판 위키백과에 접속하여 활동하는 날이 오리라고 믿습니다. 한자→한글 변환기를 개발한 이후에는 남한의 표준어 및 한자 혼용판과 북한의 문화어를 상호 자동 변환하는 것을 개발했으면 합니다. 현재 중국어판의 자동 변환기는 한자의 간체와 번체자를 기계적으로 치환하는 것뿐만이 아니라 중화인민공화국과 중화민국의 서로 다른 어휘까지 치환해주는 기능이 있습니다. 저는 이것을 응용하여 한국어판에도 도입하면 남한 표준어와 북한 문화어를 모두 지원할 수 있게 될 것이라고 봅니다.
  3. 아예 독립적인 위키백과를 만들면 안 되나?: 어떤 분들은 위 한자혼용판과 문화어판을 한국어판에서 지원하지 말고, 아예 독립적인 위키백과를 만들면 어떻겠느냐 하는 의견을 주실지도 모르겠습니다. 그러나 저는 한자→한글 자동 변환기, 표준어↔문화어 자동 변환기를 만들 수 있다면 굳이 ko와 별도로 프로젝트를 시작할 필요는 없다고 봅니다. 차라리 안정 궤도에 접어든 기존 한국어판을 이용하는 것이 훨씬 효율적이라고 생각합니다.

좀 두서 없이 쓴 감이 있는데요, 이상은 일단 제 의견입니다. 다른 분들의 의견도 들어보고 싶습니다. ― Yes0song 2006년 11월 22일 (수) 14:55 (KST)[답변]

우선 한글->한자 자동변환은 "불가능"합니다. (자연어 처리 기술이 극한에 달해 자동번역이 가능해지면 모르겠습니다만..) 문화어/표준어 번환도 그리고 간체/번체 변환과는 사정이 다릅니다. 간체/번체 사이에서는 거의 1:1 변환이 가능하며, 몇몇 중화민국/중화인민공화국 사이에 다른 어휘를 쓰는 경우는 특별한 위키마크업을 사용합니다. zh:批处理의 처음을 보면 "-{zh-cn:批;zh-tw:批次}-处理"라고 되어 있습니다. 정체 탭을 눌러보면 "批次處理"로 바뀌는 걸 볼 수 있습니다. 앞의 두 글자 "批次"는 한자 확장 마크로를 통한 것이고, "處"는 간체자 "处"의 자동변환입니다. 비슷한 식이라면 한국어에서도 "-{ko-kr:양강도|ko-kp:량강도|ko-hanja:兩江道}-"라고 적으면 되겠죠. 하지만 본문에 나오는 모든 량강도라는 단어를 다 이런 식으로 쓰는게 어디까지 가능할까요? -- ChongDae 2006년 11월 22일 (목) 15:28 (KST)[답변]
이미 저도 한글->한자는 안 된다고 썼습니다. 잘 읽어보십시오. 전 한자→한글만 이야기하고 있습니다. ― Yes0song 2006년 11월 22일 (목) 15:57 (KST)[답변]
한자→한글 또한 불가능합니다. 왜냐하면 그 경우 글을 한자 혼용으로 써야 가능하기 때문입니다. 하지만 한국어 위키백과에는 글에 거의 한자가 안 들어가고 한글로만 돼 있습니다. 그리고 한자 변환도 한 글자 한 글자 해야 하니 번거롭지요. 또한 '樂'같이 같은 한자라도 소리가 다른 글자가 있지만 유니코드 정규화 알고리즘에 따라 호환용 한자는 모두 대표 한자로 바뀌죠. 정 호환용 한자를 쓰고 싶으면 &#xxxxx;와 같은 방식으로 써야 합니다. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2006년 11월 22일 (목) 20:08 (KST)[답변]
에멜무지로님은 반대하시겠지만, 제 생각은 기존 문서를 서서히 한자 혼용으로 바꾸면 된다는 입장입니다. 호환용 한자에 관한 문제의 해법은 m:User:Yes0song/ko 자동변환기에 제시해 놓았습니다. 앞으로 미디어위키에서 한자에 대해서는 유니코드 정규화 알고리즘을 off시킬 수 있도록 하는 것이지요. 저는 한자 혼용판 위키백과를 따로 만들기보다는 가능하다면 한국어판에서 남한 한글 전용판, 남한 한자 혼용판, 북한 한글 전용판(때에 따라서는 연변 조선족 말까지)을 자동 변환기로 커버할 수 있게 하는 게 좋을 것이라고 생각하여 다지모를 만들어 보았습니다. ― Yes0song 2006년 11월 23일 (목) 14:23 (KST)[답변]
저는 "유니코드 정규화 알고리즘을 off" 하는 것에는 반대합니다. KS 코드에서 같은 한자를 음에 따라 여러개의 코드로 할당한 것은 심각한 설계 결함으로 인식되고 있습니다. 그걸 이용해서 한자의 발음을 변환하는 것은 한계도 많지만 검색이나 편집면에서 문제가 많이 발생합니다. 그리고 KS 코드에서도 모든 한자의 변이 발음을 다 반영하고 있지도 않고 KS코드에 없는 한자지만 발음이 복수개인 한자에 대해서도 처리를 하지 못하죠. 제가 보기엔 중국어 위키백과에서 하듯, 그리고 종대님이 제안한 것처럼 사람이 편집하면서 발음이나 문화어, 한자표기에 관한 정보를 마크업을 하는 편이 더 체계적이고 구조적인 문서 관리가 될 것 같습니다. 이런 마크업을 전부 수동으로만 하는 것도 아니고 사전 데이터베이스를 만들어서 좀더 편리하게 반자동으로 변환할 수도 있을 것 같습니다. --시간 파리 2006년 11월 24일 (토) 16:17 (KST)[답변]
시간 파리 님의 말씀에 동의합니다. 하지만 문화어는 여기 한국어 위키백과에서 다뤄도, 한자 혼용 위키백과는 따로 만드는 게 좋겠습니다. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2006년 11월 24일 (토) 17:26 (KST)[답변]
저는 문자 코드 전문가는 아닙니다만, 개인적으로 미디어위키가 유니코드 정규화 알고리즘을 강제하는 것이 한국의 컴퓨팅 실정에 맞지 않다고 생각합니다. 아직도 한국의 많은 문서들이 음에 따라 여러 개의 코드를 할당한 KS 코드 체계에 맞춰서 편집되고 있습니다. 또 아래아한글을 비롯한 많은 소프트웨어가 한글 변환을 여기에 의존하고 있습니다. 이런 상황에서는 차라리 유니코드 정규화 알고리즘을 off시키는 게 낫지 않을까 하는 생각이 듭니다. 물론 KS 코드에서 커버하지 못하는 변이음이나, KS 코드에 포함되지 않은 한자들에 대해서는 사전 DB를 만들어야 할 겁니다(참고로 이런 글자는 한국어에서 사용 빈도가 높지 않습니다). 물론 에멜무지로 님 의견처럼 한자 위키백과를 따로 만들 수도 있겠지만, 그건 좀 아깝다고 생각됩니다. ― Yes0song 2006년 11월 24일 (토) 20:22 (KST)[답변]
KS 코드에 포함되지 않은 한자들의 음 데이터는 날개셋 한글 입력기가 3.65부터 지원하고 있습니다.
그리고 m:User:Yes0song/ko 자동변환기에서 한자어 사이시옷에 대해 나와 있는데, '찻잔'이나 '찻장', '찻주전자' 등은 모두 한자로 돼 있지만, 이상하게도 사이시옷을 붙입니다. 그리고 한자(어)+순 우리말의 경우, 한자 음이 바뀌는 경우도 적잖이 있으니(예: '삿되다') 그것 또한 처리해야 합니다. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2006년 11월 25일 (토) 11:59 (KST)[답변]
저도 시간 파리 님과 같은 이유로 반대 합니다. 예외 적으로 발음되는 단어 DB를 만들어서 변환하는 것으로도 충분합니다. --마소리스 2006년 12월 13일 (목) 22:21 (KST)[답변]

중국어 위키백과에서 간체/번체 구현 방법에 관한 문서를 읽을 수 있으면 도움이 될 듯합니다. --마소리스 2006년 12월 14일 (목) 00:17 (KST)[답변]

한국어 위키의 원문 기사를 한자를 혼용해 써야 한다는 점에 대해 동의할 수 없습니다. 저절로 두음법칙과 사이시옷이 사라진 글이 나오니 저에겐 반가운 일이지만, 다른분들께는 매우 피곤한 일일거구요. 다만 한자혼용위키를 따로 만드는것보다는, 한국어 위키 기사에 대해 서브페이지로 만들수는 있지는 않을까 합니다. 이 경우에 한자를 한글로 표기해주는 기능이 도입된다면 좋겠죠. 문화어 부분에 관해선 데이터베이스를 구축해 사용자 설정을 이용해 자동 변환 하는것이 원칙적으로 맞다고 봅니다. 표준어 변환, 문화어 변환, 변환 없이 보기 로 설정을 나눠두고, 일단 도입한 다음 발생하는 문제를 예외처리를 만들어가며 차근차근 해결해 나가는것이 좋겠죠. 표준어-문화어 논쟁이 자동처리로 사라지길 바랍니다. --퇴프 2007년 4월 5일 (금) 22:02 (KST) 너무 늦은 글인가요? 하지만 아랫쪽에 적당히 달만한 곳이 없어 보이네요 --퇴프 2007년 4월 5일 (금) 22:05 (KST)[답변]

문화어와 표준어[편집]

문화어와 표준어를 따로 지원 할 가치가 잇을까요? 어차피 통일이 되거나, 북한의 인터넷이 열리는 날이 온다면, 어차피 남과 북의 말을 둘다 알아야 하는 시대가 될 것 입니다. 또한, 몇몇의 용어를 제외하면, 방언 수준의 차이 밖에 나지 않는데, 굳이 자동 번역 기능을 사용하여, 문화어와 표준어를 따로 지원할 필요는 없다고 봅니다. 예를들어 모이자 조선족 온라인 커뮤니티의 자유게시판을 읽어보세요. 몇몇 방언과 두음법칙만 제외하면 표준어와 차이가 거의 없습니다. 한국 웹 사이트에 동화되어 그렇다고 생각하실지도 모르겟지만, 앞에서도 말햇듯이, 북한의 인터넷이 개방되면, 남과 북의 네티즌들이 서로 동화가 되어, 리해가 불가능 할 정도로 언어간의 괴리 현상이 나타나지 않으리라 생각합니다. 저는 남과 북의 언어는 잠재적으로 통일 될 언어이며, 위키백과가 표준어와 문화어를 모두 포용하는 것이 한국어 언어 발전을 위해 좋으리라 생각합니다. --마소리스 2006년 12월 13일 (목) 20:02 (KST)[답변]


표준어와 소위 '문화어'의 차이는 둘째 치고, 저에겐 일단 '문화어'라는 것을 제대로 구사하는 분이 한국어판 위키백과에 계시는지 조차도 의문입니다. 흐음... --Sjhan81 2006년 12월 14일 (목) 01:18 (KST)[답변]

제가 생각하는 방법[편집]

문장이 길어서 따로 페이지를 만들었습니다. 그런데, 지금 다시 생각해 보니 중국어 위키백과 형식으로 하는게 더 좋을듯 하네요. 좀 더 생각해 보아야 겠습니다. --마소리스 2006년 12월 15일 (토) 15:46 (KST)[답변]

루비[편집]

혼용 표기가 나중에 가능하면 XHTML 루비[1](en:Ruby (annotation markup)/ja:ルビ/zh:旁註標記) 표기도 가능케 하셨으면 합니다. 독일바퀴 2006년 12월 13일 (목) 22:33 (KST)[답변]

글쎄요. 루비는 ふりがな 付けます와 같이 특정 홈페이지를 통한 서비스로 지원하는 것이 옳다고 봅니다. 단, 위키백과는 GFDL 저작권으로 DB를 제공함으로서, 서비스 제작에 도움을 줄 수 있습니다. DB만 있으면 개인도 충분히 만들 수 있는 서비스라고 생각합니다. --마소리스 2006년 12월 13일 (목) 22:41 (KST)[답변]
저도 그런 생각을 해보았는데 제 생각은 일단 우선 '구체적인' 마소리스님의 의견부터 하나하나 차근차근 해 보는 것이 어떨까 합니다. 그러니까 나중에 해야 할 일은 나중에 토론하도록 하는 것이 좋겠습니다. -- 파란로봇군 2006년 12월 13일 (목) 23:39 (KST)[답변]

세르비아어, 중국어, 카자흐어 위키를 참고하는 것이 좋을 것 같아요.[편집]

제가 생각해 볼 때는 이 위에 있는 위키백과를 참고하는 게 좋을 것 같아요. 이쪽 언어 위키는 오른쪽 위를 보시면 세르비아어는 라틴/키릴, 중국어는 간체/번체/타이완 번체, 카자흐어는 라틴/키릴/아랍 순으로 되어 있어요. 그래서 어느 쪽을 누르면, 거기로 변환이 됩니다. --루스 2006년 12월 14일 (목) 00:56 (KST)[답변]

구체적인 구현 방법이 적힌 문서를 볼 수 있었으면 좋겠습니다. --마소리스 2006년 12월 14일 (목) 00:58 (KST)[답변]
제가 그쪽 위키에 가입을 한 적이 있는데, 거긴 어느 쪽을 누르느냐에 따라 변환됩니다. 일단 어떻게 하면 되는지 님 의견을 듣고 싶습니다. 전 이들 언어 위키를 따르는 거는 찬성합니다. --루스 2006년 12월 14일 (목) 01:01 (KST)[답변]
관련 문서가 메타에 있습니다. m:Automatic conversion between simplified and traditional Chinese, m:Automatic conversion in Serbian languageYes0song 2006년 12월 14일 (금) 22:56 (KST)[답변]
세르보크로아티아어 위키는 러시아를 의미하는 Rusija에 Ћирилична верзија라고 위에 그런 게 있습니다. 고트어 위키는 밑에 라틴 문자로 변환할 수 있는 장치가 있어요. 이런 것들도 참고해서 만드는 것이 저의 바람입니다. --루스 2006년 12월 14일 (금) 23:41 (KST)[답변]

연변 조선어[편집]

저는 '표준어(한글 전용)/표준어(한자 혼용)/문화어/연변 조선어'로 나누는 게 좋을 것 같습니다. 연변 조선어도 어느 정도 문화어와 차이가 있는 것으로 알고 있습니다. 또 한자 병기할 때 간체자를 사용하는 독특한 습관(예: '말(马)')도 있는 것 같구요. 그래서 한국어 위키프로젝트를 저 4개 variant 체계로 했으면 좋을 것 같습니다. ― Yes0song 2006년 12월 14일 (금) 23:44 (KST)[답변]

거기에다 고려말도 추가하고 싶습니다. 아제르바이잔어 위키는 라틴/아랍이 같이 병기되어 있어요. 한국어 위키도 이렇게 했으면 좋겠습니다. 저는 이렇게 표준어(한글 전용)/표준어(한자 혼용)/문화어/연변말/고려말 순으로 하고 싶습니다. --루스 2006년 12월 15일 (금) 00:26 (KST)[답변]
한국어 위키백과에 사실상 표준어를 사용하는 사람 밖에 없기 때문에, 다지모의 주장이 받아드려 지지 않을 수도 있다는 것을 생각해주세요. 주장은 충분히 공감대를 형성할 수 있는 내용이여만 합니다. 그리고, 한마디 덧붙이자면, 조선어 사용자도 한글입력기로 한글과 한자를 입력하기 때문에, '马' 처럼 간체자를 입력하는 일은 거의 없을 것입니다. '말(马)'을 입력하려면 입력기전환을 해야하는데, 그렇게까지 입력할 사람은 없을 것 입니다. 또한 루스님이 말씀하시는 '고려말'은 사실상 통역없이 대화를 나눌 수 없는 외국어이며, 사용자도 거의 없습니다. --마소리스 2006년 12월 15일 (금) 06:37 (KST)[답변]
저는 일단 '한국어'(표준어), '조선말'(문화어), '한자혼용'(표준어, 문화어 둘다 허용)판으로 시작하고, 나중에 필요 또는 (실제 연변 사람의) 요청에 의해 '연변말'을 추가했으면 좋겠습니다. --마소리스 2006년 12월 15일 (금) 11:10 (KST)[답변]

다른 언어 위키백과의 방식 그대로 적용할 경우[편집]

중국어, 세르비아어, 카자흐어 모두 편집시 나타나는 원본 문서는 하나이며, 문서 내용이 출력되는 순간에 변환하는 방식을 사용하고 있습니다. 번환 방법은 DB를 통한 1:1 치환 방법을 사용하고 있습니다. 이런 방법을 한국어 위키백과에 적용하려면 문서는 기본적으로 한자 혼용으로 작성되고 문서가 편집할 때 한자혼용으로된 텍스트를 편집해야 합니다. 한자가 한글로 변환될 때 문화어는 한자가 대부분 하나의 발음을 가지고 있어 별 문제가 없으나, 표준어의 경우 두음법칙에 의해 1:1 변환이 불가능합니다. 따라서, 다른 언어에서 사용하는 방식을 그대로 한국어 위키백과에 적용할 수 없습니다. --마소리스 2006년 12월 15일 (금) 13:42 (KST)[답변]

한국어 위키프로젝트에서 한자 혼용판 도입에 관한 건[편집]

우리 모임이 1단계로 자동 변환(automatic conversion)을 통한 한자 혼용판을 한국어 위키프로젝트(한국어 위키백과, 한국어 위키낱말사전 등)에 도입하는 것을 주장했으면 좋겠습니다. 한국어 위키백과 관리자 및 미디어위키 제작자들에게 우리의 방안을 설명하고, 그 방안과 같이 미디어위키를 수정하여 한국어판 위키프로젝트에 도입해줄 것을 요청하는 것입니다(북한 문화어 변환기 개발·도입은 쉽지 않으므로 훗날로 미룹니다).

저는 제가 작성한 m:User:Yes0song/ko 자동변환기#ko-kr과 ko-hanja의 자동 변환에서 제시하는 방안을 기준으로 주장했으면 좋겠습니다.

아래에 찬반 여부를 투표해 주십시오. 대부분의 회원님들이 찬성하시면 구체적인 실천 방법을 모색하도록 하겠습니다. ― Yes0song 2006년 12월 28일 (목) 05:16 (KST)[답변]

투표·의견[편집]

1. 유니코드 정규화 알고리즘 off에 반대합니다.
  • 快樂 → 쾌락
  • 樂園 → 낙원
  • 音樂 → 음악
  • 樂山 → 요산
예외 처리에 위와 같이 예외적으로 읽히는 발음만 추가하면 되는데, 굳이 유니코드 정규화 알고리즘을 off할 필요가 없다고 생각합니다.
2. 문화어를 동시에 지원하는게 옭다고 생각합니다.
한자 변환기를 만들 때, 두음법칙을 적용하지 않는 문화어를 동시에 지원하는게 나중에 번거로운 수정을 예방해 줍니다.
3. 문화어에서 일반명사까지 자동 치환하는 방식을 아직까지 옳지 못하다고 생각합니다. 사실상 문화어 사용자가 없으므로, :자동 치환 DB를 만들 수 없으며, 만든다 하더라도 정확성을 보장할 수 없습니다.
4. 구체적인 방법은, 중국어, 세르비아어, 카자흐어와 동일한 방식(1:1 치환 방식)으로 하되, 거기에 두음법칙을 추가하는게 가장 받아드려질만한 방법이라 생각합니다.

--마소리스 2006년 12월 28일 (목) 11:19 (KST)[답변]

답변: 1의 경우는 '예외적'이라고 할 수 없을 정도로 무수히 많습니다. 정규화 알고리즘을 off시키지 않으려면 사전 DB를 만들어야 할 것입니다. 그 작업을 언제 누가 해낼 수 있을까요?
2의 경우, 두음법칙만 배제한다고 문화어가 되는 게 아닌데(두음법칙 이외의 남북간의 언어 차이는 반영하지 않음) 무슨 의미가 있을지 의심스럽습니다.
3은 제가 상정한 범위가 아닙니다. 저는 한자 혼용판 도입만 우선 투표로 올렸습니다. 굳이 의견을 말씀드리자면 제 입장은 다음과 같습니다. 일반 명사를 자동 치환하는 것은 이미 중국어판에서 시행되고 있습니다. 예컨대 '프린터'는 중국 대륙에서 打印机, 타이완에서는 印表機이라고 하여 차이가 있습니다. 중국어판 위키백과에서 문서 편집할 때 打印机나 印表機로 입력해 놓으면, zh-cn 모드에서는 打印机로 zh-tw 모드에서는 印表機로 자동 치환해서 보여줍니다. 마찬가지로 남한 표준어와 북한 문화어 사이에도 이런 자동 변환 기능을 적용할 수 있을 것입니다. 물론 사전 DB를 만들어야 하므로 쉬운 일은 아닐 것입니다. 그래서 아직 위키백과에서 문화어 사용자가 전무한 상황이므로, 제가 현 시점에서는 이 문제를 배제하였습니다.
4의 경우 두음법칙 판별도 역시 사전 DB가 필요합니다. 합성 명사에 두음법칙이 적용되는 경우 따로 사전 DB가 없고 유니코드 정규화 알고리즘이 on이면 미디어위키가 두음법칙 판별을 할 수가 없을 것입니다. 예를 들어, '新女性'은 ko-kr에서 '신여성'이라고 표시해야하는데 따로 사전 DB가 없으면 '신녀성'으로 표시하려 들 것입니다. 1과 3에서 언급했지만 사전 DB 구축은 현 시점에서 쉬운 일이 아니므로, 사전 DB를 필요하게 만드는 상황을 초래하는 것은 바람직하지 않습니다. ― Yes0song 2006년 12월 28일 (목) 13:57 (KST)[답변]
  • 찬성 정규화 알고리즘을 off한다면, CJK Compatibility Ideographs에 없는 한자와 사이시옷만 예외 처리하면 된다는 말씀이시군요. 그렇다면 찬성입니다. 제가 약간 잘못 이해 한 것 같습니다. 제가 생각한 것은 문화어 도입시 문화어 사용자는 두음법칙을 사용하지 않고 한자를 입력 할 것이기 때문에, 어차피 DB를 마련해야 하므로, 정규화 알고리즘을 off는 무의미 하다는 생각이였습니다. 하지만, 현재로서는 Yes0song님의 의견이 가장 현실적인 방안이군요. DB에 관해서는 나중에 문화어 도입시 고려해 봐야 하겠습니다. --마소리스 2006년 12월 28일 (목) 14:25 (KST)[답변]
  • 찬성--Jang ju-seong 2006년 12월 28일 (금) 16:42 (KST)[답변]
  • 찬성 - 일단 한자 혼용판만 도입할 게 찬성드립니다. 재미있겠고 흥미가 많습니다. -- LERK (의논 / 일지 / 편지) 2006년 12월 28일 (금) 21:41 (KST)[답변]

결과[편집]

회원 만장일치로 가결되었습니다. 한국어 위키프로젝트에 한자 혼용판을 도입하자는 것을 우리 모임의 공식 의견으로 채택하겠습니다. 또한 이것을 근거로 관련 인사들과 접촉(?)하여 의견을 전달하는 일도 조만간 시작하겠습니다. ― Yes0song 2006년 12월 28일 (금) 22:52 (KST)[답변]

위키백과 사랑방에 우리 입장을 밝혔습니다[편집]

위키백과:사랑방/2006년 12월#다양한 표기법 지원 모임 공식 입장에 저희 입장을 소개하였습니다. 이제 본격적으로 한국어판 위키프로젝트에 한자→한글 자동 변환기 도입을 위하여 논의를 다지모 바깥으로 확대시킨 것입니다. 우리 모두 토론에 참여합시다. ― Yes0song 2006년 12월 29일 (금) 14:36 (KST)[답변]

첫 사랑방에서 소개글에서 반대가 심할 경우, 더이상 다지모의 뜻을 펼칠 수 없는 상황이 될 가능성이 있음에도, 사랑방에 처음 올라올 글을 토론 없이 혼자 준비 한 점에 아쉬움을 느낍니다. 제 생각에는 다지모에서 어느 정도 준비 없이 바로 사랑방에서 토의를 붙일경우 찬성보다 반대가 더 많을 것이라 생각합니다. 가장 큰 이유는 대부분의 사용자가 한자 혼용에 흥미가 없어, 필요성을 느끼지 못할 뿐더러, 한자 혼용된 편집 화면보다는 한글 편집화면을 더 선호합니다. 따라서, 한자 혼용에 관한 다지모의 입장 보다는, 다지모의 의견이 받아드려지더라도 일반 사용자에게는 불편함을 끼치지 않으며, 한자 혼용이 도입될 경우, 이러이러한 사용자에게 유용하며, 또한 한자 혼용을 통해 이러이러한 이점이 생긴다는 식으로 적었으면 했습니다. --마소리스 2006년 12월 29일 (토) 15:28 (KST)[답변]

다지모의 주장[편집]

  • 한국어 위키백과를 '한글 전용'과 '한자 혼용판'으로 나눕니다.
  • 편집은 '한자 혼용'으로 하되, '한글 전용'을 선택하면 한글로 나오게 됩니다.
  • 한자 혼용에 관심 있으신 분만 한자 혼용으로 편집하면 됩니다.
  • 한자어만 한자로 바꾸는 것을 원칙으로 하여, 고유어나 음차한 단어를 억지로 한자로 바꾸지 않습니다.
  • 제목과 분류는 한글 전용을 원칙으로 합니다. (별도의 해결책이 나오기 전까진)
  • 모든 문서를 한자 혼용으로 하는 것을 목적으로 하지 않습니다.
  • 기존의 사용자들은 기존 그대로 한글 전용으로 사용하시면 됩니다.
  • 기술적인 방법은 현재 중국어 위키백과에서 도입하고 있는 방법과 유사합니다.
  • 유니코드 정규화 알고리즘을 off 함으로서, 다른 음의 동일한 한자를 처리합니다.

장점[편집]

  • 언어학과 같은 전문 분야의 문서를 한자 혼용 함으로서, 뜻을 좀더 명확하게 해 줍니다.
  • 불필요한 한자 괄호 표기를 줄여 줍니다.

기타[편집]

  • 편집 화면이 한자 혼용 됨으로서, 어색해 질 수 있으나, 중국어 위키백과에서 간체와 번체가 혼용해서 쓰임에도 적응해서 쓰고 있음으로 보아, 일반 사용자도 금방 익숙해 질 수 있으리라 봅니다.[2]

사랑방에 적으신 것을 볼때, 대충 Yes0song님이 생각 하시는 것을 정리하자면, 아마 위와 같은 듯 합니다? --마소리스 2006년 12월 29일 (토) 20:02 (KST)[답변]

답변[편집]

  • 한국어 위키백과를 '한글 전용'과 '한자 혼용판'으로 나눕니다.
  • 편집은 기존대로 한글 전용으로 할 수도 있고 '한자 혼용'으로도 할 수 있다. 한자 혼용으로 작성한 문서는 automatic conversion을 통해 한글 전용 문서를 자동으로 생성해 낼 수 있어 한자 혼용판과 한글 전용판을 모두 보여줄 수 있게 됩니다.
  • 한자 혼용에 관심 있으신 분만 한자 혼용으로 편집하면 됩니다.
  • 일상적인 문어에서 한자어만 한자로 바꾸는 것을 원칙으로 하여, 고유어나 외래어를 억지로 한자로 바꾸지 않습니다.
  • 한자 혼용으로 작성된 문서의 제목은 한자로 적습고 한글은 한자 제목으로 redirect시킵니다.
  • 분류는 한글 전용을 원칙으로 합니다. (별도의 해결책이 나오기 전까진)
  • 모든 문서를 한자 혼용으로 하는 것을 목적으로 하지 않습니다.
  • 기존의 사용자들은 기존 그대로 한글 전용으로 사용하시면 됩니다.
  • 기술적인 방법은 현재 중국어 위키백과에서 도입하고 있는 방법과 유사합니다.
  • 유니코드 정규화 알고리즘을 off 함으로서, 다른 음의 동일한 한자를 처리합니다.

장점[편집]

  • 한국어판 위키백과의 기존 문서는 보존하면서 추가로 한자 혼용의 문서도 접할 수 있게 됩니다.

기타[편집]

이게 제 입장이라고 할 수 있습니다 ― Yes0song 2006년 12월 29일 (토) 23:04 (KST)[답변]

의견[편집]

1. 한자 혼용으로 작성된 문서의 제목은 한자로 적습고 한글은 한자 제목으로 redirect시킵니다. : 제목을 한글로 적고, 한자로 검색할 경우, 한글로 변환해서 한번더 검색해 주는건 어떻습니까? 대신 제목을 한자로 표기하기 위해 중국어 위키의 아래와 같은 방식으로 제목을 수정하는 겁니다.
-{T|zh-cn: 제목1; zh-tw: 제목2}-
2. 한국어판 위키백과의 기존 문서는 보존하면서 추가로 한자 혼용의 문서도 접할 수 있게 됩니다. : 그래서 한자 혼용의 장점은 무엇이라 생각 하십니까? 한자 혼용 자체가 한자 혼용을 도입해야 하는 이유가 될 수 없다고 보는데요.
3. 편집 화면은 새로운 기능을 추가하여(m:User:Yes0song/ko 자동변환기#편집 화면 참고) 기존 한글 전용 사용자들이 한자 때문에 곤란을 겪지 않게 할 수 있게 됩니다. : 이런 기능이 도입 가능 하다면 이전에 중국어 위키백과에서 우선 도입했을 텐데, 아직까지 도입하지 않고 있는 것을 보면, 기술적으로 어려운 것이 아닐까요? --마소리스 2006년 12월 30일 (토) 09:30 (KST)[답변]

제 의견도 마소리스님과 똑같습니다. 하지만 몇가지 추가해야 할 점이 있습니다.

우선 1. 한자 혼용판을 만들더라도 현재 많이 쓰이고 있는 쪽으로 사용한다(예; 불란서대신 프랑스, "분류:아세아의 국가"대신 분류:아시아의 국가처럼)

2. 한자 혼용판은 표준어, 문화어 두 개 사용을 허용한다.

3. 예외 처리를 많이 만든다. --루스 2006년 12월 30일 (토) 13:38 (KST)[답변]


먼저 마소리스 님께 답을 드립니다.

한자 혼용에 대한 장점을 논의하는 것은 위키백과에서 할 일은 아니라고 생각합니다. 일단 여기서 마소리스 님의 2번 질문은 답변을 하지 않겠습니다(굳이 답변을 원하신다면 사용자토론:Yes0song에서 했으면 합니다). 저는 따로 한자 위키백과를 만들기보다 한국어판에서 통합적으로 지원하는 것이 낫다고 생각하여 이것을 고집하는 것입니다.

그리고 1번 -{T|...}- 방식이 있는 줄 몰라서 한글 제목을 redirect시키자고 했던 것입니다. 그런 방법이 있다면 제가 말한 방식 대신에 -{T|...}- 방식을 쓰는 것이 낫겠군요.

3번의 경우, 위지윅 에디터들이 인터넷 상에서 구현되고 있는 것으로 보아(네이버·다음의 블로그/카페 등) 불가능하지는 않을 것 같습니다. 중국어판에서 도입하지 않는 이유는 간번체가 섞여 있어도 결국은 같은 한자이기 때문에 크게 문제되지는 않기 때문이 아닐까 생각이 드는데요? 제가 프로그래밍을 할 줄 아는 건 아니지만 기술적으로 어려움이 있을 것 같진 않네요.


이번에는 루스 님께 답합니다.

1은 제가 선호하는 방식입니다.

2는 굳이 현 시점에서 따로 허용한다고 말하지 않아도 이미 허용되어 있는 것이나 마찬가지 아닐까요? 소수지만 북한 관련 문서(물론 지금은 한글 전용이죠)는 문화어로 작성되어 있는 것으로 압니다. 한자 혼용판에서도 마찬가지로 하면 될 것 같습니다.

3은 예외 처리는 점진적으로 추가하면 될 것 같습니다. ― Yes0song 2006년 12월 30일 (일) 16:27 (KST)[답변]


마소리스 님께 추가 답변+질문 드립니다.
1번의 경우, 중국어판에서 확인해 보니 제목은 그냥 한쪽 표기로 정해 놓은 뒤 다른 표기는 redirect 시키고 있던데요? -{ }- 명령어가 아니고요. ― Yes0song 2006년 12월 30일 (일) 16:43 (KST)[답변]

답변[편집]

1. Automatic conversion between simplified and traditional Chinese에도 있는 내용이라 당연히 정독 하셨으리라 생각했는데, 아직 다 읽어 보셨나봐요. 어차피 중국어와 유사한 방식으로 판을 추가 해야할 것이기 때문에 정독 해 보셔야 하는 부분입니다.
답변. -{ }-은 예외 처리 방법입니다. 문서 제목이 한글일 경우, 한자로 자동 변환이 불가능 하니, 한자로 보이게 하려면 예외 처리 방식으로 해야합니다. -- 이 의견을 작성한 사용자는 Masoris (토론)이나, 서명을 남기지 않아 다른 사용자가 추가하였습니다.
-{ }-는 압니다. 근데 제목에다 쓸 순 없고 본문에서만 쓸 수 있는 건데요? 전 그걸 질문한 겁니다. ― Yes0song 2006년 12월 31일 (월) 18:26 (KST)[답변]
meta의 설명으로 보아, 문서의 이름과 관계 없이, 특정 문자판에서 제목을 다르게 보이고 싶게 할 때 쓰는 것 같습니다. 물론 redirect를 따로 만들어 주어야 합니다.
제가 생각하는 방식은 이렇습니다. 한자 혼용판을 사용하는 사람보다 한글판 사용자가 훨씬 많을 것이므로, 실제 문서는 한글로 만들어 줍니다. 만일 한자로 검색하거나, 링크가 있을 경우, 위키백과에서 자동적으로 한글로 변환해서 해당 문서로 연결해 줍니다. 그리고 한글은 같지만 한자가 다른 동음이의어의 경우는 수동으로 redirect를 만들어 줍니다. 한자 혼용판의 제목은 -{T| }-를 이용해서 나타냅니다. 이렇게 한다면 한자판 사용자는 좀 번거롭겠지만, 다수에 해당하는 한글판 사용자에게는 영향을 끼치지 않습니다. --마소리스 2006년 12월 31일 (월) 19:34 (KST)[답변]

사랑방 제안[편집]

사랑방에 한자 혼용 도입을 제안하려면 이렇게 하면 어떨까 하고 한번 적어 보았습니다. 한번 읽어 보시고, 의견 적어 주셨으면 합니다.


현재 한국어 위키백과에서는 한자를 필요에 따라 병기하고 있습니다. 하지만, 이 한자 병기를 더 해야 한다고 주장하는 사람도 있고, 한자 병기는 최소한 줄여야 한다고 주장하는 일도 있으며, 모든 글을 한글 전용으로 써야 한다고 주장하는 사람도 있습니다.

이 문제를 좀 더 효과적으로 해결하고자 저희 다지모에서는 ‘한자 혼용판’을 도입을 주장하고 있습니다. 한자 혼용판을 도입하여, 한자를 좀 더 선호하는 사람은 한자 혼용판을 사용하며, 한글을 좀 더 선호하는 사람은 한글 전용판에서 사용을 하게 됩니다.

물론 다수에 해당하는 한글 사용자가 위키백과 사용에 불편함을 느껴서는 안 됩니다. 따라서 한글판 사용자가 한자판 도입으로 말미암아 불편함을 느끼지 않도록 계획 하고 있습니다.


가장 기본적인 원리와 원칙은 다음과 같습니다.

  • 한국어 위키백과를 '한글 전용'과 '한자 혼용판'으로 나눕니다.
  • 편집은 기존대로 한글 전용으로 할 수도 있고 '한자 혼용'으로도 할 수 있습니다. 한글 전용 선택시, 자동 변환된 부분은 파란색 글자로 나타납니다.
  • 실제 문서 기록은 한자 혼용으로 되며 한글판 선택 시 한글로 자동 변환됩니다.
  • 한자 혼용에 관심 있으신 분만 한자 혼용으로 편집하면 됩니다.
  • 일상적인 문어에서 한자어만 한자로 바꾸는 것을 원칙으로 하여, 고유어나 외래어를 억지로 한자로 바꾸지 않습니다.
  • 분류와 제목은 기존과 마찬가지로 한글 전용을 원칙으로 합니다.
  • 모든 문서를 한자 혼용으로 하는 것을 목적으로 하지 않습니다.
  • 기존의 사용자들은 기존 그대로 한글 전용으로 사용하시면 됩니다.
  • 기술적인 방법은 현재 중국어 위키백과에서 도입하고 있는 방법과 유사합니다.
  • 유니코드 정규화 알고리즘을 off 함으로서, 다른 음의 같은 한자를 처리합니다.
  • 점차 한자 괄호 병기를 줄이고, 문서 내에서 한자를 혼용합니다.

위의 방식을 적용한 경우, 기존의 한글판 사용자에게 끼치는 영향은, 편집화면에서 자동 변환된 한자어가 파란색으로 나타나는 것을 제외한 다른 영향을 끼치지 않습니다.


한자판 도입으로 말미암아 저희가 생각하는 이점은 다음과 같습니다.

  • 괄호를 사용한 한자 병기를 줄임으로써, 문서를 좀 더 깔끔하게 할 수 있습니다. (한글판)
  • 언어학 역사 관련 문서와 같이, 일상생활에 잘 쓰이지 않는 생소한 한자어로 도배된 문서를 한자 혼용함으로써, 좀 더 뜻을 명확하게 해 줍니다. (한자 혼용판)
  • 한글판을 읽다가 한자가 알고 싶으면, 화면 오른쪽 위의 ‘한자 혼용판’을 눌러서 바로 알 수 있게 됩니다.
  • 한자 괄호 병기에 관한 소모적인 편집을 다시는 하지 않아도 됩니다.

한자 혼용판을 도입하더라도, 기존의 사용자에게 불편함을 끼치는 일이 없도록 최대한 노력할것입니다. 한자 혼용판 도입으로 말미암아 한국어 위키백과가 한 단계 발전하기를 기원하며, 이 제안을 긍정적으로 봐주셨으면 합니다.


제안에 더 추가해야 할 것

  1. 예시 ( 한글판 화면, 한자혼용판화면, 한글판 편집 화면, 한자혼용판 편집화면 )
  2. 구체적인 기술적 방법[3]

--마소리스 2006년 12월 31일 (월) 22:50 (KST)[답변]

제가 성급하게 사랑방에 올린 것보다 훨씬 낫군요. 마소리스 님의 글에다가 더불어서 이 논의가 왜 나타나게 됐는지 밝히면 더 좋을 것 같습니다.
이 아이디어가 나오게 된 계기는 메타에서 한자 혼용판 위키백과 도입이 제안되자, 일부에서 한국어판 내에서 한자→한글 자동 변환기를 탑재하여 실행하는 게 어떻겠냐 하는 의견이 나왔기 때문입니다. 이것을 명시하면 좋을 것 같습니다. ― Yes0song 2007년 1월 1일 (월) 13:03 (KST)[답변]

예시[편집]

기존[편집]

세종대왕(世宗大王, 1397년 음력 4월 10일/양력 5월 6일 - 1450년 음력 4월 8일/양력 5월 18일, 재위 1418년 - 1450년)은 조선의 제4대 임금이다. 는 도(祹, 는 원정(元正), 시호는 세종장헌영문예무인성명효대왕(世宗莊憲英文睿武仁聖明孝大王)이다. 태종원경왕후의 셋째아들이다.

세종대왕은 재위기간 동안 국방과 과학 및 경제, 문화 등 전 분야에 걸쳐 찬란한 업적을 많이 남겨위대한 성군으로 추앙받고 있다. 현재 대한민국의 화폐의 최고액 화폐인 10000원권의 인물이기도 하다.

한글판[편집]

세종대왕(世宗大王, 1397년 음력 4월 10일/양력 5월 6일 - 1450년 음력 4월 8일/양력 5월 18일, 재위 1418년 - 1450년)은 조선의 제4대 임금이다. 는 도, 는 원정, 시호는 세종장헌영문예무인성명효대왕이다. 태종원경왕후의 셋째 아들이다.

세종대왕은 재위기간 동안 국방과 과학 및 경제, 문화 등 전 분야에 걸쳐 찬란한 업적을 많이 남겨위대한 성군으로 추앙받고 있다. 현재 대한민국의 화폐의 최고액 화폐인 10000원권의 인물이기도 하다.

혼용판[편집]

世宗大王(世宗大王, 1397年 陰歷 4月 10日/陽歷 5月 6日 - 1450年 陰曆 4月 8日/陽曆 5月 18日, 在位 1418年 - 1450年)은 朝鮮의 第4代 임금이다. 는 祹, 는 元正, 諡號는 世宗莊憲英文睿武仁聖明孝大王이다. 太宗元敬王后의 셋째 아들이다.

世宗大王은 在位期間 동안 國防과 科學 및 經濟, 文化 등 全 分野에 걸쳐 찬란한 業績을 많이 남겨偉大한 聖君으로 推仰받고 있다. 現在 大韓民國 貨幣의 最高額 貨幣인 10000원권의 人物이기도 하다.

혼용판 편집 화면[편집]

'''世宗大王'''(-{世宗大王}-, [[1397年]] [[陰歷 4月 10日]]/陽歷 [[5月 6日]] - [[1450年]] [[陰曆 4月 8日]]/陽曆 [[5月 18日]], 在位 [[1418年]] - [[1450年]])은 [[朝鮮]]의 第4代 [[왕|임금]]이다. [[諱]]는 祹, [[자 (이름)|字]]는 元正, [[諡號]]는 世宗莊憲英文睿武仁聖明孝大王이다. [[조선 태종|太宗]]과 [[元敬王后]]의 셋째 아들이다. 世宗大王은 在位期間 동안 國防과 科學 및 經濟, 文化 등 全 分野에 걸쳐 찬란한 業績을 많이 남겨偉大한 聖君으로 推仰받고 있다. 現在 [[大韓民國 貨幣]]의 最高額 [[貨幣]]인 10000원권의 人物이기도 하다.


한글판 편집 화면을 제외한, 세종대왕 앞 부분을 이용하여 예시를 만들어 보았습니다. 한글판 편집 화면은 어떻게 나타내야 할지 모르겠네요. --마소리스 2007년 1월 1일 (화) 16:05 (KST)[답변]

기술적 문제[편집]

한자어와 관계된 표제어의 동음이의 문제를 기술적으로 깔끔하게 해결할 방법이 있을까요?

넘겨주기로 해결한다는 것은 답이 아닙니다. 중국어 간체/정체 문제는 "소수의 예외"만 해결하면 됩니다만, 한글과 한자 표기는 그렇게 간단하지 않습니다. 특히 표제어 문제가 걸렸을 때에는요. 정체/간체, 혹은 로마자/키릴문자 사이에 같은 표기는 거의 문제가 되지 않습니다. (한쪽에서 문제가 되면 거의 대부분 다른 쪽에서도 문제가 되니깐요.) 하지만 같은 음을 가지는 한자, 혹은 여러 음을 가지는 한자는 예외 상황이 아니죠. 늘 부딛히는 문제입니다. -- ChongDae 2007년 1월 1일 (화) 16:31 (KST)[답변]

제가 생각하는, 한자 링크 처리 방법은, 자동적으로 한글로 변환해서 넘겨 주는 것입니다. (이는 정체/간체 사이의 링크 처리 방식과 비슷한 것입니다.) 정규화 알고리즘을 off 할경우, '이승엽'과 '리승엽'의, 이(李)와 리(李)는 다른 글자로 처리되므로, 두음 법칙 또는 같은 음을 가진 다른 한자 때문에 생기는 문제는 거의 없으리라 생각합니다. 문제는 素數와 小數가 될텐데, 이는 기존과 변함 없이, 소수 (수론), 소수 (실수)를 그대로 사용하는 것이 한글판 사용자를 위해 좋은 방법이라 생각합니다. --마소리스 2007년 1월 1일 (화) 17:07 (KST)[답변]
한자 정규화 알고리즘을 끄자는 것은 반대입니다. 같은 한자인데, 음이 다르다는 (그것도 두음법칙에 따라) 이유로 다른 한자를 써야 할 이유가 있나요? -- ChongDae 2007년 1월 2일 (화) 12:01 (KST)[답변]
두음법칙뿐만 아니라 여러 발음을 가진 한자를 한글로 전환하기 위해 알고리즘을 끄자는 것입니다. 알고리즘을 켠 상태에서 한자→한글 변환기가 작동하게 하려면 기술적으로 어려움이 많을 것으로 생각됩니다(특히 新女性 같이 합성 명사에 두음법칙이 적용되는 경우). 아예 한자→한글 변환기를 도입하지 않을 것이라면 굳이 유니코드 정규화 알고리즘을 끌 필요 없겠지만요. ― Yes0song 2007년 1월 2일 (수) 16:57 (KST)[답변]
정규화 알고리즘을 끔으로써 별다른 문제점이 발생하지 않는다고 생각하는데요, 오히려 위키백과가 아닌 다른 사이트(소프트웨어)와 호환성을 높여 주지 않을까요? 물론 한자 하나에 하나의 코드만 배치하는 게 이상적일지도 모르지만, 이미 발음에 따라 다른 코드가 할당되어 있는 상태이고, 기존의 입력기라던지 소프트웨어는 모두 이를 따르고 있죠, 오히려 위키백과만 특이하게 한자 처리를 하는 것은 아닌가 하고 생각합니다. --마소리스 2007년 1월 2일 (수) 18:18 (KST)[답변]
정규화 알고리즘을 끈다고 모든 문제가 해결되지 않습니다. 필연적으로 한자<->한글 변환 데이터베이스를 사용해야만 합니다. 같은 한자라도 음에 따라 코드를 할당했다고 해도 모든 변이음을 반영하고 있지도 않습니다. 예를 들면 모란(木丹)의 木을 어떻게 처리 할 겁니까? 다른 일반적인 부분이나 기본적인 정렬이나 검색에서도 문제가 되는 것이 바로 KS 코드의 한자 배열 방식입니다. 같은 한자를 음에 따라서 다르게 코드를 할당한 방식은 극히 제한된 응용에서만 편이성이 있는 ad hoc적인 해결책밖에 되지 않습니다. 한국을 제외한 그 어떤 한자권 국가에서도 이런 문제 있는 방식으로 한자 코드를 만들지 않았다는 것을 유념하시기 바랍니다. --시간 파리 2007년 1월 2일 (수) 18:31 (KST)[답변]
물론 시간 파리님께서 말씀하신 바와 같이 정규화 알고리즘을 끈다고 모든 문제가 해결되는 것은 아닙니다. 또 대한민국에서만 특이한 방식으로 한자 코드를 만들었음도 잘 알고 있습니다. 그러나 그럼에도 불구하고 정규화 알고리즘을 끌 것을 주장하는 것은, 예외 처리해야 하는 한자어의 수가 크게 줄어들기 때문입니다. ― Yes0song 2007년 1월 2일 (수) 18:55 (KST)[답변]
물론 이 방법으로 해결할 수 없는 부분은, 예외 DB를 만들어서 사용할 생각입니다. 예외 DB는 중국어 위키백과 예외처리 DB[4]와 마찬가지로 특정인에게 권한을 줘서 지속적으로 관리할 계획입니다.
배열에 관해서는 어차피 소프트웨어 자체에서 유니코드가 아닌 각 언어에 맞는 형식으로 배열해야 합니다. 한국어, 중국어, 일본어 사용자가 한자 코드를 사용하고 있지만, 실제로 탐색기나 엑셀에서 이름순 정렬을 사용해 보시면, 유니코드의 배열이 아닌, 언어마다 별개의 배열 방법을 사용하는 것을 알 수 있습니다.
검색 같은 경우는, 모두 한중일 호환용 한자를 지원하는 입력기를 사용하기 때문에 별로 문제가 발생하지 않는다고 생각합니다.
하지만 어차피 대부분의 위키백과 사용자는 한글판을 사용할 것이고, 그렇다면 한글로 된 정렬과 검색을 사용할 것이므로, 기존 사용자에게 문제되는 점은 전혀 없을 것입니다. --마소리스 2007년 1월 2일 (수) 19:11 (KST)[답변]

편집화면[편집]

편집화면을 한글로 볼 수 있도록, 메타에 구체적인 원리를 영어로 적어보았으나, 심각한 에스페란글리시로 인해 문법도 엉망진창인데다, 문장도 엉성한 글이 되어버렸네요. 어쨌거나, 읽어 보시고 의견 주셨으면 합니다. --마소리스 2007년 1월 3일 (수) 04:02 (KST)[답변]

괜찮은 것 같네요 :) ― Yes0song 2007년 1월 4일 (목) 13:33 (KST)[답변]
어떻게 다른사람들이 토론에 참여하게 할 수 있을지 모르겠군요. 좀 더 정리 후 중국어 위키백과에 알릴 계획입니다. 그리고, 메타의 해당 문서 토론에 영어로 의견 적어주셨으면 합니다. --마소리스 2007년 1월 4일 (금) 19:05 (KST)[답변]

편집 화면에서 한자를 파란 한글로?[편집]

한자를 무조건 파란 한글로 나타내 버리면 어떤 한잔지 알 수 없잖아요? 그리고 만약 한자를 쳐 넣다 실수로 잘못 변환했는데도 뭘로 변환했는지 알 길이 없어서 잘못 변환한 상태로 올려 버릴 수도 있고요. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2007년 1월 8일 (월) 04:42 (KST)[답변]

사용자:Yes0song/다지모/한자 혼용판 도입#요약에 좀더 상세히 적었습니다. 즉, 편집화면을 열 때만 한자가 파란 한글로 변환되고, 이 후에 추가적으로 입력한 것은 변환되지 않게 할 생각입니다. --마소리스 2007년 1월 8일 (화) 16:49 (KST)[답변]

한자 혼용판을 지원하려 하는 것보다[편집]

한자 혼용판을 지원하려 하는 것보다 차라리 한/글의 빠른 교정 데이터를 바탕으로 한 '자동 맞춤법 검사기'를 만드는 건 어떨까요? 에스페란토 위키백과에선 익소 시스테모를 써서 Ĉ, Ĝ, Ĥ, Ĵ, Ŝ, Ŭ를 입력하니까 이것도 문제 없을 것 같은데요.

예를 들어 틀린 말 '-읍니다'를 맞는 말 '-습니다'로, '뒷처리'를 '뒤처리'로, 올리는 즉시 한꺼번에 바꿀 수도 있죠. 고치지 않아야 할 말('모읍니다')은 틀린 말과 맞는 말을 같게 입력하면 고쳐지지 않게 하고요. 실제로 한/글에선 그렇게 처리하고 있습니다.

또한 '-ㄹ께'를 '-ㄹ게'로 바꾸는 것도 현재 유니코드 기반에서는 받침이 ㄹ인 글자 찾는 게 그리 어려운 일도 아니니 쉽게 해결할 수 있을 것으로 보이고요.

그리고 토씨 또한 자동 변환을 해 줘야 하는데, 토씨 목록은 지금 국립국어원 묻고 답하기에 물어봤고, 국립국어원에서도 제대로 된 답이 없으면 제가 알아서 토씨 목록을 만들면 되니 토씨 자동 변환 또한 별 문제 없겠죠.

물론 한/글의 빠른 교정 데이터에도 오류가 없진 않겠죠. 하지만 그거 또한 추후에 살펴보며 오류가 생길 만한 건(들어 오 → 들어오: '들어 오히려'를 쓰면 '들어오히려'가 되는 문제가 있음) 지워 버리면 해결됩니다. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2007년 1월 8일 (월) 10:41 (KST)[답변]

그런것을 쉽게 만들 수 있었더라면, 진작에 오픈오피스파이어폭스에 한국어 맞춤법 검사 시스템이 탑재되었겠죠? 현재 한국어 위키백과의 사용자 수로는 맞춤법 검사기 제작은 커녕, 현재 다지모에서 주장하는 한자 혼용판 도입 기술 제작도 불가능합니다. 제가 기대 하고 있는 것은 한자 혼용판 도입 기술의 경우, 다양한 표기법을 사용하는 다른 위키백과에서도 비슷한 기술의 요구가 있기 떄문에, 그 위키백과의 사용자와 힘을 합치면 어느정도 가능하지 않을까 생각하고 있습니다. --마소리스 2007년 1월 8일 (화) 16:46 (KST)[답변]
맞춤법 검사라기보다, 한/글에 있는 '빠른 교정' 기능을 따라해서 만드는 것입니다. 이 빠른 교정 기능은 무조건 동작하고요. ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2007년 1월 13일 (토) 14:07 (KST)[답변]

위키백과에 기능을 추가하려면, 위키백과를 개발 할 수 있는 프로그래머가 필요합니다. 프로그래머가 아닌 일반 사용자로서는 의견을 모아서, 프로그래머에게 요구하는 방법밖에 없습니다. 그것이 현재 메타 위키에서 이루어지고 있죠.

따라서, 기능을 추가하려면 다음과 같은 방법이 있을 겁니다;

  1. 메타 위키에 단독으로 직접 요구합니다.
  2. 해당 기능이 필요한, 다른 위키백과 사용자들과 함께 요구합니다.
  3. 한국어 위키백과에서 활동하며, 위키 개발을 할 수 있는 프로그래머에게 요청합니다.

어떻게 생각하세요? --마소리스 2007년 1월 15일 (월) 07:07 (KST)[답변]

토끼군 님이 있지 않습니까 -_- ―에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2007년 1월 15일 (월) 07:08 (KST)[답변]
토끼군 님은 요즘 바쁘신 것 같던데요? -- 파란로봇군 2007년 1월 15일 (월) 08:55 (KST)[답변]

한자 혼용판 도입의 의의[편집]

갑자기 뜬금없는 소리지만, 위키백과에 한자 혼용판 도입으로 인해 얻을 수 있는 이점에 대해 한번 생각해 보았으면 합니다. 사용자:Yes0song/다지모/한자 혼용판 도입한자 병기 문제전문적 문서라는 두 가지 측면을 적었으나, 이는 저 혼자 생각하여 적은 것이며, 다른 사람의 의견을 듣지 못했습니다. 그 밖에 어떤 좋은 점이 있을지 의견 부탁합니다. --마소리스 2007년 1월 26일 (금) 00:54 (KST)[답변]

[새소식] 중국어판 zh-sg 본격 가동[편집]

그동안 不转换(변환하지 않음), 简体(zh-cn: 중국 대륙 간체), 台灣正體(zh-tw: 타이완 정·번체), 港澳繁體(zh-hk: 홍콩·마카오 정·번체) 4가지 옵션만 운용해온 중국어 위키백과에서 马新简体(zh-sg: 말레이시아·싱가포르 간체) 옵션을 추가했습니다. 이것은 당초 cn, tw, sg, hk 네 개 지역 방언 변환을 목표로 해왔던 자동 변환기가 거의 완성 단계에 이른 것이 아닌가 생각됩니다. ― Yes0song 2007년 1월 28일 (일) 00:03 (KST)[답변]

한자 혼용판의 심각한 결점[편집]

정규화 알고리즘을 꺼도 해결되지 않는 문제가 있지만(모란, 오뉴월, 시월), 켜도 해결되지 않는 문제가 있습니다. 아래에 제시한 예는 정말 심각한 결점 중 하나일 겁니다.

  • '일절'과 '일체'는 한자 표기가 같지만, 뜻은 다릅니다.
  • '갱신'과 '경신' 또한 한자 표기가 같지만, 뜻은 다릅니다.

에멜무지로 (discusión · contribuciones · información · registro · e-mail) 2007년 2월 3일 (토) 14:02 (KST)[답변]

중국어 위키백과에 간체자번체자로 변환할 때 마찬가지 문제가 발생합니다 이런것은 가장 많이 사용되는 발음으로 변환하고, 그렇지 못한 부분은 예외처리하는 방식으로 해결해야 할 것입니다. --마소리스 2007년 2월 3일 (토) 14:51 (KST)[답변]

정규화 알고리즘과 두음법칙[편집]

다지모에서 정규화 알고리즘을 끄자고 하는 이유는, 두음법칙 때문입니다. 두음법칙은 한국어 맞춤법 제3장 제5절[5]에 나와 있습니다. 이는 규칙적인 규칙이며, 이러한 규칙은 일반적으로 형태소 단위로 적용 된다는 특징이 있습니다.

만약 한자혼용판을 정규화 알고리즘을 끔으로써 구현할 경우 다음과 같은 문제점이 발생할 수 있습니다:

  1. 정규화 알고리즘을 끄는 것을 세계적인 흐름을 거스르는 행위입니다. 이는 세계적으로 한 글자에 하나의 코드를 적용 하는것이 유니코드의 목표이며, 위키백과는 이 목표를 따라가고 있습니다.
  2. 기존의 한자 혼용 자료와 호환성을 보장할 수 없습니다. 이미 정규화 알고리즘이 적용되어 있는 위키자료집뿐만 아니라, 기존의 자료도 또한 다지모에서 원하는 한자 혼용방식으로 되어있다는 것을 보장할 수 없습니다.

따라서 저는 정규화 알고리즘을 끄지 않고, 정규화 알고리즘과 호환되는 한자 혼용판을 구현하는 것이 좀 더 오래걸리긴 하겠지만 더 나은 방법이라고 생각합니다. --마소리스 2007년 2월 3일 (토) 14:28 (KST)[답변]

저는 프로그램 개발자는 아닙니다만 정규화 알고리즘과 호환되는 한자 혼용판을 구축하는 것이 과연 가능한 일인지 의심스럽습니다. 합성 명사에 두음법칙이 적용되는 경우('新性' 등)에는 사전 DB 구축밖에는 방법이 없어보이는데, 이렇게 될 경우 사전 DB 작업이 영원히 끝나지 않을 수 있습니다. 계속 신어(新語)가 쏟아져 나오는데 어떻게 일일이 대응할 수 있을지 의문입니다.
또 1번의 경우, 세계적으로 한 글자에 하나의 코드를 적용하고 있는 추세이기는 하지만, 아직 대한민국에서는 일반적이지 않습니다. 대한민국에서는 아직 한자 데이터 처리에는 발음별로 코드를 달리하는 게 우세한 것으로 압니다.
2번의 경우는 좀 더 생각을 해봐야 할 것 같습니다. 위키자료집의 경우에는 일정 계도 기간(?)을 두어 재편집하게 하거나, 아예 위키자료집에 대해서만 영구히 자동 변환기를 도입하지 않는 방법(예외 설정)도 생각해 볼 수 있을 것 같습니다. ― Yes0song 2007년 2월 4일 (일) 09:19 (KST)[답변]
DB로 쓸만한 자료를 사용자:Yes0song/다지모/hanja.txt‎에 올려 놓았습니다. 정리하는게 관건이지만요. 약 4만개니까 왠만한 단어는 전부 있지 않을까요? --마소리스 2007년 2월 4일 (일) 12:19 (KST)[답변]


호환성 문제가 위키자료집에서 만 일어나는 것도 아닙니다. 호환성 문제는 다음과 같은 경우에도 발생합니다.

  1. 한국어 위키백과내의 한자 병기
  2. 위키자료집 내부 자료
  3. 정규화 알고리즘을 준수하는 다른 사이트에 있는 자료
  4. 다른 언어 위키백과
  5. 금, 김 문제와 같이 입력기마다 맵핑 코드가 다른경우.
  6. 기타 역사적 자료가 다지모에서 원하는 맵핑 방식으로 있으리라고 보장할 수 없음.

따라서, 위와 같은 사항을 위해 일일이 수동으로 변환 하는 것은 불가능 합니다. 만일 정규화 알고리즘을 off하여, 한자판을 구현한다면, 위와 같은 자료를 위해 또다시, 정규화 알고리즘이 적용된 자료를 다지모에서 원하는 비 정규화 알고리즘을 만드는 데이터 베이스를 구축해야 합니다.

가장 큰 문제는 정규화 알고리즘을 끔으로서, 기존의 정규화 알고리즘이 적용된 한자 데이터와 정규화 알고리즘을 끈 데이터와 호환성을 보장할 수 없다는 것입니다. 이로 인해 기존의 한자 데이터는 모두 불완전하여 모두 수정해야 하는 데이터가 되어 버립니다. 제가 생각할 때 이는 절대 좋은 방안이 아닙니다. --마소리스 2007년 2월 7일 (수) 00:20 (KST)[답변]


나중에 연변말 페이지 추가할 때 참고했으면 좋겠습니다.[편집]

제가 작업장에 사용자:Russ/작업장/중국조선말을 만들었는데, 이걸 참고하는 것도 좋을 것 같습니다. --루스 2007년 2월 9일 (토) 18:42 (KST)[답변]

한자 혼용판 구축에 관해 더 생각해 봐야 할 점[편집]

띄어쓰기 문제[편집]

보통 한글 전용일 때는 띄어쓰기가 많은 편이고, 한자 혼용일 때는 띄어쓰기가 좀 적은 편입니다.

한 예로 '고속 도로'와 '高速道路'를 들 수 있습니다. 이런 건 어떻게 처리하는 게 좋을지 한 번 생각해 보는 게 좋을 것 같습니다. 그냥 강제로 '고속도로/高速道路'나 '고속 도로/高速 道路'처럼 한 쪽으로 띄어쓰기를 통일하도록 하는 것도 생각해 볼 수 있겠구요, 별도의 태그를 써서 '고속 도로/高速道路'가 구현되게 하는 방안을 생각해 볼 수도 있겠죠. ― Yes0song 2007년 2월 6일 (수) 23:39


괄호 속 한자 병기 문제[편집]

m:User:Yes0song/ko 자동변환기#특수한 변환 항목에서 다룬 것인데요, 거기서 저는 다음과 같이 정리했습니다.

  1. ko-kr에서는 '한글(漢字', ko-hanja에서는 '漢字'로 나타나게 하는 경우 (ko-kr에서는 한자를 병기, ko-hanja에서는 한자만 표시하는 경우)
  2. ko-kr에서는 '한글(漢字', ko-hanja에서는 '漢字(한글'로 나타나게 하는 경우 (ko-kr, ko-hanja 모두 한자와 한글을 병기하되 문자 표기 순서만 달라지게 하는 경우)
  3. ko-kr에서는 '한글(漢字', ko-hanja에서는 '漢字(한글'로 나타나게 하는 경우 (대개 문서의 처음 부분에서 사용됨)

1은 한글 전용 모드에서 '노무현(盧武鉉)', '홍길동(洪吉童; 1700년~?)'과 같이 나타나고, 한자 혼용 모드에서 '盧武鉉', '洪吉童(1700年~?)'과 같이 나타나는 것을 말합니다(밑줄은 위 1, 2, 3에서 보여준 것에 해당되는 부분을 표시한 것임).

2는 한글 전용 모드에서 '노무현(盧武鉉)', '홍길동(洪吉童; 1700년~?)'과 같이 나타나고, 한자 혼용 모드에서 '盧武鉉(노무현)', '洪吉童(홍길동; 1700年~?)'과 같이 나타나는 것을 말합니다.

3은 문서 시작 부분에서 주로 쓰는 것이라 따로 항목을 만들었습니다(2의 확장판으로 볼 수 있습니다). 3은 한글 전용 모드에서 '노무현(盧武鉉)', '홍길동(洪吉童; 1700년~?)'과 같이 나타나고, 한자 혼용 모드에서 '盧武鉉(노무현)', '洪吉童(홍길동; 1700年~?)'과 같이 나타나는 것을 말합니다.

이런 것들을 어떻게 처리할 것인지도 생각을 해볼 필요가 있습니다. ― Yes0song 2007년 2월 6일 (수) 23:39 (KST)[답변]

저 같으면, 편집창에서 편집할 때 붙여야하는 태그가 가장 쉽고 간단한걸로 하겠습니다. 1, 2, 3번 중에서 고르라면, 1번이 가장 간단하지요. 또한, 한자판은 한자를 어느정도 읽을 수 있는 분이 이용할 것인데, 굳이 한글 병기를 해야 하는 지도 의문이군요. 가독성만 떨어트릴 것 같네요. --마소리스 2007년 2월 8일 (목) 01:51 (KST)[답변]
표제어에 대해서는 한글을 병기하는 것이 낫다고 봅니다. 일본어판도 표제어에 대해서는 가나를 병기하고 있습니다. 그리고 간혹 특이한 한자나 발음이 특이한 경우에 한글 독음 병기가 필요한 경우가 분명히 있습니다. ― Yes0song 2007년 2월 11일 (월) 17:13 (KST)[답변]

아이디어: 곁가지로 도입해보면 좋은 것[편집]

지금 논의되고 있는 한자 혼용판 도입이나, 미래의 북한·연변어판 도입과는 별개로, 위키백과에 도입하면 좋을 것으로 생각되는 것들을 생각해 봤습니다. 한자 혼용판 등 도입과 동시에 할 수도 있고 따로 할 수도 있는 작은 아이템(?)들입니다.

한글 정규화 알고리즘 off[편집]

유니코드 정규화 알고리즘이 옛한글에 적용될 때 문제가 되는 일이 있습니다(틀토론:첫가끝#유니코드 정규화 참고). 아예 한자 정규화 알고리즘 off하는 김에 한글에 대해서도 정규화 알고리즘을 off시켜서 옛한글 입력 시 편리하게 하면 좋을 것 같습니다.

옛한글 코드 간 변환[편집]

옛한글을 읽어보신 분은 아시겠지만 옛한글에는 크게 '첫가끝' 방식과 '한양 PUA' 방식이 있습니다. 사용자 설정에 따라 본문에 나오는 옛한글의 인코딩을 전환(첫가끝↔한양 PUA)할 수 있게 하면 편리할 것 같습니다. 첫가끝 모드에서는 옛한글이 첫가끝으로 표시되게 하고, 한양 PUA 모드에서는 옛한글이 한양 PUA로 표시되게 변환을 해주는 겁니다.

세로쓰기 지원(IE 전용)[편집]

아직 세로쓰기가 지원되는 웹브라우저는 인터넷 익스플로러밖에 없는 것으로 압니다. 일단 IE 전용으로 지원한다고 치고 제 아이디어를 말씀드리겠습니다.

세로쓰기 모드로 위키백과를 보면, 문서를 세로쓰기로 보여주되 구두점을 세로쓰기용으로 변환해서 보여주게 합니다. 가로쓰기의 .,‘’“”는 세로쓰기 모드에서 。、「」『』으로 변경해주는 것이지요. 물론 변환하면 안 되는 경우(영어를 인용해 왔을 때, 숫자 사이에서 쓰였을 때 등)가 있으니 그것을 처리하는 방법을 조금 연구해야 할 겁니다.

Yes0song 2007년 2월 6일 (수) 23:57 (KST)[답변]

두번째 경우의 말씀입니다만, 프로세스에 대해서 설명해 주실수 있나요? 저게 가능하다는 사실이 믿어지지가 않습니다. 개인적으로는, 한양 PUA만을 지지하는 사람으로서, 글꼴 깨지는 첫가끝이 보정되어서 정상적으로 한양으로 볼수 있다면 하는 생각이 원래부터 있었습니다만, 저게 되면 희소식이 되겠군요. - Ellif 2007년 2월 11일 (월) 23:25 (KST)[답변]
저는 프로그램 개발자는 아닙니다만 안 될 게 뭐 있을까요? 이미 두 코드간 변환 테이블은 완성이 돼 있는 걸로 아는데, 그걸 이용해서 상호 변환하게 하면 그만 아닐까요? ― Yes0song 2007년 2월 13일 (수) 15:32 (KST)[답변]

정규화 알고리즘을 끌 수밖에 없는 이유[편집]

사람 이름 같은 경우 일일이 사전 DB로 만들 수 없습니다. 게다가 대한민국에서는 영희, 선동, 전광 같이 두음법칙을 지키는 사람과 안 지키는 사람이 섞여 있습니다. 결국 정규화 알고리즘을 꺼서 이런 구분을 지어주는 수밖에 없다고 봅니다.

정규화 알고리즘을 껐을 때 발생하는 금·김 문제 등의 경우, 한/글 쪽으로 통일을 해준다던가 하는 방법을 쓰는 수밖에 없을 것 같습니다. 한자 혼용판을 작성하는 사람은 소수일테니 이 소수의 사람들이 철저히 숙지를 해서 조심스럽게 작성하는 수밖에 없을 것 같습니다(부차적으로, 새나루 등 IME 제작하는 곳에 의뢰해서 위키백과 사정에 맞는 IME를 만들어 달라고 부탁해 보는 것도 생각해 볼 수 있습니다). ― Yes0song 2007년 2월 14일 (수) 13:53 (KST)[답변]

정규화 알고리즘을 적용한 채로 변환한 인명 목록입니다. --마소리스 2007년 2월 14일 (목) 15:24 (KST)[답변]

위에 말씀 드린것과 추가적으로 다음과 같은 이유로 정규화 알고리즘을 끄는데 반대합니다.

호환성 문제
  1. 한국어 위키백과내의 한자 병기 (수동으로 모두 변환하는 것은 불가능)
  2. 위키자료집 내부 자료 (수동으로 모두 변환하는 것은 불가능)
  3. 정규화 알고리즘을 준수하는 다른 사이트에 있는 자료
  4. 다른 언어 위키백과
  5. 금, 김 문제와 같이 입력기마다 맵핑 코드가 다른경우. (정규화 알고리즘 사용시 전혀 문제가 없음)
  6. 기타 역사적 자료가 다지모에서 원하는 맵핑 방식으로 있으리라고 보장할 수 없음.
관리상의 문제
  1. 만일 기존의 한자를 일괄 변환해야 할 필요가 있을 때, 한중일 호환용 한자까지 고려햐야하므로 관리자의 입장에서는 좋지 않다.
  2. 모든 음을 한중일 호환용 한자로 처리할 수 없으므로, 어차피 예외 처리는 해야한다.
  3. 한중일 호환용 한자에 관한 문제가 발생해도, 다른 위키백과에서는 나타나지 않는 문제이므로, 한국어 위키백과 스스로 해결해야 한다.
한자 혼용판 작성자
  1. 한자판을 도입할 경우 어차피 한자 혼용판 작성자가 예외처리방식 및 내부 한자변환방식에 대해 이해 해야 한다.
  2. 한자판을 작성하는 사람은 컴퓨터에 관해 전혀 무지한 사람일 수도 있다.
  3. 그렇다면 과연 한자 하나당 여러개의 코드를 배정하는 쪽이 작성자가 이해하기 쉬울까? 아니면, 한자 하나당 하나를 배정하는 쪽이 이해하기 쉬울까?

아무리 생각해도 장점보다 단점이 너무 많습니다. 특히 기존의 자료에 관해서는 어떻게 할 방법이 없습니다. 제 생각에는 한자혼용으로 작성할 사람이 어차피 한자혼용과 예외처리에 대해 어차피 숙지해야 한다면 정규화 알고리즘을 사용하는 쪽으로 가는게 좋을 것 같습니다. --마소리스 2007년 2월 14일 (목) 15:36 (KST)[답변]

알고리즘을 안 끌 경우 사람 이름은 어떻게 하실 생각이신지요? 김씨 성을 가진 사람을 일일이 DB에 등록해야 할 텐데요? 무슨 수로 다 처리할 것인지요? ― Yes0song 2007년 2월 14일 (목) 18:39 (KST)[답변]
한국의 성씨 같은 경우는, '金'이 기본적으로 '김'으로 바뀌게할 생각입니다. 다른 자주 쓰이는 성씨도 마찬가지고요. 그리고 문서의 첫번째 줄에 -{A|hanj:金 hang:금}- 같은 예외처리 구문을 추가하여 예외처리 하면됩니다. 이것으로도 정상적으로 변환이 되지 않는 고유명사의 경우는, 자주 쓰이는 고유명사만을 DB에 등록하고 나머지는 모두 예외처리 방식으로 해결할 생각입니다. 어차피 이러한 문제는 한자혼용판 사용자가 한자혼용으로된 문서를 입력하면서 발생하니, 한자혼용판 사용자가 이러한 것을 숙지하여 사용한다면 아무런 문제가 없을 것입니다. --마소리스 2007년 2월 14일 (목) 18:53 (KST)[답변]
이제 이해했습니다. :) ― Yes0song 2007년 2월 14일 (목) 22:07 (KST)[답변]

지금 제작업장을 보시면 알겠지만, 제가 연변말페지를 만들때 제사용자:Russ/작업장/중국조선말을 참고했으면 하는 소망입니다. 그리고 지금 제가 문화어를 수집하고있는데, 문화어페지도 제것을 참고해서 만들었으면 하는 바람입니다. --루스 2007년 2월 16일 (토) 15:58 (KST)[답변]

테스트위키[편집]

여기는 마소리스 님이 만드신 테스트 위키에 관해서 이야기를 나누는 섹션입니다. 아무래도 아직 이게 위키백과의 공식 정책이 아니라서 사랑방에서 이야기하는 것보다 여기서 이야기하는 것이 나을 것 같네요. ― Yes0song 2007년 2월 18일 (일) 10:41 (KST)[답변]

한자 입력기[편집]

국한문 혼용을 일본어, 또는 중국어에서 한자를 입력하듯이 입력할 수 있는 그러한 입력기가 아직까지 없습니다. 제가 알기로는 그러한 것이 없는 이유는, 일본어 또는 중국어와 달리 공백을 사용하는 한국어에서는 공백을 어떻게 입력할 것인가 또는 어떻게 하면 편리한 한자혼용 한국어 입력기를 만들수 있는가와 같은 아이디어가 없는 것이 문제인것 같습니다. 따라서 제 생각에는 다지모에서 이러한 것도 논의하는 것이 좋을 것 같습니다. --마소리스 2007년 2월 18일 (월) 19:48 (KST)[답변]

일단 그나마 비슷한 기능을 제공하는 게 새나루 최신판(정식판은 모르겠고 베타판)입니다. 새나루에서 단어단위 편집 기능 옵션을 켜두고 한자 변환을 하는 것이지요. 새나루에서 좀 더 보강되어야 더 편리한 입력이 가능하게 되리라 봅니다. ― Yes0song 2007년 2월 18일 (월) 22:43 (KST)[답변]
제말은 아무도 새나루의 한자 입력기를 보강할 생각을 하지 않는다는 것이죠. 입력기를 보강하려면 어떻게 하면 편리할지에 관한 아이디어가 있어야하는데, 아무도 생각해 내지 않으니, 더 이상 보강될 일이 없죠. 그런 아이디어를 내려면 한자혼용글을 많이 입력해 본 경험자가 필요한데, 새나루의 개발진 중에 그러한 사람이 있을지 의문이군요. --마소리스 2007년 2월 19일 (월) 10:40 (KST)[답변]
사용자:Yes0song/다지모/한자입력기에 제 생각을 적어보았습니다. --마소리스 2007년 2월 19일 (월) 12:38 (KST)[답변]

한자 혼용판 도입에 관해..[편집]

모르지만 테스트 위키까지 생기고 하니, 예전부터 생각하고 있었던 것에 대해 여쭙고 싶어 상당히 쌩뚱맞을지도 모르는 이 글을 씁니다. 다지모에서 추진하고자 하는 하는 한국어 위키백과는 대충 '한글 전용', '한자 혼용', '문화어 한글 전용' 정도로 보입니다. 그런데 한자 혼용의 경우 어느 정도 수준에서 자르는 것 없이 일괄적으로 한자어로 작성됩니다. 이는 상당히 불편한 체계로 보입니다. 한자의 혼용이 필요한 단어가 있는 반면 그렇지 않은 것도 많습니다. 단순히 뜻을 명확하게 하기 위해서는 현재 한국어 위키백과의 문서들이 그렇듯, 한글(漢字)로 표기해도 충분치 않습니까? 다지모에서 추진하는 바와 같은 완전 한자 전용/완전 한글 전용으로바뀌게 될 경우, 읽는 중 모르는 한자가 나오면 위에 클릭해서 한글 전용으로 바꾸어서 보던지 옥편을 찾아 봐야합니다. 또한 한글전용으로 읽다가 애매한 단어가 나오면, 한자 전용으로 바꾸어서 보던지 국어사전을 찾아서 어떤 뜻으로 쓰였나 확인해 보아야 하는 새로운 불편함이 생깁니다. 제가 다지모에 대해 제대로 파악하지 못하고 있어서 잘못 생각하고 있는 것일지도 모르나, 제가 보기엔 단순한 한글(漢字) 표기에 비해, 현행 체계를 완전히 바꾸어야 할 만한 이점이 있어 보이지 않습니다. 이에 대한 답변 부탁드립니다. --hnc197 2007년 2월 22일 (목) 00:35 (KST)[답변]

한자 혼용판에서도 한자 표기가 가능한 모든 단어들을 전부 한자 표기를 하는 경우와 일부 필수적인 단어들만 특별히 태깅을 해서 부분 한자 병기를 하는 경우로 나누면 되지 않을까요? 편집자의 의도가 개입이 되어서 반드시 한자 표기를 병기해야 할 단어에 이런 정보를 입력하는 겁니다. 주로 일상적인 단어보다는 고유 명사나 혼동의 여지가 높은 동음이의어에 대해서 필수 한자 표기 태그를 달면 좋겠습니다. 아니면 한자 난이도에 맞추어서 개인별로 자신의 한자 수준 이상의 한자가 들어간 단어들만 음을 표기하는 옵션을 넣는 것도 생각해 볼 수 있겠네요. 일단 지금의 한국어 위키백과처럼 일부 소수의 단어에 대해서만 한자를 병기하고 있는 표기법도 쉽게 생성할 수 있어야 한다는 것은 반드시 필요한 기능이라고 생각합니다.--시간 파리 2007년 2월 22일 (목) 01:26 (KST)[답변]
제 생각에는 한자를 보존하기 위해서가 아닐까 생각합니다. 예를들어 서울특별시#행정 구역의 문서를 봅시다. 서울특별시에는 여러가지 구가 있는데, 한자 혼용이 한참 사용되었을 때는 이 구 이름이 한자로 표기되었겠죠, 하지만 지금은 어떻습니까? 만일 어떤 사람이 서울특별시에 있는 구의 어원을 조사하기 위해, 한자 명칭을 찾는다고 해 봅시다. 제가 볼 때에는 그런 것을 찾고 싶다면, 한국어 위키백과 보다는 일본어나 중국어 위키백과가 더 적합할 것입니다. hnc197님은 이러한 것은 한자를 병기하면 된다고 생각하실지 모르겠지만, 이러한 것에 반대하는 사람도 있습니다. 예전에 이런 문제로 사용자:에멜무지로님과 충돌이 있었던 걸로 알고 있습니다.
그리고 한자는 한글보다 훨씬 불리한 위치에 있습니다. 만일 한글(漢字)로 혼용된 단어가 있을 경우, 이를 누군가가 지울 수 있습니다. 현재의 상황에서는 표제어이거나, 그에 준하는 단어가 아닐 경우에는 한자가 삭제되어도 굳이 되돌리지 않습니다. 제가 생각할 때 이는 정보의 상실입니다. 특히 역사에 관한 자료에서 이러한 정보가 지워진다면 큰 손실이겠지요. 한자는 한글에 비해 입력하기가 까다롭기 때문에, 한글에 비해 한자데이터를 복구하기가 어렵습니다.
또한 한글(漢字)로 한자를 병기할 경우에는 더 많은 신경을 써야합니다. "한글"은 2글자 입니다. "漢字"도 2글자 입니다. "한글(漢字)"는 4글자가 아니라, 괄호를 포함해서, 6글자입니다. 즉 사실상 데이터의 양이 3배 차이가 납니다. 아시다시피 데이터는 많을 수록 관리하기가 어렵습니다. 위키백과자체에서 이러한 한자 데이터 처리가 가능하다면, 한자 혼용으로 인한 (시간적) 비용을 줄어 줄 것입니다. 예를들어, 한자 혼용이 필요한 역사적 고유명사를 입력하려면 굳이 "한글(漢字)"로 만드는 수고 없이, "漢字"만 입력하면 됩니다.
한자 혼용판의 도입으로 얻을 수 있는 이점은, 일반 사용자보다는 역사를 전공한 사람 처럼, 한자를 많이 다루는 사람에게 더 유용하게 쓰일 것입니다. --마소리스 2007년 2월 22일 (목) 02:03 (KST)[답변]
에멜무지로씨 혼자의 의견이 전체 한국어 사용자를 반영한다고 일반화 할 수 없다고 봅니다. 오히려 그 경우는 대다수가 반대한 특수한 경우로 따져야 한다고 봅니다.
그리고, 마소리스님의 말씀에는 개인별 한자 수준이라던지 한글 전용판에서의 꼭 필요한 한자의 처리에 대한 대안이 없습니다. 시간파리님이 말씀하신 바처럼 "필수 한자"와 같은 것을 테그를 이용해서 지정해 놓을 수도 있겠지만, 이는 마소리스님이 한자 혼용판 도입의 근거로 삼으신 "시간적 손실을 막는다"에 모순됩니다.
마지막으로 마소리스님의 의견에 따르면, 일부 사용자의 편의를 이유로 다른 여러 사용자들의 번거로움은 감안할 수 밖에 없다는 말씀이신지요? 그럴바엔 차라리 자동 변환기 도입보다는 simple english 위키백과와 같이 한자 전용 위키백과를 신설하는게 낫다고 봅니다. --hnc197 2007년 2월 22일 (금) 15:30 (KST)[답변]
따로 한자 강조 태그를 만들어도 되지만 위키미디어의 기본 태그 중에 한글에서는 거의 쓰지 않는 ''기울인 글씨'' 태그를 이용해서 ''漢字''처럼 입력한 경우엔 강조의 의미로 해석해서 일부 한자 병기판에서는 ‘한자(漢字)’로 표기한다면 입력 자체의 번거러움이나 시간적 손실도 그다지 크지 않을 것 같습니다. 그리고 한자 난이도 레벨에 따른 발음 표기도 쉽게 구현이 될 것으로 보입니다. 초중고 필수 한자들이 잘 분류가 되어 있어서 이런 정보를 이용하기도 쉽고 발음이 틀리기 쉽거나 혼동이 높은 예외적인 한자들도 어느정도 쉽게 데이터를 만들 수가 있습니다. --시간 파리 2007년 2월 22일 (금) 17:59 (KST)[답변]

특수 문법이나 추가 편집용 자바스크립트 도입은 위험합니다. 위키백과에 적용 가능한지는 차치하더라도 자바스크립트를 사용하지 않는 사용자나 외부 편집기를 사용하는 경우, 봇을 사용하는 경우, 기존 자료와의 충돌 가능성 여부 등등 예상되는 꼬임이 상당합니다.

한자 표기가 필요하다면 그냥 한글 표기와 함께 쓰면 됩니다. 왜 한자를 굳이 한글로 변환하려 하나요? 용량 문제는 극히 미미하니 걱정하지 않으셔도 됩니다. --Klutzy 2007년 2월 22일 (금) 21:15 (KST)[답변]

저의 한자 혼용판 도입에 대한 생각은, 사용자:Yes0song/다지모/한자 혼용판 도입에 적혀 있습니다. 제가 한자 혼용판 도입시 가장 중요하게 생각하는 점은, 첫번째 원칙인 "한글판 사용자는 기존과 마찬가지로 편하게 사용할 수 있어야 한다"는 점입니다. 따라서, 현재 중국어 위키백과의 기술을 그대로 한국어 위키백과에 적용할 생각은 없습니다. 중국어 위키백과의 기술을 그대로 사용하기에는 한글 전용 (또는 혼용)으로 글을 작성하실 분에게 너무 불편합니다.
저는 한국어에 한자 혼용판이 적용되려면 최소한 5년은 걸릴 것이라고 생각하고 있습니다. 그 기간의 대부분은 한글판 사용자가 편하게 사용할 수 있는 방법을 토론하고, 기술적 문제를 해결하기 위한 시간이 될 것입니다.
한국어 위키백과가 대한민국표준어 뿐만아니라, 문화어나 한자혼용까지도 지원하는 방향으로 나아갔으면 좋겠습니다. 다수에 의한 한국어가 아닌, 각각의 사용자가 선호하는 형태의 한국어로 한국어 위키백과에 기여를 할 수 있다면 얼마나 좋겠습니까? 하지만, 이런 도입으로 인해 다수의 한국어(표준어)를 사용하는 사람에게는 불편함이 없어야할 것입니다. 그러한 불편함의 해결책을 찾는 일이 다지모에서 하는 일이라고 생각합니다. --마소리스 2007년 2월 23일 (금) 14:09 (KST)[답변]
글쌔요, 아무리 그렇다 하더라도 한자혼용이 한글판을 덮는 형식은 뭔가 잘못되었다 봅니다. 한자 혼용이 중요하다고 주장하시는 분야에 비해서 그렇지 않은 분야의 글이 더 많지 않습니까? --hnc197 2007년 2월 26일 (화) 23:20 (KST)[답변]
표준어판, 문화어판, 한자판으로 나눌 경우, 지금은 구현방식에 의하면 원본은 한국어의 표현 방식이 마구 섞인 형태의 것이 될 것입니다. 원본이 그렇게 되어 있더라 하더라도, 사용자가 그러한 판을 직접 다루어야 하는 일은 없어야하겠죠. 해당 표기법중 어떤 표기법으로도 볼 수 있어야 하고, 편집할 수 있어야하고, 봇으로 수정할 수 있어야합니다. 서버에 실제로 기록되어 있는 표기법과 사용자가 원하는 표기법이 달라도, 완벽하게 변환해 준다면, 사용에는 아무 문제가 없는 것이지요. "전 위키백과를 오래 썼었는데, 한자혼용판이 있다는 걸 지금 알았어요"라는 소리가 나올정도로 완벽한 변환시스템이 있으면 아무 문제가 없는 것입니다. --마소리스 2007년 3월 1일 (목) 04:50 (KST)[답변]
문제는 구현이 어렵다는 점이겠죠. 완벽한 자연어 처리 기능을 미디어 위키 내에서 돌아가게 제작하지 않는 이상 힘듭니다. 현실적으로 별개의 백과(ko-hj라던지..)를 만들 수 밖에 없을 것 같습니다. 여튼 이쯤 하겠습니다. --hnc197 2007년 3월 3일 (일) 23:13 (KST)[답변]
맞습니다. 저도 다지모의 일원으로 지금 문화어, 중국조선말을 수집하고 있어요. 언제인지는 모르겠지만, 통일이 된다면 남북의 말을 알아야 할 시대가 올 것입니다. 지금 그래서 통일에 대비하기 위해 연변말과 문화어를 공부함과 동시에, 수집하고 있습니다. 언젠가는 제 작업장의 사용자:Russ/작업장/중국조선말사용자:Russ/작업장/문화어가 필요할 때가 올 겁니다. --루스 2007년 2월 23일 (토) 16:07 (KST)[답변]
죄송한 말씀이지만, 문화어 공부할 시간만큼만 한국어 공부에 투자해 보심이 어떠신지요? --hnc197 2007년 2월 26일 (화) 23:20 (KST) 내용과 상관 없으므로 논외로 하겠습니다. --hnc197 2007년 2월 26일 (화) 23:20 (KST)[답변]

'다양한 표기법 지원 원칙' 제안[편집]

다지모에서 제안하는, 한국어판 위키미디어 프로젝트(한국어 위키백과 포함)의 다양한 표기법 지원 원칙을 세워야 할 것 같습니다. 그래서 제안 드립니다.

다지모에서 제안하는 다양한 표기법 지원은, 최상위 어문 규정에 한정하였으면 합니다. '최상위 어문 규정'이란, 대한민국 표준어·조선민주주의인민공화국 문화어·연변 조선어와 같이 국가나 자치구의 최상위 어문 규정을 말합니다. 이런 원칙을 제안하는 이유는, 최상위 어문 규정에 속하지 않는 지역 방언들까지 지원하라고 중구난방식의 요구가 빗발치는 것을 차단하기 위함입니다.

만약 제주 방언판 위키백과를 만든다고 가정해 봅시다. 제가 제안하는 원칙에 따르자면, 제주 방언판은 한국어 위키백과에서 자동 변환기로 지원하는 대상에서 제외됩니다(대신에 별도의 위키를 만드는 것은 가능합니다. 실제로 다른 언어들을 봐도 지방 방언은 표준어와 별도로 위키를 만들고 있습니다). 제주 방언은 제가 말하는 '최상위 어문 규정'이 아니기 때문(대한민국 하위의 방언이기 때문)입니다.

여러분들의 생각은 어떠신지요? ― Yes0song 2007년 3월 3일 (일) 16:28 (KST)[답변]

기본적인 생각에는 동의합니다. 하지만, 최상위 어문 규정에 한정이라는 표현은, 다른 것으로 바꾸는 것이 좋겠습니다. 사람에 따라서, 한국어 한자 혼용이라던가, 연변 조선어는 최상위 어문 규정이 존재한다고 보지 않는 사람도 있을 것 같습니다. --마소리스 2007년 3월 21일 (목) 15:45 (KST)[답변]

융통성있고 유용한 방식의 표기법[편집]

전 한자 사용이 중급정도인데요. 외국생활하다보니 점점 초급이되더라구요. 그런데 재밌는 건 일본사람과 중국사람은 한자 사용으로 인해 각각 언어로 된 책 해독을 나름대로 해내더라구요. 일단 그동안 버려왔던 한자를 다시 살려내려고 하고 있는데, 그러다보니 한글에서도 지워졌거나 괄호속에 묶였던 한자를 좀 풀어주면 좋겠다고 생각합니다.

한자가 없으면 뜻이 헷갈리는 많은 단어부터 나름대로 사용할 수 있다고 생각하는데요.

예를 들어보죠.


체계 (體系, system)

요약

하나의 통일적 전체를 구성하는 과학적 혹은 철학적 명제의 집합.

본문

체계의 통일은 오늘날에는 대상(對象)이 되는 실재(實在) 구조와의 일치 조응(一致照應)으로서보다도, 대개의 경우 그것을 구성하는 명제 상호간의 내적 정합(內的整合)이라는 측면에서 고찰된다.

그렇다 하더라도 이것은 체계가 실재와 무관계한 인간의 지적·주관적 구성물임을 의미하는 것이 아니라 오히려 그것이 실재의 영역을 처음으로 개시(開示)하고 구성하는, 우리들과 대상의 접점에 존립(存立)의 장소를 가지는 것임을 의미한다.

모든 지적 체계는 항상 체계가 아닌 것, 혹은 다른 체계의 가능성을 향하여 열려 있고, 끊임없이 내적 정합이 추구되는 동시에 외부로 향하여 열려 있는 것이다.


출처는 네이버 백과사전입니다. 개인적으로 무슨말인지 하나도 모르겠습니다. 이게 한글의 현실 아닌가요? 뜻 전달이 제대로 되지 않지만 암묵적으로 사용해온 한자어의 조합으로 이루어진, 특히 외국어의 번역에 있어서도 이런 한자어에 의존하기 때문에 원문을 읽는 것보다 훨씬 어렵게 되어버리는 현상.

위키백과:외국어의 한글 표기에서 제안했듯이 한자도 살려서 쓰면 좋겠걸랑요. 가령,


"체계 (體系, system)"

"體系:체계는 全體:전체를 하나로 짜서 이루는 科學:과학적인 혹은 哲學:철학적인 命題:명제의 모임이다."


이런식으로 대체로 한글로 풀어쓰되 한자 사용시 좀더 효과적으로 사용가능한 방법이 있다고 생각합니다.

Shivadance 2007년 3월 12일 (화) 17:59 (KST)[답변]

편집 화면[편집]

다지모의 구현에 문제가 되는 것은, 원본을 한자 혼용으로 저장하기 때문에, 한글판 사용자에게 불편함이 있다는 것입니다. 편집 화면을 이렇게 만들면 어떨까요?

  1. 韓國의 歷史 (실제로 서버에 저장되어 있는 원본입니다.)
  2. 한국의 역사 (한글판 사용자가 볼 문서 입니다.)
  3. 한국역사 (만일 yes0song님의 말 대로라면 한글판 사용자의 편집화면은 이렇게 나와야 합니다.)
  4. 한국의 역사 (하지만 저는 그렇게 생각하지 않습니다. 서버에서는 그냥 그것을 한글판에 맞게 맞추어서 사용자에게 보냅니다.)
  5. 한국(韓國)의 역사 (사용자가 문서 편집화면에서 "(韓國)"를 추가하여 확인을 누릅니다.)
  6. 韓國(韓國)의 歷史 (서버에서는 원본과 비교하여 바뀐 부분만을 수정합니다. 바뀐 부분을 찾는 알고리즘은 쉽게 만들 수 있습니다.)
  7. 韓國(-{ko-kr:韓國}-)의 歷史 (서버에서 자동으로 예외처리를 해 줍니다.)
  8. 한국(韓國)의 역사 (한글판 사용자가 해당 문서를 본다면 이렇게 바뀌어 있을 것입니다.)
  9. 한국(韓國)의 역사 (한글판 사용자가 편집화면을 본다해도 이렇게 나옵니다. 예외 처리 구문을 보여줄 필요가 없습니다.)

즉, 제 생각을 정리하자면 이렇습니다. 편집화면에서 예외처리 구문을 보여주지 않으며, 예외처리 구문의 처리는 서버에서 알아서합니다. 이렇게 한다면, 한글판 사용자의 입장에서는 지금과 달라지는 것이 전혀 없습니다. 그리고, yes0song님의 제안처럼 글자를 파란색으로 나타낼 필요가 없기 때문에, 편집을 위해 자바스크립트를 사용할 필요도 없습니다. --마소리스 2007년 3월 20일 (화) 11:35 (KST)[답변]

마소리스 님 생각도 괜찮은 것 같네요 ^^ ― Yes0song 2007년 3월 20일 (수) 20:39 (KST)[답변]

제 위키에서 한자 혼용 문서를 테스트해보십시오.[편집]

제 위키가 정식 오픈했습니다. 제 위키에서는 문서를 임의로 얼마든지 작성해볼 수 있습니다. 한자 자동변환기가 설치된 위키이니 그곳에서 한자 혼용 문서를 테스트해 보십시오. ― Yes0song 2007년 4월 5일 (금) 19:32 (KST)[답변]