사용자토론:Yes0song/다지모/제가 생각하는 방법
< 사용자토론:Yes0song | 다지모
Yes0song님의 의견은 너무 복잡하고 추상적이라 제가 의견을 내어 봅니다.
대원칙[편집]
- 한국어 위키백과를 표준어와 문화어로 나누어 표기하지 않고, 한국어 / 한자 위키백과만 중국어 위키백과 처럼 자동 번역으로 지원한다. (이 조건은 한국어 위키 백과에 두음 법칙과 사이시옷 적용을 하지 않음으로서, 기계 번역의 부담을 줄여준다)
- '한자→한글'만 기계 번역으로 처리하고, '한글→한자'는 기계 번역으로 처리하지 않는다.
- 번역기는 최소한의 것만 번역만 해야하고, 나머지는 손으로 예외 처리한다. (이 조건은 번역기에 발생할 수 있는, 예기치 못한 문제를 방지해 주며, 쉽게 구현 하게 해준다)
- '한자→한글→한자' 또는, '한글→한자→한글' 번역시 번역 상의 손실이 없어야 한다.
- 모든 예외는 기본적으로 중국어판과 마찬가지로 -{ko:한글|ko-hanja:漢字}-로 처리한다.
준비물[편집]
- 한자의 대표음을 나타낸 표. (가장 많이 사용하는 두음법칙을 적용하지 않은 음 하나만 나타낸다.)
- 다른 표기틀 / 같은 표기 틀 (-{ko:한글|ko-hanja:漢字}- 방식은 입력하기가 복잡하므로, 사용하기 편하도록 틀을 만들어 사용한다, 다른 표기틀은 {{다른표기틀|한글표기|한자표기}}로 사용하며, 같은 표기틀은 {{같은표기틀|공통표기}}로 사용한다. 이 틀은 예외 처리용이며, 예외 처리가 필요 없을 경우에 사용해서는 안된다.
한자판에서 문서 수정시[편집]
기계 번역기가 작업해야 할 내용은 순서대로 다음과 같다.
- 편집된 부분 만 한글판으로 번역한다.
- 자동 예외 처리에 해당하는 부분이 있을 경우에는 자동 예외 처리 한다.
- '한자의 대표음을 나타낸 표'를 이용하여, 한자→한글로 전환한다.
- 예외 처리에 ko부분이 있을 경우에만 예외 처리로 번역한다.
한글판에서 문서 수정시[편집]
기계 번역기가 작업해야 할 내용은 순서대로 다음과 같다.
- 편집된 부분 만 한자판으로 옮겨서 적용시킨다.
- 자동 예외 처리에 해당하는 부분이 있을 경우에는 자동 예외 처리 한다.
- 예외 처리에 ko-hanja부분이 있을 경우에만 예외 처리로 번역한다.
자동 예외 처리[편집]
- 한글판에서 한글(한자)의 경우 -{ko:한글(한자)|ko-hanja:한자}- 로 바꾸어 준다. (단, 괄호 안과 밖의 글자 수가 같을 경우에만)
- 한자판에서 한자(한글)의 경우 -{ko:한글|ko-hanja:한자(한글)}- 로 바꾸어 준다. (단, 괄호 안과 밖의 글자 수가 같을 경우에만)
도입 순간의 기계 번역[편집]
- '한글판에서 문서 수정시'와 동일하다.
정리[편집]
- 각 한자를 가장 많이 사용하는 발음으로 자동 전환하고, 나머지는 수동이나, 로봇으로 변환합니다.
- 한국어 위키백과가 문화어를 허용한다는 것을 이용하여, 두음법칙과 사이시옷을 무시하는 문화어식의 한자 읽기 방법을 사용합니다.
- 제가 제안하는 방법을 사용할 경우, 준비해야 할 것은 위에서 말한 표와 틀 밖에 없습니다. 또한, 프로그래머가 만들어야 할 기계 번역기의 구조도 상당히 단순 해 집니다. 한국어 위키백과 사용자가 두음법칙과 사이시옷이 없는 한국어를 받아 드리는 것이 문제가 될 수도 있겠지만, 이는 통일 된 한국이 온다면 누구나 받아 들여야 하는 문제 입니다.
--마소리스 2006년 12월 13일 (목) 20:44 (KST)
필요한 준비물 및 알고리즘[편집]
준비해야 할 것을 적어 보았습니다.
준비물[편집]
- 한자의 두음법칙을 적용하지 가장 많이 쓰는 음 하나만 나타낸 표 (GFDL과 호환하는 저작권이여야 한다)
필요한 알고리즘[편집]
한글, 한자 구분 알고리즘[편집]
- 'Hangul Syllables (AC00~D7AF)'는 한글로 처리합니다.
- 'CJK Unified Ideographs (3400~9FFF)'는 한자로 처리합니다.
- 나머지는 번역기가 처리 할 필요가 없으므로, 특수문자로 처리합니다.
기타[편집]
- 快樂, 樂園, 音樂, 樂山 등 한자의 예외 처리는 로봇이나 수동적으로 합니다. 따라서, 로봇을 위한 예외 처리 표를 따로 마련 할 필요가 있습니다.
--마소리스 2006년 12월 13일 (목) 21:36 (KST)
한국어 정책으로 제안 한다면[편집]
한국어 위키의 공식 정책으로 제안 한다면 제안문에는 대략 다음과 같은 내용이 들어 있었으면 합니다.
- 제안의 이유 (대전제)
- 한자판을 따로 만들경우
- 백과사전은 전문성이 따르므로, 한자 이용이 효과적이다.
- 한국어를 어느 정도 할 수 있는, 한자문화권의 다른 외국인이 한국어 기여에 도움을 준다.
- 표준어와 문화어
- 현재 한국어 위키는 표준어와 문화어 모두를 허용 하고 있다.
- 표준어와 문화어 위키를 따로 만드는 것 보다는 함께 만드는 것이 좋다. (....이유)
- 한자판을 따로 만들경우
- 구체적인 방법
- 한자 표를 사용한 전환
- 예외 처리 방법
- 로봇이 해야 할 일
- 한글판/한자판이 나누어 지면
- 초기에는 한글판이 지금과 차이가 없다.
- 한자판에서 문서를 수정 할 경우, 수정된 부분이 한글 판에서는 문화어식 한자 읽기로 나타난다.
표준어 문화어를 구분 한다면[편집]
저는 표준어와 문화어의 구분을 반대하지만, 그런 경우도 한번 가정해 보겠습니다. Yes0song님이 생각하시는 방식의 비슷한 방식을 구현하려면 다음과 같이 해야 합니다.
- 한자 대표음을 나타낸 표에 두음법칙을 적용한 한자를 추가해야 합니다.
- 한국어, 문화어 대응표가 필요 합니다. (이는 지속적으로 업데이트 해야합니다.)
- 예외 처리 표를 만들어야 합니다. (사이시옷과 그 밖의 예외를 처리하기 위해) 표에 필요한 것은, 한자, 표준어, 문화어 입니다.
- 고려해야할 총 경우의 수는 한자→표준어, 한자→문화어, 표준어→한자, 표준어→문화어, 문화어→한자, 문화어→표준어로 총 6가지 입니다. (한자→한국어, 한국어→한자에 비해 3배로 증가합니다)
- 예외 처리 표는 항상 적용 되어야 합니다.
- 한자→표준어 변환시, 위와 같은 처리로 하되, 첫번째 한자어에서만 두음법칙을 적용합니다.
- 한자→문화어 변환시, 위와 같습니다.
- 표준어→한자 변환시, 위와 같습니다.
- 표준어→문화어 변환시, 예외 처리 표로 변환 합니다.
- 문화어→한자 변환시, 위와 같습니다.
- 문화어→표준어 변환시, 예외 처리 표로 변환 합니다.
위의 방식의 문제점[편집]
- 한국어와 문화어가 아닌 많은 위키백과 사용자가 사용할 수 있는 다른 방언을 고려해야 합니다. (예를들어 조선족말)
- 예외 처리 표를 지속적으로 관리 및 업데이트 해 줘야 합니다. 현재 한국어 위키백과의 사람 수로는 사실상 이것이 불가능 합니다.
- 예외 처리 표로 인해 발생 할 수 있는 예외를 항상 수동으로 처리해 줘야 합니다. 이로 인해 최소한 10배 이상의 추가적인 수동 예외 처리가 필요하리라 생각합니다.
- 한자와 한국어만 지원할 경우, 글자 수가 동일하므로, 수정된 부분을 정확히 알아내는 알고리즘을 쉽게 만들 수 있으나, 표준어, 문화어 지원시 글자 수가 다르다는 가정도 포함 해야 하며, 이로 인한 잠재적인 문제가 발생할 수 있습니다.
- 띄어 쓰기 예외 처리는 사실상 불가능 하고, 예외 처리의 한계로 인해 결국에는 문화어판, 표준어판 모두, 문화어와 표준어가 공존하는 판이 될 수 밖에 없습니다.
--마소리스 2006년 12월 13일 (목) 21:16 (KST)
번역기가 표준어 지원을 위해 할 수 있는 일[편집]
꼭, 표준어를 지원할 생각이시면 가장 현실적인 방법은 다음과 같습니다.
- 한자→표준어 변환시 두음법칙을 함께 처리합니다.
- 나머지는 수동 또는 로봇이 처리합니다.
번역기에 변환용 DB를 탑제하는 방법도 있지만, 이는 지속적인 DB및 인공지능 업데이트에 한계가 있습니다. --마소리스 2006년 12월 14일 (목) 01:25 (KST)