MS와 한글과컴퓨터가 서로 고수하고 있는 코드방식은 각각 "한글통합형"과 확장조합형 이다. 업계나 사용자 입장에서 보면 모두 생소한 명칭이지만 한 거풀 벗겨보면 그 원천은 각각 "완성형"과 "조합형"이라는 기존의 틀에 기초 하고 있음을 알수 있다.
즉 MS의 "한글통합형"은 기존 "KSC 5601-1987"코드를 변형한 것이고, 한글과 컴퓨터의 "확장조합형"은 이 회사의 한글워드프로세서 " 글2.0"(92년 발표) 에 채용했던 자체 조합형코드를 보완한 것이다.
유니코드컨소시엄의 유니코드기술위원회(UTC)에 의해 확정된 "유니코드2.0" 에 반영된 "확장완성형"은 MS의 "한글통합형"과는 또다른 방식이다.
3가지 코드방식의 특징을 알아보기 위해서는 우선 이들 코드의 원천이 된 "K SC 5601-1987"코드 및 조합형코드에 대해 자세히 살펴볼 필요가 있다.
한글코드는 정보처리의 최소단위인 비트(O 혹은 1)가 16개씩 모여 하나의 음절을 표현해 낸다. 초.중.종성으로 이루어지는 한글 1음절의 코드값은 16비 트, 즉 2바이트가 되는 셈이다. 이것이 바로 1자에 7비트가 부여되는 로마자 알파벳 코드값과 다른 점이다.
알파벳 값을 정의하는 코드로는 미국가표준인 ASCII(America Standard Codef or Information Interchange:아스키코드)가 세계 표준이다. 그런데 이 코드 는 7비트를 기본으로 하고 있어 표현가능한 문자수가 2의7승 즉 1백28자 뿐이다. 아스키코드를 바탕으로 국제표준화기구(ISO)가 제3국어나 동양어권문자를 표현하기 위해 마련한 부호확장규격이 "ISO 2022"이다.
"ISO 2O22"는 16비트 코드로 표현가능한 문자수를 2의 16승 즉 6만5천5백36 자로 확장해놓고 있다. "KSC 5601-1987"은 "ISO 2022"를 준수하여 제정됐다.
"KSC 5601-1987"로 대표되는 완성형과 조합형이 같은 음절 코드 값을 갖는다하더라도 문자를 표현하는 방식에 있어 서로 판이하게 다르다.
완성형의 경우 음절을 사전에 만들어 저장해두고 이를 뽑아쓰는 형태이다.
한글음절을순서대로 저장해놓고 각각에 2바이트씩의 코드값을 부여해놓고있는 것이다. 이를 2바이트 완성형이라 하는 것은 바로 이때문이다.
반면 조합형은 음절을 구성하는 초.중.종성 자소만을 저장해두고 키보드 요구가 있을 때마다 이를 즉석에서 한음절씩 조합하는 방식이다.
이때 조합형은 2바이트, 즉 16비트의 코드값을 초.중.종성에 각각 5비트씩 할당하고 나머지 1비트는 MSB(Most significant bit:최상위비트)라 하여 현재상태의 코드가 영문(0)인지 한글(1)인지를 구별해주는 용도도 규정해놓고있다. 고어를 제외한 현대 국어에서 표현가능한 숫자는 "가"에서 ""까지 1만1천1백 72자나 된다. 이 숫자는 한글 자소의 개수인 초성 19자、 중성 21자、 종성2 8자를 곱한 값(19×21×28=11、 172)에 해당한다. 여기서 종성은 실제 27자 이지만 받침이 없는 음절을 감안해야하기 때문에 28자로 계산하고 있다.
그런데 정부표준인 "KSC 5601-1987"은 표현가능한 현대한글 1만1천1백72자가 운데 빈번하게 사용되는 완성형자 2천3백50자만 추려 넣은 것에 불과하다.
반면 조합형은 자소 68자를 기억해두고 1만1천1백72자의 현대한글을 모두 표현할수 있도록 하고 있다. 조합형은 특히 한글 한음절의 값이 동일하다는 장점이 있어 컴퓨터의 내부 처리에 유리한 코드로 평가받아 왔다.
조합형은 자소 조합원리는 같지만 초.중.종성 및 한자와 특수문자 부분의 배치에 따라 몇종류의 이종이 존재해왔다. 대표적인 것으로 삼보컴퓨터의 "KSS M"을 따르는 "상용조합형"이 있고 IBM、 큐닉스、 현대전자、 쌍용컴퓨터등 이 이를 준수한 자체 코드를 갖고 있다.
이밖에 "KSSM"과는 별도로 한글과컴퓨터、 금성사(LG전자)、 삼성전자 등이 자체개발한 조합형코드를 갖고 있다.
이들 가운데 정부는 지난 92년 "KSSM"을 모델로 한 정부표준 조합형코드를 KSC 5601-1992"라는 이름으로 제정하기에 이른 것이다.
MS의 "한글통합형"코드는 앞서 언급했듯이 완성형자 2천3백50자만 규정된 "K SC 5601-1987"에 나머지 8천8백22자를 추가 확장、 1만1천1백72자를 완성형 자로 모두 표현할수 있게한 형태이다.
그런데 "KSC 5601-1987"은 "ISO 2022"의 원칙에 따라 문자판에서 2개 바이트 영역 가운데 제1바이트와 제2바이트 모두 161에서 254까지(16진수로 A1-FE) 영역을 배당받고 있다. 이를 표현할 수 있는 문자영역수로 계산하면 제1바이트 94(세로)×제2바이트94(가로)=8천8백36자이다.
실제 "KSC 56010-1987"은 2천3백50자의 한글자 외에 특수문자(그래픽문자)1 천1백28자와 한자 4천8백88자 및 사용자 정의문자(공백) 4백70자등 모두 8천 8백36자로 구성돼 있다.
따라서 MS의 "한글통합형"에 새로 포함되는 8천8백22자는 정상적인 "ISO-202 2"규격으로는 추가될 영역이 단 한곳도 없게된다. 8천8백22자는 결국 별도문 자판으로 구성、 "ISO 2022"규격의 다른곳에 배치되거나 편법이 적용될 수밖에 없다.
이 때문에 한글의 가나다순 배열(Sorting)과 MS외 다른 회사가 개발한 응용S W들이 특별한 조치를 취하지않는 지원될수 없는 문제점 등이 나타난다는 것이다. 유니코드2.0 상의 "확장완성형"은 유니코드가 "ISO 2022"와 다른 문자판 배열구조를 갖고 있기때문에 영역제한이 없었고 "가"에서 ""까지 순서배열도 처음부터 가능했었다.
한글과컴퓨터의 "확장조합형"은 일반 조합형코드의 자소개수 68개에 고어를 포함、 새로 21개를 추가한 것이다. 구체적으로 보면 초성에는< >등 12자、 중성에는 <>등 5자、 종성에는 < >등 4자이다.
따라서 한글과컴퓨터의 "확장조합형"은 초성 31자×중성 26자×종성 31자=2 만5천7백92자를 제한없이 표현할수 있게 되는 것이다. <서현진 기자>
경제 많이 본 뉴스
-
1
“中 반도체 설비 투자, 내년 꺾인다…韓 소부장도 영향권”
-
2
MS, 사무용 SW '아웃룩·팀즈' 수 시간 접속 장애
-
3
기계연, '생산성 6.5배' 늘리는 600㎜ 대면적 반도체 패키징 기술 실용화
-
4
네이버멤버십 플러스 가입자, 넷플릭스 무료로 본다
-
5
KT 28일 인사·조직개편 유력…슬림화로 AI 시장대응속도 강화
-
6
삼성전자, 27일 사장단 인사...실적부진 DS부문 쇄신 전망
-
7
'주사율 한계 돌파' 삼성D, 세계 첫 500Hz 패널 개발
-
8
K조선 새 먹거리 '美 해군 MRO'
-
9
삼성전자 사장 승진자는 누구?
-
10
단독롯데, '4조' 강남 노른자 땅 매각하나…신동빈 회장 현장 점검
브랜드 뉴스룸
×