[테마특강] AC(Audio Coding)-3 기술동향

발행일 : 1997-05-20 17:57 업데이트 : 2014-02-14 21:07

尹鍾敏

80년 연세대학교 전자공학과 졸업

85년 연세대학교 대학원 전자공학 석사

80∼95년 인켈 오디오 연구소

95년∼현재 태광산업 전자사업부 연구소 수석연구원, 오디오 평론가

1982년 발표된 CDP(Compact Disc Player)로 디지털 오디오에 대한 관심이 높아졌으나 오디오의 기본기술은 아날로그다. 최근 관심의 대상이 되고 있는 AC(Audio Coding)-3는 이제 오디오 분야에서도 디지털 기술이 주도할 것임을 시사하고 있다. AC-3는 여러 채널의 오디오 신호를 부호화와 압축방법을 활용하여 코딩하는 기술이다. 미국 돌비연구소가 제안한 이 기술은 현재 차세대 ATV(Advanced TV) 음성송출의 표준방식과 DVD(Digital Versatile Disc)의 신호포맷으로 결정돼 관련 소프트웨어산업에도 많은 영향을 끼치고 있다.

오디오든 멀티미디어든 소리와 관련된 곳에는 빠지지 않을 AC-3의 실체는 무엇인가. 지난 89년 SMPTE(Society for Motion Picture and Television Engineers)는 디지털과 관련한 영화 음의 재현에 가장 이상적인 것으로 5.1채널임을 발표했다. 이중 0.1채널은 신호 정보량이 적은 서브우퍼의 신호를 의미하는 것으로 20㎐에서 1백20㎐까지 음역만을 담당한다. 또 5채널은 기본 스테레오채널인 2채널과 센터채널, 좌우 분리되는 뒷 부분의 서라운드 2채널 등을 말한다. 5채널은 채널이 완전 독립적이며 연계에 의한 매트릭스 방식의 멀티 채널 개념과는 전혀 다르다.

한 개의 채널만 송출하는 데이터 전송과 여러개의 채널을 합하여 한번에 부호화하면 실제 신호와 관련된 정보량의 수는 그만큼 늘어나고 이를 수행하기 위한 제어신호가 차지하는 비율도 높아질 수밖에 없다. 때문에 양쪽 데이터의 전송속도는 큰 차이가 나지 않는다. 돌비 프로로직의 기본은 리코딩 작업시 만들어낸 4채널 신호를 2채널로 혼합하고 이를 최종 사용자가 4채널로 재현시키는 방식이었다.

AC-3는 리코딩의 멀티채널 자체를 스튜디오 수준으로 유지한 후 이것을 압축하고 코딩한 후 디지털로 변환하는 것이다. 따라서 최종 사용자는 디코딩을 통해 스튜디어 수준의 음향을 그대로 실감할 수 있다. 이 방식은 영화의 음향효과를 관람객에게 실감있게 제공하고 싶은 영화제작사의 요구에서 시작된 것이다. 이러한 디지털 방식의 연구는 당연히 돌비서라운드를 제창했던 돌비연구소가 맡았다. 돌비연구소는 저장매체의 첫 대상을 35㎜ 영화필름으로 잡았다. 5.1채널 분의 디지털 신호를 영화필름에 기록하기 위해서는 데이터의 양을 한정시켜야 했다. 기존 매체인 필름을 그대로 사용하기 위해서 였다. 35㎜ 필름의 여유공간은 필름을 감기 위한 스프라키트 홀(Sprocket Hole)이 있는 부문이다. 영상부분과 기존의 아날로그 트랙을 유지하면서 홀과 홀 사이에만 데이터를 기록한다면 기존 영화 필름과의 호환성을 살릴 수 있기 때문이다.

영화필름은 초당 16프레임의 속도로 움직인다. 때문에 스프라키트 홀 사이의 넓이와 자속밀도를 감안하면 데이터의 최대 기록밀도는 3백20kB/초. 이 정도의 전송속도를 가진 압축된 5.1채널 분의 신호는 재생시 감상에 문제가 없음이 확인됐다. 이같은 포맷은 영화가 기초가 됐다. 이를 응용한 디지털 서라운드가 영화에 등장한 것은 91년 5월이며 그해 12월에는 AC-3 방식으로 부호화한 영화 3편이 상영됐다. 이것은 92년 7월 돌비 SR.D라는 이름으로 정식발표가 됐다. 영화필름뿐 아니라 일반 오디오 송출포맷으로도 활용 가능성이 높다는 것을 발견한 미국의 고선명(HD)TV 오디오 위원회는 장차 고선명 TV의 오디오 송출방식 기본으로 AC-3 방식을 채택했으며 이에 따라 AC-3는 향후 음성 출력 기록방식으로 확실한 지원군을 확보하게 된 것이다.

표본화한 신호를 무리없이 인코딩하고 디코딩하기 위해서는 처리과정상 압축과 부호화가 실행된다. 압축을 통한 코딩작업은 기본적으로 청 감상의 마스킹(차폐)효과와 관련 원 신호의 품질을 떨어뜨리지 않을 만큼의 정보 비트를 생략하는 것으로부터 시작된다. 최근에는 의미없는 비트를 생략하면서 정보 보존을 위한 주파수 스펙트럼 관련 비트의 할당방법을 활용하고 있다. 비트 할당과 관련된 기술은 크게 순방향 적응(Forward Adaptive)과 역방향 적응(Backward Adaptive) 등 2개의 방법으로 나뉜다. 순방향 적응방법은 정리된 코딩 신호를 기본으로 하는 비트 스트림 정보에 동기 정보를 첨가하는 방법이다. 코딩된 정보에 별도의 비트를 추가함으로써 디코딩시 정확하게 시간축에 대한 구분이 가능하게 된다. 하지만 비트 할당을 위한 동기신호 자체의 정보량이 증가하기 때문에 비트 할당 주기를 높이는 데 한계가 있다. 즉 높은 주파수 간격으로 비트를 할당하면 밀도가 높은 신호를 처리할 때 스펙트럼 라인 간 비트를 생략할 수 있어 효율적인 코딩이 가능해지나 그만큼 전송속도가 빨라야 한다. 역방향 적응 방법은 비트 분할을 위한 할당 정보를 추가하지 않고 코딩시 자체 신호를 동기신호화 하여 이것을 자체 코딩정보의 비트할당으로 사용하는 것이다. 따라서 정보량이 많지 않아 전송속도는 빠르지 않아도 된다. 다만 신호를 검출할 때 시간분할이나 주파수분할에 대한 정보를 자체 데이터로 재현해야 하기 때문에 이들 혼합된 정보비트를 검출해 내기 위한 별도의 연산작업이 필요하게 된다. AC-3의 코딩은 순방향 적응과 역방향 적응의 비트할당을 혼합 편성하여 사용한다. 즉 상호간 약점은 버리고 장점만을 선택한 것이다.

정보를 많이 차지하지 않는 역방향적응을 기본으로 하고 순방향 적응의 시간축에 의한 파라메타 적응과 디퍼렌셜 비트할당의 방법을 병행함으로써 디코딩시 시스템을 간략화할 수 있게 한다. AC-3는 채널 블록이 겹쳐지는 TDAC(Time Division Aliasing Cancellation:시간영역 상쇄) 필터뱅크를 사용한다. 각 변환 블록의 길이는 10.66ms(표준주파수 48㎑일 경우), 변환주기는 5.33ms, 블록의 전송주파수는 1백87.5㎐가 되고 만일 역방향 적응의 비트 할당으로만 신호가 처리되는 경우 블록의 길이는 반으로 줄어든다. 이들 블록은 5백12개의 표본점을 중심으로 액티브한 블록을 2백56개의 포인트로 변환한다. 이들 블록은 시간축상 겹치는 구조여서 이를 구별하기 위한 필터 FLAG(지정신호)에 의해 희망하는 주파수의 블록만을 선택할 수 있다.

AC-3의 전송효율을 보자. 예컨대 7백50㎐를 기본음으로 정하고 이 주파수의 홀수 배에 해당하는 모든 배음을 포함한 주파수를 시험 신호로 만들어 이것을 코딩한 후 비트 적응정보를 넣어 AC-3의 포맷을 갖출 경우 이때의 전송속도는 초당 약 74kB가 필요하게 된다. 만일 순방향 적응과 역방향 적응의 비트할당과 함께 필터 뱅크의 주파수 분해능력을 높이면 정보량이 늘어날 것 같지만 실제로는 분할된 톤과 톤 사이의 정보 비트가 생략될 수 있어 전송속도는 늘어나지 않는다. 결국 AC-3의 압축효율은 비디오 CD에 사용되는 MPEG오디오 레이어(Layer)2와 비교할 때 약 2배 이상이며 음질도 상당히 좋은 편이다.

AC-3는 코딩 능력이 강하고 전송속도에 대한 부담이 없다. 만약 저역성분만을 지닌 채널의 블록 신호를 처리할 경우 기본 방식으로만 처리하면 채워야할 비트가 부족해 이를 보완하는 추가 비트할당이 필요하게 된다. 다시말해 포맷할 주파수의 데이터가 적은 만큼 상대적으로 효율이 떨어지는 현상이 생긴다. 이를 보완하는 방법으로는 높은 주파수를 지닌 타 채널과 결합하는 방법이 있는데 이를 커플링이라고 한다. 커플링을 할 경우 전체적인 압축효율과 품질을 높일 수 있다.

AC-3에서 기본이 되는 시간단위는 변환블록의 크기와 관계가 있다. 변환블록이 5백12개의 표본점으로 구성되어 있을 경우 2백56개의 표본점마다 48㎑의 표본화 주파수로 변환된다. AC-3는 구조상 6개의 변환블록을 하나의 AC-3 프레임으로 넣는다. 프레임 주파수는 31.25㎐, 프레임 길이는 32ms이고 각 프레임은 16비트의 동기 워드로 시작된다. 동기정보(Syncronization Information) 뒤에는 비트스트림 정보(BSI;Bit Stream Information)라고 부르는 한조의 데이터가 있고 이 BSI데이터는 이후 연결되는 오디오 신호 블록의 데이터에 대한 설명을 한다. 오디오 신호블록은 6개로 이어지고 맨 마지막에 있는 프레임은 미사용 부분으로 보조데이터로 활용될 수 있다.

AC-3는 인코딩 단계에서 믹스다운과 음량제어가 가능하다. AC-3는 디코딩시 기술적인 하위호환성(예를 들면 매트릭스 방법에 의한 음의 확장 기술 같은 것)에 대한 것은 모두 배제한다. 다만 사용자 입장에서의 하위호환성에 대한 선택은 가능하도록 하여 사용자가 모노 소리를 원하다거나 2채널 전용의 스테레오, 4-2-4 방식의 서라운드 등에 관한 것을 임의로 택할 수 있게 했다. AC-3는 부호화한 각각의 모드를 전부 기록하여 사용자에게 제공하기 때문에 디코딩시에는 사용자의 요구에 따라 각 모드를 선택하여 믹스다운된 소리를 들을 수 있다. 스테레오만을 듣고 싶다면 서라운드 채널의 소리를 배제할 수 있으며 기존의 돌비 프로로직 디코더를 활용하고자 할 때 아무런 제약없이 사용할 수 있다.

AC-3는 음량 크기에 대한 제어능력을 가지고 있다. 이 기능은 방송국간 또는 프로그램간 음량차이가 나는 방송용 포맷에 대한 배려이다. 방송 신호를 좋게 하기 위해서는 신호의 다이나믹 레인지를 압축하고 변조신호를 최대한 올리는 방법이 있다. 이는 청취자 입장에서는 그리 좋은 환경이 아니다. 이를 해결하기 위해 AC-3는 여러가지 제어 기능을 내장하고 있다. 음량을 균일하게 하는 데는 사람의 음성이 기준이 된다. 즉 회화레벨이라고 하는 컨트롤 워드를 정해 그것을 비트 스트림 데이터에 실어 놓으면 재생시스템은 컨트롤 워드의 레벨을 이용, 시스템의 볼륨과 재생음의 레벨을 자동 조정하여 재생음량을 일정하게 맞출 수 있게 하는 것이다.

한 개의 채널에서 5.1 채널까지 음성신호는 인코딩되면서 관련된 여러 가지 옵션을 비트스트림 신호구성의 신택스로 정리된다. 옵션의 내용과 관련된 서비스에는 시각 장애용을 위한 화면 음성 설명기능, 청각장애자를 위해 음성 레벨을 높여 재생해 주는 기능, 모든 동작진행을 음성으로 표현하는 기능 등이 있다. 단일채널의 경우 전송속도는 32kB/초이고 모든 데이터 스트림은 32kB/초∼6백40kB/초까지의 전송속도를 취할 수 있다. 전송속도가 빠르면 기존의 하이파이 음질 이상의 품질로도 재생이 가능하다.

AC-3를 디코딩하는 데는 고분해 성능을 가진 고속 DSP가 사용되어야 한다. 현재 가장 좋은 솔루션을 지니고 있는 DSP칩은 모토롤러의 「DSP56009」이다. 이는 TDAC의 블록변환과 관련한 프로토콜 처리와 기본 설정 모드를 모두 내장하고 있으며 속도도 80㎒로 현재 출하된 AC-3 칩중 가장 좋은 응용성과 음질을 지니고 있다. 또한 기본 프로토콜에 대한 프로그램이 자체 롬에 기록되어 있어 사용방법도 무척 수월하다.

앞으로 오디오와 영상산업에서 음성 코딩방법인 AC-3는 선택의 대상이라기 보다는 필수요소가 될 것이다. 안정된 압축률과 뛰어난 에러 정정능력으로 실제 오디오음을 재현하는 만큼 한동안은 이를 대신할 만한 신기술도 없을 듯싶다. 관련 소프트웨어의 개발이나 하드웨어의 응용력과 확장성은 DVD와 HDTV의 음성송출의 표준 포맷, 위성방송과 케이블 방송 등의 응용, 그리고 ISDN을 통한 서비스 확장에 대한 관련산업으로 연결될 것이다.

[테마특강] AC(Audio Coding)-3 기술동향

주요 행사 ❯

많이 본 뉴스

주요뉴스

브랜드 뉴스룸