어느 비가 심하게 오는 날 차에서 내리면서 우산을 펴다가 비를 쫄딱 맞은 사람들이 모여 대체 차에서 내릴 때 우산을 자동으로 펴서 비를 안 맞게 하는 차를 만들려면 어떻게 해야 할까 논의를 했다. 만일 인공지능 전문가들이 이 문제를 해결한다면 먼저 IoT 시스템이 비가 오는 날씨를 자동으로 인식해야 하고, 자율주행 전문가들은 사람이 내리고자 의도할 때, 문이 열릴 때 자동으로 비를 막아 줄 수 있는 차양 장치에 대해 설계할 것이다. 대기업 마케팅 전문가들은 이렇게 설계된 차의 유용성에 대해 광고를 준비할 것이고, UX전문가들은 우산 펴기 기능 작동을 터치스크린을 해야 할 지 논의할지도 모른다. 하지만 평범한 사람들이 내놓은 이 논의의 결론은 우스꽝스럽게도 기사 딸린 차를 타면 됐다.
다보스포럼에서 클라우스 슈밥이 처음 언급한 4차 산업혁명이라는 키워드는 앨빈 토플러의 제3의 물결 처럼 시대의 대변혁을 예견하고 있어 혹자는 불안해하고 혹자는 새로운 기회 시장이 열렸다고 생각하고 있다. 국지성 호우로 시작한 변화는 이미 대홍수가 되어 흘러 넘치고 있는지도 모른다.
알파고의 성공 이후로 구글이 내놓은 영상검색, 반 고흐의 화풍을 따라 하는 시스템, 아마존 알렉사와 삼성 빅스비로 보이는 대화형 개인 에이전트, 스마트 팩토리, 자율주행 자동차 등 인공지능의 국지성 호우는 이제 시대의 대변혁을 예고하고 있다. UX(User eXperience)와 HCI(Human Computer Interaction) 전문가들에게도 인공지능이라는 강력한 엔진은 미래의 희망이 됨과 동시에 어떤 방향으로 이끌어 나가야 할지에 대한 중대한 도전이 되고 있다.
HCI는 인간과 인공물의 상호작용(인터랙션)을 인간이 직관적으로 사용할 수 있도록 지속적으로 발전해왔다. 3차 산업혁명으로 인간의 지능은 컴퓨터에 의해 급격히 강화되었고, 지루한 정신적 노동을 원클릭으로 쉽게 해결할 수 있게 되었다. 그러나 단순한 방식의 정보처리는 매우 복잡한 조작의 과정이 필요해졌다.
오늘날 누구나 사용하고 있는 스마트폰 속에는 평균 40여개 이상의 앱, 200명이상의 전화번호, 약 400가지 이상의 설정, 그리고 수천 장의 사진이 존재하며 우리는 손끝에서 터치라는 간단한 조작을 통해 수없이 많은 정보를 관리하며 살아간다. HCI 와 UX는 바로 이러한 복잡성을 인간의 인지적인 한계 내에서 사용할 수 있게 해주는 학문이다. 인공지능은 이러한 복잡성을 해결해주는 UX의 마법적인 솔루션이 될 것처럼 보였다. 누구나 말만 한마디 하면 내가 원하는 정보를 쉽게 불러내고 서비스를 사용하게 해주는 인터페이스는 없을까? 하고 생각하게 되었고, 애플 시리(Siri) 구글 어시스턴트(Assistant), 삼성 빅스비(Bixby) 등 다양한 음성인식 에이전트들이 선보였으나 어느 것 하나 성공적으로 시장에 안착한 것은 없다. 왜일까?
사실 음성만 100%에 가까운 확률로 인식해 낸다면 무엇이든 할 수 있을 것 같았다. 그 동안 음성인식 인터랙션 분야의 연구자들은 각종 노이즈 상황에서도 화자의 말을 정확히 구술(Dictation)해 낼 수 있는 시스템에만 집중했다. 해서 인식 이후에 어떻게 해야 할 지를 충분히 준비하지 못한 것으로 보인다. 어떤 연구자들은 연결되어 있는 서비스만 충분하다면 인간에게 받아들여 질 수 있을 것이라 생각한다. 아직 연결된 기능, 서비스, IoT 가 부족하기 때문에 충분히 유용한 서비스가 되지 못한다는 것이다.
하지만 과연 그럴까? 음성인식 스피커와 실제로 대화를 해보면 뭔가 자연스럽지가 않다. 말할 때마다 알렉사, 아리아 등 이름을 불러 깨워야만 한다. 어떨 때는 알아들었는지 대답도 하지 않고 대뜸 음악을 틀어준다. “아니 아니 그거 말고”라는 식의 짜증스런 인간의 대답은 보통 명령하신 내용을 알아듣지 못하였습니다 라는 동문서답만 나오기 일쑤이다. 방금 얘기한 것 취소 조차도 방금 얘기한 것 이 무엇인지 모른다. 인간과 인간의 대화는 명령, 피드백, 수행, 수행 후 성공했는지에 대한 평가 등 다양한 인지적 과정에 따라 일어나고 그 과정에서 대화 상대방이 무엇을 좋아하는지 어디까지 알고 있는지 등 상대방에 대한 멘탈 모델이 구성된다. 상대방의 성격도 파악한다. 또한 대화 내용에 대해 빠진 내용이 있다면 되묻기도 한다. 피자 시켜줘 라고 하면 콜라도 같이 시킬 것인지 물어봐야 할 것이다. 이것은 인지심리학에서 스키마 혹은 도식이라고 하는 사물이나 사건에 대한 지식의 형식이다. 인간의 대화에는 턴 테이킹이 있으며, 상대방의 대화가 끊어짐에 따라 적절히 끼어들기를 하게 된다. 비 언어적 커뮤니케이션 역시 중요하다. 상대방의 표정, 말투를 느끼고 그에 따라 적절히 대처한다.
인지과학 이론들은 많은 연구 레퍼런스를 갖고 있다. 인간 기억 모델은 인간의 작업기억이 약 4개 이내의 한정된 수의 아이템 혹은 아이템의 군집(chunk)만을 기억할 수 있는 것을 밝혀냈다. 또 인간의 정서는 긍-부정(Valence), 각성수준(Arousal)의 차원으로 이루어지며, 일반적으로 6~8개정도의 핵심 정서로 분류된다는 것, 인간의 주의는 아주 시끄러운 대화에서 자신에게 관련된 이야기만을 추출하여 선별적으로 정보처리 해낸다는 사실 등을 알아냈다. 이처럼 이미 인지과학에는 많은 레퍼런스들이 있으나 대화형 인공지능 시스템은 인간의 귀가 해내는 음성인식 기능과 수많은 데이터를 통해 이를 구술해낼 뿐 그 이후의 알고리즘은 단순한 규칙 기반(Rule-base)의 결과를 생성하고 있다.
4차 산업혁명과 인공지능은 무한한 가능성을 보여주고 있지만, 그 가능성을 실제로 기회로 만들기 위해서는 HCI 연구와 접목되어야 한다. 그리고 그 중심에는 이미 수십 년에 걸쳐 쌓여있는 방대한 인지과학 연구를 활용해야만 한다.
결국 사람이 하면 돼, 그냥 내가 조작하는 게 빨라 라는 답답한 결과를 내지 않고 인간에게 유용성을 주는 진정한 지능으로서의 인공물이 만들어지려면 인공지능 알고리즘, 빅데이터 수집에 대한 고민뿐 아니라 인간에 대한 방대한 인지과학적 지식을 어떻게 이 자원들과 결합시킬지를 고민하는 것이 4차산업혁명 시대의 경쟁력의 핵심이 될 것이다.
홍지영 jiyoung.hong@lge.com 현재 LG전자에서 UX(사용자경험) 업무를 진행하고 있다. 연세대에서 인지공학 전공으로 박사학위를 받았으며, 인지융합과학기술포럼 이사, LG전자 MC연구소 UX실 팀장/Human interface 파트장을 수행했다. 스마트폰 UX 리서치 및 설계, 스마트 TV UX제안 등의 업무를 수행하였으며, 웨어러블컴퓨터, Haptic interface, IPTV, e-Learning 등 인지공학 & HCI 관련 다수 연구를 진행했다.