
마이클 코엔, 구글 음성인식 기술의 아버지
by 김상훈

- 이날 구글은 데스크톱 음성인식 기술을 선보였습니다. 데스크톱에서 음성인식을 하는 게 모바일 기기보다 더 늦었던 이유가 따로 있나요? 원리는 같을 텐데 왜 이제야 나왔는지 궁금합니다. "기술을 발표한 시간이 차이가 난 것은 모바일에서는 타이핑이 힘들다는 사실 때문이었다. 애초에 음성인식과 이를 통한 입력 기술이라는 게 모바일 기기에서 구현됐을 때 훨씬 매력도가 높았던 기술이다. 단순하게도 그게 모바일 기기에서 음성인식이 먼저 시작된 이유다. 그리고 일단 영어로 음성인식 기술이 나온 2008년 이후에는 업데이트가 엄청나게 빨리 이뤄졌다. 여러 가지 서로 다른 차원에서 동시다발적으로 벌어진 업데이트였다. 우선 한 축으로 보면 지원 언어를 빠르게 늘렸다. 다른 차원에서 보자면 모든 앱에서 음성 기능을 쓸 수 있도록 한 것이다. 음성입력 키보드 기능 등이 이런 것이다. 데스크톱도 그런 차원. 기기의 한계를 벗어나는 음성인식 기술의 업데이트다. 생각해 보면 앞으로 비즈니스 미팅 등에서 데스크톱 음성 기능을 쓸 수 있다는 게 가장 중요한 활용처가 될 것이다. 데스크톱은 휴대전화와 달리 마이크와 음성이 시작되는 지점(입)이 매우 멀리 떨어져 있다. 또 데스크톱의 마이크는 냉각 팬 근처에 있다거나 하드디스크 근처에 있어서 잡음이 심하다. 이런 과제도 우리가 극복해야 했다. 앞으로는 컴퓨터를 더 다양한 장소에서 쓸 수 있게 될 것이다. 지금까지는 컴퓨터 앞에 앉아 키보드와 마우스를 손에 쥐어야만 컴퓨터를 쓸 수 있었다면 앞으로는 부엌에서 PC에 명령하면 모니터에 레서피가 나오고 음성명령으로 이를 출력한다거나, 부엌의 모니터로 출력을 나눠 보여줄 수 있을 것이다. 또 거실에서 식구들과 휴가 예정지에 대해 얘기하다가 "도쿄"라는 말이 나오면 화면에 자동으로 도쿄 사진이 뜬다거나, "그랜드 캐년"이란 말에 그랜드 캐년이 배경으로 나오면 좋지 않겠는가. 훨씬 많은 기능을 외부 개발자들이 만들 수 있다."
- 당신은 뉘앙스 출신입니다. 뉘앙스에서는 자신들의 기술이 짧은 단어와 문장만 인식하는 구글의 기술보다 낫다고 설명합니다. 이 회사는 긴 문장을 받아쓰기(dictation)하는 기능도 갖고 있죠. 다른 회사의 제품을 써봤는지요. "물론 드래곤 딕테이션(뉘앙스 제품)이나 IBM이 만든 받아쓰기 프로그램은 써봤다. 지금까지 27년간 이쪽에서 일했는데 당연히 경쟁사 제품도 잘 알고 있다. 모두 좋은 프로그램이라고 생각한다. 하지만 내가 구글에 온 건 모바일 스타일의 프로그램을 만들기 위해서였다. 구글은 굉장히 많은 양의 음성 데이터를 갖고 있고 따라서 데이터를 훈련하는 방식이라거나 여러 종류의 음성 소스 등에서도 경쟁사를 앞서 있다. 앞으로는 더욱 많아질 것이다. '규모의 음성인식'이라는 측면에서 우리는 매우 훌륭한 진보를 이뤘다."(참고로 코엔 박사는 이직을 앞두고 '모바일 쪽에서 음성인식 기술을 쓸 계획이 없으면 구글로 옮길 이유도 없다'고 래리 페이지에게 단언했다고 합니다. 페이지는 그게 바로 원하던 것이라면서 코엔을 스카우트했죠.)
- 음성인식의 몇 가지 문제점 가운데 하나는 소음이 많은 장소에서 인식률이 낮다는 점입니다. 사람도 시끄러운 곳에서는 말소리를 잘 못알아듣지만 기계는 인식률이 더 떨어지죠. "그런 경우 적절한 데이터를 사용하는 것이 중요하다. 지난 8개월 동안 이런 측면에서 우리는 많은 진보를 이뤘다. 그 덕분에 잡음 많은 데스크톱에서도 음성인식을 시작하게 됐다. 음성인식은 크게 세 가지 모델을 바탕으로 적절한 인식 과정을 거친다. 첫째가 어쿠스틱 모델이다. 음향학적 방법인 셈인데, "음...", "어..." 등 아무 의미없는 소리까지 포함해 모든 음향을 일단 다 정확하게 받아들이는 것을 어쿠스틱 모델이라고 한다. 우리는 문맥적 의미를 따져서 어쿠스틱 모델에서 의미있는 음절을 구별해낸다. 이건 습관과 같아서 언어별로 굉장히 다양하게 존재한다. 둘째는 렉스(lex) 모델이다. 일종의 사전적 방법론으로 예를 들어 '에코노믹'과 '이코노믹'이란 발음을 모두 'economic'으로 이해하는 것이다. 어떤 어쿠스틱 모델이 어떤 단어와 연결되는 것인지 파악하는 게 렉스 모델의 역할이다. 마지막으로 랭귀지 모델이 있다. 이는 이해할 수 있는 언어를 찾아내는 방식이다. 예를 들어 통계적으로 보면 "the dog" 다음에 나오는 단어는 ran과 pan과 can 가운데 ran일 가능성이 높다. 이런 방법을 합쳐서 음성을 인식한다. 훌륭하고 충분히 빠른 컴퓨터가 중요한 게 이런 복잡한 과정을 순간적으로 계산해야 하기 때문이다."
- 이런 설명은 기본적인 원리 같습니다. 하지만 사람은 이에 더해 물음표나 느낌표를 말하는 중 따로 표현하지 않더라도 해당 문장이 물음표로 끝날지 느낌표로 끝날지 충분히 정확하게 짐작합니다. 통계는 물론 어조를 파악하는 능력도 있기 때문이죠. 음성인식이 이런 뉘앙스도 인식할 수 있을까요? "이미 보이스메일에서 그런 기초적인 기능을 사용해 왔다. 문장을 나누고, 마침표를 찍고, 대문자를 넣는 기능 얘기다. 그게 단순한 기능이란 건 안다. 물론 연구를 진행하고 있다. 구두점을 잘 다는 것이 우리가 현재 도전하고 있는 과제다. 앞으로 새로운 기능이 등장할 것이다. 예를 들어 아까 질문했던 소음에 정확한 음성인식 같은 게 지금 빠르게 개선되고 있다. 유튜브야말로 이런 노이즈 문제가 심한 음성 소스인데, 대부분의 음성이 음악과 함께 나오기 때문이다. 하지만 많이 해결되는 중이다."
- 코엔 박사께서는 음악가였습니다. 그 경험이 현재의 일과 관계가 있나요? "두 개의 커리어를 갖고 있는 게 나한테는 도움이 됐다. 나는 이 일을 시작하기 전 작곡가였다. 7년 동안 작곡을 해서 생계를 꾸려나갔다. 이 과정에서 내가 가장 심각하게 고민했던 건 듣는 사람들의 입장이다. 음악이야말로 커뮤니케이션의 기본이니까. 듣는 사람들이 어떻게 느낄 지가 작곡가로서 가장 중요한 문제일 수밖에 없다. 그리고 이런 질문은 많은 경우 자연스럽게 과학적 질문과 맥락이 닿게 되더라. 예를 들어 무엇이 소음이고, 무엇이 음악인지를 사람의 청각이 어떻게 구별하게 되느냐는 원리에 대한 것 말이다."