기술의 모자이크, 음성인식 회사 뉘앙스


지난해 6월, 구글의 모바일기기용 음성검색 개발팀 연구원인 마이크 슈스터가 한국을 찾았을 때 왜 안드로이드에선 음성입력 기능을 폭넓게 지원하면서 아이폰에선 그러지 않느냐고 물은 적이 있습니다. 답은 “안드로이드에선 OS 차원의 접근이 가능해 키보드 입력을 음성으로 대신할 수 있지만 iOS는 이를 애플이 막아놓아 불가능하다”는 것이었습니다. 그렇다면 적어도 별개의 앱으로 SMS나 이메일을 보내고 트위터나 페이스북에 글을 올리는 것 정도는 해줄 수 있는 게 아니냐고 다시 물었습니다. 슈스터는 “그건 너무 번거로운 일이고 단시일에 계획한 바는 없다”고 말했죠.

핑계같았습니다. 그냥 “왜 구글이 iOS용 앱 개발을 해야 하느냐”고 되물었다면 납득이 갔을텐데요. 그때 “드래곤 딕테이션 같은 앱은 굳이 OS 차원에서의 지원이 없어도 앱 차원에서 음성입력기의 역할을 한다”고 질문했던 기억이 납니다. 구글이 iOS용 음성인식 프로그램을 만들어주기 전, 그 드래곤 딕테이션이 먼저 한글화됐습니다. 구글 음성인식 기능과 비교해 인식률도 별로 떨어지지 않습니다. 사용자에 따라선 오히려 더 낫다는 얘기도 합니다. 게다가 구글의 음성인식이 제대로 지원하지 않는 긴 문장 받아쓰기 기능도 있습니다. 전 일부러 시험삼아 이 앱을 이용해 이메일도 한 통 써봤습니다. ‘받아쓰기'(dictation)라는 이름이 허풍이 아니더군요.

이 앱을 만든 회사가 바로 뉘앙스 커뮤니케이션즈입니다. 당장 회사에 대해 좀 더 알고 싶다고 홍보담당자에게 메일을 보냈습니다. 알고 봤더니 2007년부터 한국에 상호를 등록하고 영업을 해온 회사더군요. 매출은 1조 원이 훌쩍 넘고, 시가 총액은 7조 원에 가깝습니다. 미국 회사지만 한국에서도 상당한 매출을 올립니다. 대개 한국 시장은 세계 시장의 1% 규모라고 하는데, 뉘앙스는 글로벌 매출의 1%가 훨씬 넘는 금액을 한국에서 벌어들인다고 합니다. 구체적인 액수는 공개하지 않았습니다.

관련 기사에서도 약간 소개했지만 이 회사의 역사는 매우 복잡합니다. 1992년 창업이라고 일반적으로 얘긴 하지만, 사실 시작은 1974년까지 거슬러 올라갑니다. 국내에서는 ‘특이점이 온다’의 저자로 간혹 소개되는 미래학자 레이 커즈와일이 세웠던 ‘커즈와일 컴퓨터 프로덕트’라는 회사가 광학인식(스캔된 그림을 분석해 글자를 텍스트 정보로 바꾸는 기술) 기술을 연구하던 게 시작이었죠. 커즈와일은 이 회사를 당시 실리콘밸리 기술의 용광로와 같았던 제록스에 매각합니다. 제록스는 이 회사의 연구성과를 발전시켜 나중에 스캔소프트라는 회사로 분사시키죠. 그리고 1992년 비저니어라는 회사가 창업합니다. 스캐너와 스캔 관련 소프트웨어를 만드는 회사였는데 이 회사가 하드웨어 분야를 매각해 버리고 소프트웨어 회사만 남기면서 구조조정을 한 뒤 1999년 스캔소프트를 제록스로부터 사들입니다. 그리고는 인수자인 비저니어가 자신의 이름을 버리고 피인수 기업인 스캔소프트의 이름을 사용하게 됩니다. 이들은 2001년부터 새로운 시장에 뛰어듭니다. 문자를 인식하는 광학인식 기술을 넘어 목소리를 알아듣는 음성인식 기술에 관심을 갖게 된 거죠.

이 시장의 가장 큰 경쟁자가 바로 뉘앙스였습니다. 뉘앙스는 제록스와 더불어 실리콘밸리의 또 하나의 기술 용광로였던 스탠포드연구소(SRI)에서 개발된 기술로 창업한 회사입니다. 1994년 많은 회사들이 그렇듯 처음에는 연구 과제였다가 사업화할 가능성이 보이자 분사해 나온 회사가 바로 뉘앙스였습니다. 이들은 콜센터를 첫 타깃으로 삼았습니다. 사람이 고객 한명한명을 응대하려면 힘이 드니 사용자의 말을 알아듣는 기계가 적당한 상담원에게 고객을 연결하는 역할을 하도록 만든 거죠. 이 기술은 1996년 상용화됐고, 2000년 뉘앙스는 상업적 성공에 힘입어 나스닥에 상장됩니다. 그리고 그 해 스피치프론트라는 회사를 인수합니다. 이 회사는 말로 휴대전화 문자메시지를 보낼 수 있게 해주는 기술을 가진 회사였죠. 스캔소프트는 이 강력한 경쟁자와 직접 경쟁하는 대신 양사의 합병을 결정합니다.

그래서 생긴 게 오늘날의 뉘앙스입니다. 수많은 회사들이 저마다의 방식으로 개발해 온 기술이 한 회사 안에 집대성된 셈이라 이 회사가 보유한 음성인식 기술 관련 특허는 1000가지가 넘습니다. 후발 업체들이 독자적인 음성인식 기술을 만들어보려 해도 마치 지뢰밭을 걸어가는 것처럼 곳곳에 박혀 있는 뉘앙스의 특허를 피해야만 합니다. 기술 기업들이 음성인식 기술을 직접 만들기보다는 뉘앙스와 거래하는 방식을 택하는 이유가 바로 여기 있습니다. 이 덕분에 이 회사는 매년 꾸준하게 성장합니다. 스마트폰이 폭발적으로 보급되면서 음성인식 기술에 대한 필요가 커진 요즘 같은 시기는 더욱 더 뉘앙스 같은 회사에게 기회입니다. 반면 구글은 후발 주자이면서도 독자 음성인식 기술 개발에 들어갑니다. 그리고 개발해내고야 맙니다. 지뢰밭을 피할 수 있던 건 지뢰가 어디 묻힌지 잘 알고 있는 사람을 스카웃했기 때문입니다. 지금 구글의 음성인식팀을 이끄는 마이클 코엔이 바로 1994년 뉘앙스의 공동창업자 가운데 한명이고, 이 회사에서 2004년까지 일했던 음성인식 전문가였죠. 그러자 특허의 그물은 더욱 촘촘해졌습니다.

이 상황에서 애플이 이 판에 갑자기 뛰어듭니다. 테크크런치가 “뉘앙스와 애플이 뭔가 협상을 벌이고 있다”고 보도하면서 갑자기 이들에 대한 관심이 늘어난 겁니다. 음성으로 스마트폰을 제어하는 기술에서 세계 최고는 구글이었습니다. 안드로이드는 키보드로 입력하는 모든 내용을 음성으로 입력할 수 있습니다. 조금만 응용하면 음성으로 구글TV를 작동시키고, 다른 가전제품까지 조종하는 것도 어렵지 않습니다. 아이폰에는 이런 멋진 기능이 없습니다. 물론 음성인식 기능이 있긴 하지만 영어와는 달리 한국어 음성인식은 엉망진창이었습니다. 사실 영어도 그다지 만족스럽지는 않다는 평가가 많습니다. 아이러니하게도 아이폰의 이 기본 내장 음성인식 기술 또한 뉘앙스의 제품입니다. 다만 구글 음성인식이나 드래곤 딕테이션처럼 음성 데이터를 서버로 보내 결과를 해석해 이를 재전송해주는 방식이 아니라 스마트폰 내부에 음성인식 솔루션을 내장한 것이라 정확도가 떨어집니다. 순간 처리 능력이 슈퍼컴퓨터급인 서버 방식과는 달리 내장 방식은 스마트폰의 기계 한계를 뛰어넘을 수 없으니까요. 어쨌든 애플은 뉘앙스와 협상을 벌이는 한편으로 뉘앙스의 서버방식 음성인식 기술을 응용해 만들어진 ‘시리(Siri)’라는 회사를 인수합니다. 아이폰에 “근처에 맛있는 집이 있을까?”라고 물어보면 “100m 서쪽에 평소 잘 가는 식당과 비슷한 파스타집이 있습니다”라고 음성으로 알려주는 ‘개인비서’ 앱이죠. 애플이 아이폰에 이런 기능을 포함시킬 가능성이 높은 겁니다. 이와 함께 뉘앙스와 애플 사이의 협상도 관심을 모읍니다. 스마트폰을 말로 제어해 메일을 읽으라고 시키고 음악을 켜고 끄라고 한다거나, 강의 시간에 켜놓으면 노트필기를 대신해 주는 기능 등이 추가될 수 있지 않을까 싶습니다.

기술의 모자이크, 음성인식 회사 뉘앙스”의 2개의 생각

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.