내 목소리 번역기

In English, a synthetic version of Mundie’s voice welcomed the audience to an open day held by Microsoft Research, concluding, “With the help of this system, now I can speak Mandarin.” The phrase was repeated in Mandarin Chinese, in what was still recognizably Mundie’s voice. – Software Translates Your Voice into Another Language

위의 링크에서 나오듯, 마이크로소프트가 개발하고 있는 새 번역시스템에는 독특한 특징이 하나 있다. 말하는 사람의 목소리까지 배워서 최대한 원래 목소리에 가깝게 음성을 합성해 외국어로 들려준다는 것이다. 말하는 사람의 언어를 인식한 뒤 외국어로 번역하거나, 이를 소리내 읽어주는 것 정도는 이미 시중에 나와 있는 번역기가 하고 있는 일이다. 당장 무료로 내려받을 수 있는 스마트폰 구글 번역 앱에도 이런 기능이 있다. 하지만 목소리를 흉내내는 건 완전히 다른 일이다.

번역의 품질보다 놀라운 건 이런 식의 음성합성능력이다. 자동번역기가 얘기하는 인공적이고 천편일률적인 목소리는 경계심을 갖게 하니까. 그런데 기계가 말을 할 때 자동으로 내 친근한 목소리가 나온다면 듣는 사람 입장에서도 훨씬 편안하게 듣게 될 것이다. 게다가 기사에서 얘기하고 있는 연구원들의 주장처럼 언어라는 건 단순한 단어의 총합이 아니다. 억양, 목소리, 말투, 감정 등이 모두 언어를 구성한다. 채팅으로 나누는 대화가 불필요한 오해를 낳았던 경험은 아마 누구나 한번쯤 해봤을 테니까.

이에 덧붙여 연구원들은 “자기 목소리로 생소한 외국어를 다시 들을 수 있다면 외국어 학습에도 도움이 될 것”이라고 주장한다. 애인이나 아이의 목소리로 아이폰의 시리(Siri)를 작동시킬 수 있다면 아이폰이 더 맘에 들게 될지도 모를 일이다. 그렇다면 징그러울까?

하지만 사실 개인적으로는 이런 기술로 인해 앞으로 음성패턴을 쉽게 흉내낼 수 있게 된다는 사실이 더 걱정된다. 지금도 보이스피싱이 횡행하는데 이렇게 합성된 목소리를 음성통화에 쓸 수 있다면 앞으로는 음성통화는 아예 믿지 못하게 되는 시대가 올 수밖에 없는 게 아닐까. 누군가의 목소리를 그대로 흉내낸다는 건 그 사람의 목소리를 변조하는 것과는 완전히 다른 일이다. 그래서 의외로 페이스타임이나 스카이프 같은 영상통화의 시대가 빨리 올 수도 있겠다. 그게 긍정보다는 부정적인 영향 때문일 가능성이 높다는 점은 아쉽지만.

아직까지 이 기술로 합성된 목소리는 완벽할 정도로 말하는 사람과 비슷하지는 않다. 번역 프로그램 자체의 완성도 때문에 번역된 언어가 자연스러운 것도 아니고. 하지만 시리 같은 기술이 현실에서 사용될 거라고 생각했던 시점은 사실 지금보다 훨씬 먼 미래의 일이었다. 그리고 지금 이미 그 기술을 쓰고 있는 우리가 느끼고 있는 완성도는 충분히 놀랍다. 그러니 범죄자들의 두뇌는 일반인보다 늘 빠르게 돌아가게 마련이다. 조만간 통화할 때마다 “정말 너 맞니?” “내 목소리도 몰라!” 이런 얘길 반복하게 될지도 모르겠다. 그게 누군가가 몸값을 요구하는 위기 상황의 보이스피싱일 수도 있고. 그러니, 이미 전화로 돈을 보내라는 요구는 대부분 보이스피싱이라고 믿게 된 것처럼 앞으로는 음성통화는 최대한 사용하지 않는 게 새로운 시대의 윤리가 될지도 모르겠다.

Advertisements