CS4 발표회때는 Adobe Supporters Zone에 있느라 CS4 시연을 보지 못했다.
시연을 보고 온 사람들이 Supporters Zone에서 가장 많이 물었던 질문중 하나가, CS4의 Transcribe(자막 추출) 기능이었는데, 당시 나는 CS4를 충분히 써보지 못한 상태였고 시연을 보지 못해서 대답해주기가 어려웠다.
속으로 '그런기능이 있어? 과연 잘 될까?' 하는 생각이 들어서,
바로 테스트 해볼 생각이었는데, 어쩌다 보니 시간이 꽤 지났다.
자막을 위해 소리를 들으면서 타이핑을 하는 것은 상당히 오랜 시간을 요하는 작업이기 때문에, 이 기능의 정확도가 높다면 활용가치가 높을것이다. 정확도만 높다면야 시간이 오래걸리는 것은 큰 문제가 안된다. (사실 추출하는 시간은 꽤 걸리는 편이다.)
테스트를 위해 CS4를 설치할 때 이런 화면을 볼 수 있었다.
상당히 많은 용량이 음성지원을 위해 할애되고 있다.
테스트를 마치고 나서야 알게된 것이지만,
CS4의 음성인식은 기존의 음운(자음,모음)을 분석하는 방식이 아닌
Chunk(덩어리)를 추출하여 CS4가 가지고 있는 해당 언어의 분석모델와 비교하는 방식이다.
그래서 이만큼의 용량을 먹고 있을 수 밖에 없는 것이고,
분석모델의 용량이 클 수록 정확도가 증가하고 속도는 느려지게 될 것이다.
( 사실 이러한 결론은 전적으로 내 추측에 의거한 것이다. 못믿겠으면 무시하세요^^ )
처음에는 내가 가지고 있는 친구가 주절대는 한국어 음원으로 테스트를 했는데,
뜻이 이상하지는 않으나, 전혀 엉뚱한 내용으로 문장이 구성되어 있어서 분석중 인터넷 서핑한 내용들이 섞여들어간게 아닌가 하는 의심을 살 정도였다.
이게 뭔소리랴?
이러한 현상이 생기는 원인은 Chunk별로 짜맞춰진 내용들이어서 각각의 단어들은 얼핏보기에 정상적으로 보이지만, 원음의 내용과는 거리가 있기 때문에 생기는 현상인 것이다.
그러한 관계로, 비교적 부정확한 발음이 없는 성우와 같이 정돈된 목소리 일 수록 큰 효과를 볼 수 있고, 일반적인 대화처럼 날라다니는 음원이라면 전혀 써먹을 수가 없다.
본격적으로 테스트 내용을 살펴보자.
CS4 Transcribe는 영어(미국, 국제),한국어,불어,독어,이태리어,일본어,스페인어를 지원한다.
기본적으로 내가 관심있어하는 언어인 영어(미국)와 한국어로 테스트해보았다.
테스트 음원으로는 평소에 즐겨듣는 라디오프로그램 '굿모닝 팝스'를 사용했다.
Trackback Address :: http://headvoy.tistory.com/trackback/132
OK do I go boating well you know it's a new one is it a thousand times the more we take care of Mother Nature the more she will take care of us OK now you're saying the right answer OK
영어(미국) 2
let's listen first the New York Times reports Microsoft may partner with Rupert Murdoch's News Corp give more funds are needed reports are the people are achieving or tell a lot of this report
Chunk 단위로 분석하는 특성때문에 스펠링을 불러주는 후반부부터는 엉망이다.
(애초에 영어로 설정해놓고 실행했으니 한국어 부분에서 다른 결과를 보여주는 것은 당연하다)
한국어 1
빠른 속도로 방식에서 오 년 지어진 바라보고 있는 영화가 물량은 줄고 낮아 자본주의 제도
기대한 만큼의 정확도를 보이지 못해 실망이 크다.
진행자의 말이 빠르다보니 거의 제대로 분석해내지를 못하고 있다.
한국어 2
월말까지 그저 천 삼 백만 달러로 전 도까지 올릴 계획이어서 국제사회가 도움을 줘야 한다고 목소리를 없었다면 그런 내용이 실렸다
이번에는 일부러 약간 말을 천천히 하는 구간을 찾아 테스트 해보았다.
역시나 완벽하지는 않지만, 그나마 조금 나은 정확도를 보여주고 있다.
테스트를 마친 후 결론은, 아직은 좀 아쉽다.
한국어에 대해서는 현업에서는 거의 쓸 수 있을 만한 기회가 별로 없을 것이다.
촬영 소스의 목소리들은 발음이 부정확해서 분석이 잘 되지 않을 것이고
성우가 또박또박 읽어주는 목소리라면, 이미 대본이 나와있을것이다.
하지만 음성인식이란게 쉽지 않은 일이니 만큼
애초에 한국어 지원이 잘 되리라곤 기대하지 않았다.
이 정도라면 앞으로 발전할 가능성은 충분히 보여주었다고 생각한다.
반면에 영어에 대해서는 상당히 활용가치가 있을 것 같다.
Chunk단위로 말하는 언어적 특성 때문인지, CS4의 Transcribe는 영어와 궁합이 잘 맞는다.
물론 추출한 스크립트를 다시 수정을 보아야 하겠지만,
애초에 처음부터 들으면서 전부 타이핑 하는 것보다는 훨씬 많은 시간을 줄일 수 있게된다.
그런 의미에서 본다면 한국어도 조금만 정확도를 높이면 충분히 활용할 수 있는 가치가 생길 것으로 기대한다.