YEOREUM

인공지능 목소리로 오디오북 만들기! (feat. TTS)

DIINO 2022. 12. 18. 18:37

본 글은 위 오디오 콘텐츠와 함께 제공됩니다.

 

Editor.  황금별(LUNA)  Yeoreum

 

안녕하세요. 에디터 디노입니다.
최근에는 성우가 녹음한 수준의 오디오북이 인공지능 목소리(TTS)로 만들어진다는 것을 알고 계신가요?
가격과 품질 그리고 제작 시간의 단축까지, 오늘은 3마리 토끼를 모두 잡은 오디오북 제작과정을 소개합니다.

 

Y E O R E U M

 

 

인공지능 목소리로 성우 목소리에 도전하다.

 

인공지능 목소리가 빠르게 발전하고 있다는 것은 많은 분들이 아실겁니다.

최근에는 유튜브, 광고영상 등에도 많이 활용 되는데요.

저희 여름에서는 품질이 높은 인공지능 목소리에 전문 프로듀서가 직접 보정하여 성우 수준의 목소리를 구현하고 있답니다.

 

많은 시간 연구와 피드백을 통해 인공지능 목소리의 많은 부분을 개선하였는데요.

인공지능 목소리의 단조로움, 감정표현의 한계, 끊어읽기의 어색함 등이 보정과정을 거치면서 현재는 성우와 구별되지 않는 수준이 되었답니다.

 

 

한국출판문화산업진흥원 선정작 나는 노비로소이다

 

한국출판문화산업진흥원에서는 1년간 3번에 걸쳐 총 400권 가량의 오디오북제작비를 지원하고 있습니다.

이번 선정작 중에는 총 3권이 저희 여름을 통해 제작되었는데요. 그 중 한 작품이 역사 비평사의 나는 노비로소이다』 입니다.

 

책 내용은 조선시대 노비의 신분을 탈피하기 위한 재판과정과 배경내용이 주를 이룹니다. 저자의 꼼꼼하면서도 섬세한 필체로 전문성과 생동감을 모두 느낄 수 있는데요. 특히 변호사가 없던 시절, 재판을 이끌어가기 위해 법조문을 인용하는 부분과 사회 전반적인 문제를 바로 잡기 위한 많은 인물들의 활동을 자세히 다루고 있습니다.

 

이 책은 발음하기 어려운 조선시대 법용어 그리고 어절과 음절을 명확히 구분하지 않으면 어색한 부분이 많아, 전문성우도 낭독에 난이도가 높은 작품입니다.

성우도 낭독하기 어려운 작품의 오디오북을 인공지능 목소리로 만들어도 괜찮은 걸까요?

 

 

STEP 1 인공지능 목소리 선정

 

오디오북에서 가장 중요한 목소리는 내용의 대부분을 낭독하는 나레이션입니다.

특히 나는 노비로소이다』와 같이 책의 성격이 명확한 경우 나레이션의 선정이 더욱 중요하다고 할 수 있습니다.

그래서 역사적 사실을 낭독하기에 적합한 중후한 남성 톤의 인공지능 목소리를 나래이션으로 선정 하였습니다.

 

특히, 작업의 효율과 오디오북의 품질을 위해 60시간 이상 충분히 학습되어 있어 어떠한 단어에도 명확한 발음이 가능하며, 3가지 이상의 톤 구현이 가능한 인공지능 목소리로 선정하였습니다.

 

후보로 차분한 톤의 남자 목소리를 하나 더 선정, 출판사에 전달한 뒤 처음 선정한 목소리로 최종 결정 하였습니다.

 

더불어 캡션부분을 낭독할 목소리 1개, 대화구문과 연기에 필요한 목소리 4개를 추가로 선정해 총 6개의 목소리를 선정하였습니다.

 

오디오북 제작을 위한 인공지능 목소리 선정 필수 팁!

1. 목소리의 학습시간 (최소 40시간 이상 전문성우가 녹음한 목소리로 만들어진 목소리)
2. 톤 구현 (오디오북 제작시 다양한 톤으로 낭독되는 경우가 많기에 최소 3가지 이상의 톤구현이 가능한 목소리)

 

 

STEP 2 인공지능 목소리 보정

 

인공지능 목소리 보정에 대부분을 차지하는 것은 끊어읽기와 발음 보정입니다.

 

끊어읽기 보정은 문장에서 구두점 등으로 보정하는 방법과 추출된 음성을 믹싱 장비나 프로그램으로 보정하는 방법이 있습니다.

작업의 효율을 위해 문장에서 대부분을 보정한 뒤, 도저히 보정이 불가능한 부분은 프로그램을 통해 보정을 진행합니다.

그리고 음성의 마스터링이라고 할 수 있는 잡음 제거와 전체 톤 및 이퀄라이저 보정을 통하면 목소리가 완성됩니다.

 

물론 이번 오디오북의 나래이션도 동일한 과정에서 완성되었습니다.

 

이렇게 완성된 목소리는 안정적인 속도 및 호흡과 더불어 깨끗하면서도 정확한 발음을 구현하게 됩니다.

섬세한 감정표현까지도 놀라운 수준이죠!

 

인공지능 목소리는 언제든 동일한 목소리로 수정 가능하다는 큰 장점마저 있습니다.

 

 

STEP 3 음향 기획 및 믹싱 (공간음향)

 

오디오북에서 음향은 책을 읽는 것과 구별되는 가장 큰 요소입니다.

도입부분과 배경부분에 음악을 삽입하는 방법에서부터 모든 부분에 효과음과 음악을 믹싱할 수도 있습니다.

최근에 많은 사랑을 받고 있는 오디오 드라마나 오디오 영화 같은 오디오 콘텐츠는 더 많은 효과음과 음악이 믹싱된 콘텐츠라고 볼 수 있죠.

더욱 풍성한 음향은 그 장면을 눈으로 보지 않고도 실제로 체험하는 듯한 경험마저 선사하죠.

 

여름에서는 모든 음향 믹싱에 공간음향기술인 돌비애트모스를 적용하고 있습니다.

최근에는 돌비, 애플, DTS, 소니 등 다양한 회사들이 공간음향 포멧을 지원하는데요.

저희는 대부분의 청취자가 이어폰 및 헤드폰 환경에서 콘텐츠를 소비하기에 이어폰으로 공간음향을 구현하는 기술 즉, 바이노럴이 가장 잘 구현되는 돌비애트모스를 사용합니다.

 

더불어 효과음과 배경음악, 전환음을 기존 오디오북 대비 3~5배 분량으로 믹싱하여 훨씬 생동감 넘치는 오디오북이 탄생됩니다.

 

나는 노비로소이다에서는 재판이 진행되는 장면에서 그 생동감을 느껴보실 수 있습니다.

 

오디오북을 더욱 풍성하게 하는 음향 팁!

1. 바이노럴 (이어폰과 헤드폰에서 최대 10방향의 채널까지도 구현이 가능합니다.)
2. 배경음악, 효과음, 전환음의 비중 높히기 (더욱 생동감 넘치는 오디오북이 완성됩니다.)

 

이번 오디오북의 총 제작시간은 무려 80시간에 달합니다.

오디오북 러닝타임에 10배가 넘는 수준이죠!

 

어떻게 보면 오디오북은 우리가 접할 수 있는 콘텐츠 중 가장 긴 형태라고도 볼 수 있는데요.

 

그렇게 때문에 좋은 오디오북이 만들어지기 위해서는 성우 녹음과 인공지능 목소리의 선택보다는 제작자와 프로듀서의 정성이 가장 중요한 부분이 아닐까요?

 

 

Yeoreum은 좋은 변화에 마음이 열리는 내용을 담습니다.