MADE

인공지능을 더욱 편리하게 만드는 기술 - 1부 (feat. Dotdot솔루션)

DIINO 2022. 12. 19. 12:55

본 글은 위 오디오 콘텐츠와 함께 제공됩니다.

 

Editor.  이준영(DIINO)  Yeoreum

 

안녕하세요.

여름의 자연어 처리 엔지니어 이준영입니다.

오늘은 저희 여름에서 개발된 인공지능 모델의 기술을 소개합니다.

여름은 2020년부터 딥러닝 인공지능 음성 생성모델인 TTS를 활용한 공간음향 오디오 콘텐츠를 제작하고 있습니다.

최근에는 인공지능 음성 기술이 나날이 발전하여 성우와 유사한 수준의 콘텐츠 제작이 가능해졌습니다.

그러나 이 작업은 효율성 측면에서 몇가지 문제가 있습니다.

대표적인것이, TTS를 음성으로 추출하기 전 문장 데이터의 전처리 과정입니다.

 

M A D E

 

 

인공지능 음성(TTS)의 활용을 더욱 편리하게 "닷닷솔루션"


이 전처리 과정은 통일된 패턴에서 이루어지는 과정이 아니기에 사람이 일일이 개입해야 하는 문제가 존재합니다.

그 과정은 생각보다 많은 시간이 소요되며 TTS에서 기대할 수 있는 이점인 빠르게 자연스러운 음성을 생성하는 부분에 큰 장애물이 됩니다.

 

결국, 생성된 TTS를 들으며 문장 하나하나를 일일이 수정하는 매우 귀찮은 작업이 수반되는데요.

저희 여름은 이 문제를 개선하기 위해 자연스러운 인공지능 음성을 위한 끊어읽기 자동화 솔루션을 개발하였습니다.

이 딥러닝 모델의 이름은 Dotdot 입니다.

 

 

Dotdot 솔루션의 큰 축 데이터와 모델

 

본 모델의 기술 리뷰는 크게 데이터, 모델의 두챕터로 이루어져 있습니다.

첫번째 데이터 챕터에서는 솔루션의 구조와 학습 데이터셋을 설명합니다.

 

두번째 모델 챕터에서는 학습에 사용된 NLP모델과 끊어읽기를 위한 테스크모델 그리고 특허 및 적용사례, 모델 확장 로드맵을 설명합니다.

 

 

Dotdot 솔루션의 아키텍처


Dotdot 솔루션은 TTS의 음성합성 과정에서 자연스러운 음성 구현을 위해 문장에서 끊어읽어야 할 부분에 자동으로 구두점을 생성하는 딥러닝 모델입니다.

모델의 구조를 보시면 크게 4가지 구성요소로 나누어져 있습니다.

학습 데이터셋, NLP모델, 테스크모델, 피드백모델 입니다.

간략하게 설명하자면 레이블 즉 구두점이 생성되어야 하는 여부를 구분하는 2억 4천만개의 학습 데이터셋이 사전에 준비됩니다.

이 데이터셋은 NLP 모델, 구체적으로는 멀티 헤드 어텐션과 버트에 학습 데이터로 활용 되는데요.

두 모델은 데이터셋을 그대로 학습 데이터로 활용하는지 또는 파인튜닝을 위한 학습 데이터로 활용하는지에 따라서 데이터의 구조가 달라집니다.


NLP모델을 통한 학습을 마친 후에는 모델의 추론을 통한 테스크를 수행하게 됩니다.

이 과정에서 모델의 추론 결과로 구두점을 생성시키는 일련의 절차가 테스크 모델이 됩니다.

이후 본 모델을 활용하는 과정과 동시에 모델의 고도화를 이루는 피드백 모델이 활용됩니다.

피드백 모델의 경우 교사강요 피드백의 방식을 활용하였습니다.

 

 

레이블된 대규모 데이터셋


모델에 사용된 학습 데이터셋은 결코 작은 규모가 아닙니다.

14기가바이트 규모의 2억 4천만 개의 구두점 생성요소가 레이블된 코퍼스 데이터셋 입니다.

이 데이터셋은 어텐션이 없는 피드 포워드 모델에서도 87%의 정확도를 달성할 만큼 매우 잘 만들어진 데이터셋 입니다.

데이터의 구조를 살펴보면 인코딩 디코딩을 통해 3개의 다른 형태의 데이터를 추출할 수 있음을 알 수 있습니다.

정수 시퀀스의 경우 모델의 학습데이터로 활용되는 정수 형태의 데이터이며, 형태소 시퀀스는 실제 문장의 형태소에서 어두와 어미의 기호를 결합한 형태입니다.

마지막으로 단어 시퀀스는 실제 구두점의 유무를 판단할 수 있는 단어 단위로 분리된 문장으로 되어 있습니다.

본 데이터셋은 리스트와 픽클 그리고 씨에스브이의 테이블 형식으로 구성되어, 모든 자연어 처리 모델에 즉시 사용할 수 있는 형태로 구성됩니다.

 

 

GPT3와 같은 개념의 인코더 모델


NLP 모델은 트랜스포머부터 최근 GPT3까지 연일 좋은 성능을 갱신중인 인코더 디코더 모델입니다.

첫번째로 활용된 모델은 멀티헤드어텐션 입니다.

 

모델의 구조는 인코더 레이어 그리고 피드 포워드 레이어가 합쳐진 형태가 4겹으로 이루어진 구조입니다.

모델의 학습 데이터로는 형태소 데이터를 정수인코딩 하여 활용하며 0과 1 사이의 추축 스코어를 결과로 도출합니다.

두번째로 활용된 모델은 대규모 한국어가 학습된 코버트입니다.

 

모델의 구조는 인코더 레이어 그리고 피드 포워드 레이어가 합쳐진 형태로 12겹으로 이루어진 구조입니다.

모델의 학습 데이터로는 단어 데이터를 정수인코딩 하여 활용하며 0과 1사이의 추축 스코어를 결과로 도출합니다.

두 모델은 학습과 사전학습이라는 차이점이 존재하며, 현재까지는 근소한 차이로 유사한 성능을 보이고 있습니다.

 

 

여름의 노하우가 담긴 테스크모델

 

테스크 모델은 Dotdot솔루션의 핵심 구조로 실제 여름에서 오디오 콘텐츠를 제작하기위해 수많은 TTS를 직접 보정하는 과정에서 터득된 노하우로 구축되었습니다.

구조를 살펴보면 인공지능 음성으로 추출하기 위한 문장데이터를 입력받습니다.

그리고 단어단위 토큰화를 거친 후 형태소 시퀀스로 인코딩 과정을 거칩니다.
최종적으로 모델 추론을 통해 기준 이상의 스코어의 경우 구두점을 생성합니다.
생성된 구두점은 최초로 입력받은 문장데이터에 형성되어 출력됩니다.

여름은 우수한 테스크 모델을 구축할 수 있는 네가지 노하우가 있었습니다.

 

구두점의 위치가 학습데이터의 시퀀스보다 짧은 시퀀스일 경우 이를 해결하기 위한 노하우가 있었으며, 어간/어미 또는 어두/어미합성 중 어느 것이 모델에 높은 성능을 보이는지에 대한 노하우가 있었습니다.

 

그리고 끊어 읽는 부분에서 길이 조절에 대한 노하우가 있었으며, 피드백 모델을 생성하기 위한 다양한 끊어읽기 방식을 전처리 할 수 있는 노하우 역시 중요한 부분이였습니다.

 

 

Dotdot 솔루션 특허


저희는 Dotdot솔루션에 2가지 특허를 출원하였습니다.

하나는 바로 직전에 설명한 테스크 모델의 구조인 자연스러운 인공지능 음성 낭독을 위한 끊어 읽기 자동화 방법입니다. 해당 특허는 2022

년 11월에 출원하여 현재 심사 진행중입니다.

또 다른 하나는 구두점 생성과 유사한 방식으로 다양한 테스크를 수행할 수 있는 의미단위 토크나이저 방법입니다.

해당 특허의 아이디어는 추후 오디오 콘텐츠 제작시 배경음악과 효과음을 매칭하는 솔루션과 오디오 콘텐츠의 청취자를 타켓팅 하는 솔루션의 중요 기술이 됩니다.

본 특허 역시 2022년 11월에 출원하여 현재 심사 진행중입니다.

 

 

Dotdot 솔루션을 활용하여 제작된 오디오북


Dotdot솔루션이 오디오 콘텐츠에 활용된 사례는 현재까지 3건이 존재합니다.

비행기가 옆에 떠있는데 외 2편은 약 288,000개의 단어로 이루어진 책으로 멀티헤드 어텐션에서 92%에 달하는 스코어를 달성하여 기존 대비 46%의 제작시간을 절감하였습니다.

웹 3.0 메타버스는 약 75,600개의 단어로 이루어진 책으로 멀티헤드 어텐션에서 93%에 달하는 스코어를 달성하여 기존 대비 35%의 제작시간을 절감하였습니다.

나는 노비로소이다 외 1편은 약 167,400개의 단어로 이루어진 책으로 91%의 스코어를 달성하여 기존 대비 50%의 제작시간을 절감하였습니다.

흥미로운 점은 제작시간의 단축과 스코어가 꼭 비례하지는 않다는 부분인 것 같습니다.

 

 

Dotdot 솔루션을 시작으로 여름의 기술확장 로드맵


저희 여름은 Dotdot솔루션의 확장과 새로운 솔루션의 개발로 다양한 테스크를 수행하는 기술 로드맵을 가지고 있습니다.

Dotdot솔루션의 확장 테스크로는 해당 문장에 적합한 인공지능 음성을 매칭하는 화자 설정과 웃음, 울음 등의 비언어 감정표현 모델을 구현하려 합니다. 개발 목표는 2023년까지로 계획하며 오디오북, 무크, 미디어콘텐츠, 오디오블로그 등 다양한 적용분야를 예상합니다.

새로운 솔루션 개발 로드맵으로는 효과음, 배경음악을 매칭하는 솔루션, 공간음향의 방향과 움직임을 매칭하는 솔루션, 타켓 청취자를 매칭하는 솔루션이 있습니다.

개발 목표는 2025년 까지로 계획하며 오디오 콘텐츠 제작 자동화 서비스와 개인화 오디오 콘텐츠 스트리밍 비즈니스 모델에 적극 활용될 예정입니다.

 


다양한 여름의 기술 로드맵은, 단 한가지의 목표인 오디오 콘텐츠 제작 자동화로 초점이 맞추어져 있습니다.

 

저희 여름이 지속적으로 만들어낼 오디오 콘텐츠와오디오 콘텐츠 제작을 자동화하기 위한 인공지능 솔루션은, 지속적으로 성장할 여름에 가장 중요한 요소가 될 것입니다.

감사합니다.

 

 

Yeoreum의 MADE는 정성이 담긴 창작을 소개합니다.