Voice Cloning(음성복제) - 자신만의 TTS 목소리 만들기
프로그래밍/Linux 2020. 8. 28. 15:18 |최근 인공지능이 발전하고 있죠?
그 인공지능 중에서 제가 이번에 다룰 내용은 사람의 목소리를 흉내내는 Voice Cloning 이라는 기술이에요.
그리고 이 기술이 아직 한국어로 많이 퍼져있지가 않은거같아요.
Voice Cloning이란?
다른 이름으론 DeepVoice라고도 불리며, 사람의 목소리와 말투를 기계가 학습해서 그 목소리를 기반으로 어떠한 글을 읽어주는 기술이에요.
비슷한 프로그램의 예시로는 보이스로이드, 보컬로이드도 있죠.
제가 참고로 한 사이트는 https://github.com/CorentinJ/Real-Time-Voice-Cloning 이에요.
설치
1. Anaconda 다운로드
https://www.anaconda.com/products/individual
Anaconda | Individual Edition
Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine.
www.anaconda.com
위의 링크에서 자신의 운영체제에 맞는 아나콘다를 다운받습니다.
저는 윈도우 64비트니까 64비트로 다운했어요.
2. 깃허브 다운로드
https://github.com/CorentinJ/Real-Time-Voice-Cloning
CorentinJ/Real-Time-Voice-Cloning
Clone a voice in 5 seconds to generate arbitrary speech in real-time - CorentinJ/Real-Time-Voice-Cloning
github.com
1번을 기다리면서 위의 링크에서 Download Zip을 눌러서 압축파일로 코드를 내려받습니다.
그리고 깃허브 사이트에서 약간 내리면 pretrained models도 다운합시다.
3. 1번과 2번이 다 된 후
"시작" 버튼을 누르시면 Anaconda Prompt 라는 프로그램이 새로 생겼을거에요.
실행시키면 명령프롬프트와 비슷한 창이 뜨죠?
그 창에 지금부터 명령어를 칠 거에요.
3-1. conda create -n VoiceTest python=3.6
위 명령어를 설명하자면, VoiceTest라는 이름의 가상 머신을 파이썬 3.6버전으로 만들겠다. 라는 뜻이에요.
3-2. conda activate VoiceTest
말 그대로 VoiceTest 라는 가상머신을 활성화 시킨다는 명령어에요.
3-3. conda install -c menpo ffmpeg
이젠 설치하는 명령어인데, menpo라는 채널에서 ffmpeg 를 설치한다는 뜻이에요.
3-4. https://pytorch.org/get-started/locally/
PyTorch
An open source deep learning platform that provides a seamless path from research prototyping to production deployment.
pytorch.org
이제 위 사이트에서 pytorch라는것을 다운로드 해줘야 하는데, 버전을 설정하는 방법을 설명하자면,
pytorch build : pytorch 버전
your os : 사용중인 운영체제
package : 다운할 때 사용할 패키지 언어 (지금은 conda)
language : 프로그래밍 언어 (지금은 python)
cuda : 사용중인 cuda 버전
자신의 현재 상황에 따라 설정 후 나오는 명령어를 복사하고, anaconda prompt에 붙여넣기 하시면 됩니다.
ex) 위의 상황에선 conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch 입니다.
3-4-1. cuda 버전 확인법
윈도우일 경우, 바탕화면에 우클릭을 하여 nvidia 제어판을 들어갑니다.
그 후 왼쪽 하단에 시스템 정보 버튼을 클릭하신 후, 구성요소에 NVCUDA.DLL 의 제품 이름 부분을 보시면 됩니다.
3-5. pip install -r requirements.txt
이번 명령어는 치기 전에 디렉토리 경로를 이동해줘야 합니다.
아까 처음에 깃허브에서 다운했던 파일의 압축 해제한 후 폴더 내부로 경로를 변경해야 하는데 그 명령어는 리눅스와 동일합니다.
cd C:\경로 를 먼저 해 주셔야 제대로 작동합니다.
실행
이제 설치는 다 끝났습니다.
기나긴 설치 후 이제 실행만 남았는데, 실행 명령어는 단 한줄입니다.
python demo_toolbox.py
3-5에 들어간 경로 내에서 위의 명령어를 실행시키면 실행이 됩니다.
간단한 UI 설명을 하자면, Record(녹음) Browse(불러오기) synthesize and vocode(합성 및 실행) Export(추출)만 아셔도 될 것 같습니다.
녹음은 말 그대로 마이크로 바로 음성을 녹음할 수 있는것이고,
불러오기는 음성파일을 불러와서 학습을 할 수 있는 기능입니다.
우측 상단의 텍스트란에는 실행시 인공지능이 할 말을 적는 칸입니다.
이상 자신만의 tts(text to speach) 설치 및 실행법이었습니다.
'프로그래밍 > Linux' 카테고리의 다른 글
젯슨나노에서 채굴기 (0) | 2021.07.04 |
---|