티쳐블머신 오디오 학습 방법 소개

지난번에는 이미지 학습방법에 대해서 살펴보았습니다. 혹시, 재미있는 프로젝트를 많이 해보셨나요? 저 역시 관상을 잘 분석하기 위해서 아주 많은 이미지들을 학습 시켰습니다. 네이버에서 밤새 크롤링을 하고나니 수천장이 폴더에 담겨있네요. 더욱 더 정확한 데이터를 제공해주기 위한 노력이라 보면 좋을 것 같습니다.

이번에는 오디오 학습 방법에 대해서 알아보도록 하겠습니다. 

이번 역시, 티쳐블 머신에서 알려주는 튜토리얼을 활용하여 연구 해보도록 하겠습니다.

 

오늘은 오디오 클립을 사용하여 스냅, 박수 및 휘파람 을 감지하는 기계 학습 모델을 만드는 과정을 해볼것입니다 . 스냅 박수와 휘파람을 감지할 수 있다고? 정말 대단하지 않나요? 글을 쓰면서도 이미 신납니다. (흐흐)

 

Let's Get Started! 

 

자 모든 학습 이제 끝났으면 실제로 한번 테스트를 해 볼 텐데요 내가 훈련 안 모델이 어떻게 작동하는지 한번 테스트를 해 보세요  우선 아무런 소음이 없을 때 역시 백그라운드 노이즈 100%인 걸 확인을 할 수가 있구요 내가 스냅 소리를내어 쓸 때 스냅이 일시적으로  퍼센테이지가 올라가면서   나의 아주 인식하는걸 확인할 수 있습니다.

 

자 똑같은 실험을 계속적으로 하다 보면 여러분이 느낄 수 있는 것들이 아마 머신러닝이 확실한 데이터를 주고 있지 않다라는 것을 알 수 있습니다 예를 들어 내가 만든 모델이 가끔 스냅과 박수를 혼동하는 것처럼 보이는데 이 두 클래스 모드에서 사운드를 시각화하는 그래프를 보면 비슷한 양상을 보입니다 따라서 기계는 새로운 소외 소리의 차이를 예측하는데 어려움을 겪을 수 있다는 것입니다 

 

자 여기서 우리가 더 시도해 볼 만한 것들이 마이크를 바꾼다거나 혹은 더 멀리 떨어져서 대화를 한다거나 아니면 다른 배경 소음이 발생하는 곳에서 기도를 하게 되었을 때 역시나 다르게 예측하는 것을 확인을 할 수가 있습니다 이것을 최소화하기 위해서는 앞서 이미지 학습 때 했던 것과 같이 우리가 수많은 배경 소음들을 학습시키고 그리고 다양한 스냅 소리를 학습을 시키게 된다면 역시 더욱 더 정확한 값을 얻을 수 있습니다 호루라기 소리를 통해서 여러분이 추가적으로 더 많은 소리를 한번 테스트해 봤으면 좋겠습니다 

 

자 그럼이 소리를 학습한 데이터를 가지고 어떤 것들을 만들 수 있을까요 아 지금 보여주는 튜토리얼에서는 소리를 가지고 캐릭터가 점프를 하거나 아니면 숙이는 제사를 통해서 게임을 제거했습니다 아래 링크를 따라가셔서 유튜브를 보면 재미난 영상을 볼 수 있을 것 같습니다 그렇다면 저는 무엇을 만들 수 있을까요

게임 보기

 

 저는 수 많은 연예인들의 목소리를 학습 시켜서 성대모사를 훈련할 수 있는 어플리케이션을 한번 만들어 보고자 하는데요 문제는 성대모사를 잘하기 위해서 얼마나 정확한 데이터를 학습 시킬 수 있느냐가 관건일 것 같습니다 그래서 저는 한석규 배우의 목소리 하나만을 우선 집중적으로 테스트를 해 보려고 합니다 

 

오늘은 오디오 학습에 대해서 알아보았습니다 다음에는 다양한 포즈를 통해서 티처블머신을 잘 활용해 보도록 하겠습니다