생성형 오디오

생성형 오디오(generative audio)는 오디오 클립 데이터베이스에서 오디오 파일을 생성하는 것을 의미한다. 이 기술은 요청 시 함께 연결되는 조각 모음을 사용하는 애플의 Siri 또는 아마존의 알렉사와 같은 AI 음성과 다르다.

생성형 오디오는 신경망을 사용하여 오디오 소스의 통계적 속성을 학습한 다음 해당 속성을 재현하는 방식으로 작동한다.^[1]

시사점[편집]

이 기술을 사용하면 사람의 목소리를 복제하여 한 번도 말한 적이 없는 문구를 말할 수 있다. 이로 인해 공인의 목소리가 합성되어 해당 공인들에게 불리하게 사용될 수 있다.^[2]

이 방법은 두 개의 기계 학습 모델이 서로 작동하여 사실적인 오디오를 생성하는 심층 기계 학습 기술인 생성적 적대 신경망(GAN)을 사용한다.^[3]

↑ “Fake news: you ain't seen nothing yet”. 《The Economist》. July 2017. 2017년 7월 1일에 확인함.
↑ Zotkin, D. N.; Shamma, S. A.; Ru, P.; Duraiswami, R.; Davis, L. S. (April 2003). 〈Pitch and timbre manipulations using cortical representation of sound〉. 《2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03)》 5. V–517–20쪽. doi:10.1109/ICASSP.2003.1200020. ISBN 978-0-7803-7663-2. S2CID 10372569.
↑ Mobin, Shariq (October 2016). “Voice Conversion using Convolutional Neural Networks”. arXiv:1610.08927 [stat.ML].