음성 합성
음성 합성(音聲合成, speech synthesis)은 인간의 음성을 인공적으로 생성하는 것이다. 이 목적에 사용되는 컴퓨터 시스템을 음성 신시사이저라고 부르며, 소프트웨어나 컴퓨터 하드웨어 제품에 구현될 수 있다. 텍스트 음성 변환(text-to-speech, TTS) 시스템은 일반 언어 텍스트를 음성으로 변환한다. 다른 시스템들은 음성학적 전사와 같은 기호론적 언어 표현을 음성으로 변환한다.[1] 역과정은 음성 인식이다.
합성된 음성은 연접 합성에 의해 생성될 수 있다. 연접 합성은 데이터베이스에 저장된 녹음된 음성의 조각들을 연결하는 방식이다. 시스템은 저장된 음성 단위의 크기에 따라 달라진다. 음소나 이중음을 저장하는 시스템은 가장 큰 출력 범위를 제공하지만, 명확성이 떨어질 수 있다. 특정 사용 영역에서는 단어나 문장 전체를 저장하여 고품질 출력을 가능하게 한다. 대안으로, 신시사이저는 성도와 다른 인간 음성 특성의 모델을 통합하여 완전히 "합성된" 음성 출력을 생성할 수 있다.[2]
음성 신시사이저의 품질은 인간 음성과의 유사성과 명확하게 이해될 수 있는 능력으로 판단된다. 이해하기 쉬운 텍스트 음성 변환 프로그램은 시각 장애나 읽기 장애가 있는 사람들이 가정용 컴퓨터에서 텍스트를 들을 수 있게 해준다. 많은 컴퓨터 운영체제에는 1990년대 초부터 음성 신시사이저가 포함되었다.

텍스트 음성 변환 시스템(또는 "엔진")은 두 부분으로 구성된다.[3] 프런트 엔드와 백 엔드이다. 프런트 엔드는 두 가지 주요 작업을 수행한다. 첫째, 숫자와 약어와 같은 기호를 포함하는 원시 텍스트를 철자된 단어의 등가물로 변환한다. 이 과정을 종종 텍스트 정규화, 전처리 또는 토큰화라고 부른다. 그 다음 프런트 엔드는 각 단어에 음성학적 전사를 할당하고, 텍스트를 운율 단위로 나누고 표시한다. 운율 단위에는 구, 절, 문장 등이 있다. 단어에 음성학적 전사를 할당하는 과정을 텍스트 음소 변환 또는 자소 음소 변환이라고 부른다. 음성학적 전사와 운율 정보는 함께 프런트 엔드에서 출력되는 기호론적 언어 표현을 구성한다. 신시사이저라고도 불리는 백 엔드는 그 다음 기호론적 언어 표현을 소리로 변환한다. 특정 시스템에서는 이 부분이 대상 운율(음높이 윤곽, 음소 길이)의 계산을 포함하며,[4] 그런 다음 출력 음성에 적용된다.
역사
[편집]전자 신호 처리 발명 훨씬 이전에, 어떤 사람들은 인간의 말하기를 모방하는 기계를 만들려고 시도했다. 교황 실베스터 2세 (서기 1003년 사망), 알베르투스 마그누스 (1198–1280), 로저 베이컨 (1214–1294)과 관련된 "황동 머리"의 존재에 대한 전설도 있었다.
1779년에 독일-덴마크 과학자 크리스티안 고틀립 크라젠슈타인은 러시아 러시아 과학 아카데미가 발표한 인간 성도 모델로 5개의 장모음(국제 음성 기호 표기: [aː], [eː], [iː], [oː] 및 [uː])을 생성할 수 있는 모델을 만든 공로로 대회에서 1등을 차지했다.[5] 그 뒤를 이어 헝가리 프레스부르크의 볼프강 폰 켐펠렌의 풀무로 작동되는 "음향-기계 음성 기계"가 1791년 논문에 설명되었다.[6] 이 기계는 혀와 입술의 모델을 추가하여 모음뿐만 아니라 자음도 생성할 수 있게 했다. 1837년, 찰스 휘트스톤은 폰 켐펠렌의 디자인을 기반으로 "말하는 기계"를 만들었고, 1846년에는 조지프 페이버가 "유포니아"를 전시했다. 1923년, 파젯은 휘트스톤의 디자인을 부활시켰다.[7]
1930년대에 벨 연구소는 보코더를 개발했다. 보코더는 음성을 기본적인 톤과 공명으로 자동 분석하는 장치였다. 보코더 작업으로부터 호머 더들리는 키보드로 조작되는 음성 신시사이저인 보더 (Voice Demonstrator)를 개발했으며, 1939년 세계 박람회에서 전시했다.
프랭클린 S. 쿠퍼 박사와 그의 동료들은 1940년대 후반 해스킨스 연구소에서 패턴 플레이백을 구축했으며 1950년에 완성했다. 이 하드웨어 장치는 여러 가지 다른 버전이 있었는데, 현재는 하나만 남아 있다. 이 기계는 음향 패턴의 그림을 스펙트로그램 형태로 다시 소리로 변환한다. 이 장치를 사용하여 앨빈 리버만과 동료들은 음성학적 분절 (자음과 모음) 인식을 위한 음향 단서를 발견했다.
전자 장치
[편집]
최초의 컴퓨터 기반 음성 합성 시스템은 1950년대 후반에 등장했다. 노리코 우메다 등은 1968년 일본 전기기술연구소에서 최초의 일반 영어 텍스트 음성 변환 시스템을 개발했다.[8] 1961년, 물리학자 존 래리 켈리 주니어와 그의 동료 루이 거스트먼[9]은 IBM 704 컴퓨터를 사용하여 음성을 합성했으며, 이는 벨 연구소 역사상 가장 주목할 만한 사건 중 하나이다. 켈리의 음성 녹음기 신시사이저(보코더)는 맥스 매튜스의 음악 반주와 함께 "데이지 벨"이라는 노래를 재현했다. 공교롭게도 아서 C. 클라크는 벨 연구소 머레이 힐 시설에서 그의 친구이자 동료인 존 피어스를 방문하고 있었다. 클라크는 이 시연에 너무 깊은 인상을 받아 그의 소설 2001: 스페이스 오디세이의 각본의 절정 부분에 사용했으며,[10] 여기서 HAL 9000 컴퓨터는 우주비행사 데이브 보먼이 잠들게 할 때 같은 노래를 부른다.[11] 순수 전자 음성 합성의 성공에도 불구하고 기계적 음성 신시사이저에 대한 연구는 계속되고 있다.[12]
선형 예측 부호화 (LPC), 일종의 음성 부호화는 1966년 나고야 대학의 이타쿠라 후미타다와 일본전신전화 (NTT)의 사이토 슈조의 작업에서 시작되었다. LPC 기술의 추가 발전은 1970년대 벨 연구소의 비슈누 S. 아탈과 만프레드 R. 슈로더에 의해 이루어졌다.[13] LPC는 나중에 1978년 스픽 & 스펠 장난감에 사용된 텍사스 인스트루먼트 LPC 음성 칩과 같은 초기 음성 신시사이저 칩의 기반이 되었다.
1975년, 이타쿠라 후미타다는 NTT에서 고압축 음성 부호화를 위한 라인 스펙트럴 페어스 (LSP) 방법을 개발했다.[14][15][16] 1975년부터 1981년까지 이타쿠라는 LSP 방법을 기반으로 한 음성 분석 및 합성 문제를 연구했다.[16] 1980년에 그의 팀은 LSP 기반 음성 신시사이저 칩을 개발했다. LSP는 음성 합성 및 부호화에 중요한 기술이며, 1990년대에는 거의 모든 국제 음성 부호화 표준에서 필수 구성 요소로 채택되어 모바일 채널 및 인터넷을 통한 디지털 음성 통신 향상에 기여했다.[15]
1975년, MUSA가 출시되었으며, 최초의 음성 합성 시스템 중 하나였다. 이 시스템은 독립형 컴퓨터 하드웨어와 이탈리아어를 읽을 수 있는 특수 소프트웨어로 구성되었다. 1978년에 출시된 두 번째 버전은 이탈리아 노래를 "아카펠라" 스타일로 부를 수도 있었다.[17]
1980년대와 1990년대의 주요 시스템은 주로 MIT의 데니스 H. 클랫의 작업에 기반한 DECtalk 시스템과 벨 연구소 시스템이었다.[18] 후자는 자연어 처리 방법을 광범위하게 사용하는 최초의 다국어 언어 독립적 시스템 중 하나였다.


음성 합성을 특징으로 하는 핸드헬드 전자기기는 1970년대에 등장하기 시작했다. 최초의 장치 중 하나는 1976년 맹인용 텔레센서리 시스템즈 인크. (TSI) 스피치+ 휴대용 계산기였다.[19][20] 다른 장치들은 주로 교육 목적으로 사용되었으며, 예를 들어 1978년 텍사스 인스트루먼트에서 생산된 스픽 & 스펠 장난감 등이 있다.[21] 피델리티는 1979년 전자 체스 컴퓨터의 말하는 버전을 출시했다.[22] 음성 합성을 특징으로 하는 최초의 비디오 게임은 1980년 선 일렉트로닉스의 진행형 슈팅 게임 스트라토복스 (일본에서는 스픽 & 레스큐로 알려짐) 아케이드 게임이었다.[23][24] 음성 합성을 특징으로 하는 최초의 개인용 컴퓨터 게임은 1980년 PET 2001용으로 출시된 만비키 쇼조 (Shoplifting Girl)였으며, 이 게임의 개발자 히로시 스즈키는 합성된 음성 파형을 생성하기 위해 "제로 크로스" 프로그래밍 기법을 개발했다.[25] 또 다른 초기 사례인 베르저크의 아케이드 버전도 1980년으로 거슬러 올라간다. 밀턴 브래들리 컴퍼니는 같은 해 음성 합성을 사용하는 최초의 다인용 전자 게임인 밀턴을 생산했다.
1976년, 컴푸토커 컨설턴츠는 CT-1 음성 신시사이저를 출시했다. D. 로이드 라이스와 짐 쿠퍼가 설계했으며, S-100 버스 표준을 사용하는 마이크로컴퓨터와 함께 작동하도록 제작된 아날로그 신시사이저였다.[26]
초기 전자 음성 신시사이저는 로봇 같았고 종종 거의 알아들을 수 없었다. 합성 음성의 품질은 꾸준히 향상되었지만, 2016 년 기준[update] 현대 음성 합성 시스템의 출력은 실제 인간 음성과 명확히 구별된다.
합성된 목소리는 일반적으로 1990년 AT&T 벨 연구소의 앤 시어달이 여성 목소리를 만들 때까지 남성 목소리로 들렸다.[27]
커즈와일은 2005년에 비용 효율성으로 인해 음성 신시사이저가 더 저렴하고 접근하기 쉬워짐에 따라 더 많은 사람들이 텍스트 음성 변환 프로그램의 사용으로 혜택을 받을 것이라고 예측했다.[28]
신시사이저 기술
[편집]음성 합성 시스템의 가장 중요한 품질은 자연스러움과 명료성이다.[29] 자연스러움은 출력이 인간 음성과 얼마나 유사한지를 나타내며, 명료성은 출력이 얼마나 쉽게 이해되는지를 나타낸다. 이상적인 음성 신시사이저는 자연스럽고 명료하다. 음성 합성 시스템은 일반적으로 두 특성을 모두 극대화하려고 한다.
합성된 음성 파형을 생성하는 두 가지 주요 기술은 연접 합성 및 포먼트 합성이다. 각 기술은 장단점이 있으며, 합성 시스템의 의도된 용도에 따라 일반적으로 어떤 접근 방식이 사용될지가 결정된다.
연접 합성
[편집]연접 합성은 녹음된 음성의 세그먼트를 연결(함께 묶는 것)하는 것에 기반한다. 일반적으로 연접 합성은 가장 자연스럽게 들리는 합성 음성을 생성한다. 그러나 음성의 자연스러운 변형과 파형 세그먼트화 자동화 기술의 특성 사이의 차이로 인해 출력에서 때때로 들리는 오류가 발생할 수 있다. 연접 합성에는 세 가지 주요 하위 유형이 있다.
단위 선택 합성
[편집]단위 선택 합성은 방대한 녹음된 음성 데이터베이스를 사용한다. 데이터베이스 생성 중, 각 녹음된 발화는 다음 중 일부 또는 전체로 분할된다: 개별 음소, 이중음, 하프 음소, 음절, 형태소, 낱말, 구 및 문장. 일반적으로 세그먼트 분할은 특별히 수정된 음성 인식기를 "강제 정렬" 모드로 설정한 후 파형 및 스펙트로그램과 같은 시각적 표현을 사용하여 수동으로 수정하는 방식으로 이루어진다.[30] 그런 다음 음성 데이터베이스의 단위에 대한 인덱스가 분할 및 기본 주파수 (피치), 길이, 음절 내 위치, 이웃 음소와 같은 음향 매개변수를 기반으로 생성된다. 런타임에 원하는 대상 발화는 데이터베이스에서 후보 단위의 최적의 체인 (단위 선택)을 결정하여 생성된다. 이 과정은 일반적으로 특별히 가중치가 부여된 결정 트리를 사용하여 달성된다.
단위 선택은 녹음된 음성에 디지털 신호 처리 (DSP)를 소량만 적용하기 때문에 가장 높은 자연스러움을 제공한다. DSP는 종종 녹음된 음성을 덜 자연스럽게 들리게 하지만, 일부 시스템은 파형을 매끄럽게 하기 위해 연결 지점에서 소량의 신호 처리를 사용한다. 최상의 단위 선택 시스템의 출력은 실제 인간 음성과 구별할 수 없는 경우가 많으며, 특히 TTS 시스템이 튜닝된 환경에서 그렇다. 그러나 최대 자연스러움은 일반적으로 단위 선택 음성 데이터베이스가 매우 커야 하며, 일부 시스템에서는 수십 시간의 음성에 해당하는 기가바이트 범위에 달하는 녹음된 데이터가 필요하다.[31] 또한 단위 선택 알고리즘은 데이터베이스에 더 나은 선택이 존재하더라도 이상적인 합성보다 덜한 결과 (예: 사소한 단어가 명확하지 않게 됨)를 초래하는 위치에서 세그먼트를 선택하는 것으로 알려져 있다.[32] 최근 연구자들은 단위 선택 음성 합성 시스템에서 비자연적인 세그먼트를 감지하는 다양한 자동화 방법을 제안했다.[33]
이중음 합성
[편집]이중음 합성은 언어에서 발생하는 모든 이중음 (소리-소리 전환)을 포함하는 최소 음성 데이터베이스를 사용한다. 이중음의 수는 언어의 음소배열론에 따라 달라진다. 예를 들어, 스페인어는 약 800개의 이중음을 가지고 있으며, 독일어는 약 2500개를 가지고 있다. 이중음 합성에서는 각 이중음의 한 가지 예만 음성 데이터베이스에 포함된다. 런타임에 문장의 대상 운율은 선형 예측 부호화, PSOLA[34] 또는 MBROLA[35]와 같은 디지털 신호 처리 기술 또는 이산 코사인 변환을 사용하여 소스 영역에서 피치 수정과 같은 더 최신 기술을 통해 이러한 최소 단위에 중첩된다.[36] 이중음 합성은 연접 합성의 음향 결함과 포먼트 합성의 로봇 같은 특성을 모두 가지고 있으며, 작은 크기 외에는 어느 접근 방식의 장점도 거의 없다. 따라서 상업적 응용에서의 사용은 감소하고 있지만, 무료로 사용 가능한 소프트웨어 구현이 다수 존재하기 때문에 연구에서는 계속 사용되고 있다. 이중음 합성의 초기 사례는 마이클 J. 프리먼이 발명한 교육 로봇인 리킴이다.[37] 리킴은 수업 커리큘럼에 대한 정보와 프로그래밍된 학생들에 대한 특정 전기 정보를 포함했다.[38] 이 로봇은 뉴욕 브롱크스의 4학년 교실에서 테스트되었다.[39][40]
도메인별 합성
[편집]도메인별 합성은 사전 녹음된 단어와 구문을 연결하여 완전한 발화를 생성한다. 이 기술은 시스템이 출력할 텍스트의 종류가 특정 도메인에 한정되는 애플리케이션에 사용된다. 예를 들어 교통 시간표 안내나 날씨 예보 등이 있다.[41] 이 기술은 구현이 매우 간단하며, 말하는 시계나 계산기와 같은 장치에서 오랫동안 상업적으로 사용되어 왔다. 이러한 시스템의 자연스러움 수준은 매우 높을 수 있는데, 문장 유형의 다양성이 제한적이고 원본 녹음의 운율과 억양을 밀접하게 일치시키기 때문이다.
이러한 시스템은 데이터베이스의 단어와 구문에 의해 제한되므로 일반적인 목적이 아니며 미리 프로그래밍된 단어와 구문의 조합만 합성할 수 있다. 그러나 자연스럽게 말하는 언어 내에서 단어를 조합하는 것은 많은 변형을 고려하지 않으면 여전히 문제를 일으킬 수 있다. 예를 들어, 비경음 악센트를 사용하는 영어 방언에서는 "clear" /ˈklɪə/와 같은 단어의 "r"은 다음 단어가 모음으로 시작하는 경우에만 발음된다(예: "clear out"은 /ˌklɪəɹˈʌʊt/로 실현된다). 마찬가지로 프랑스어에서는 리에종이라고 하는 효과로 인해 많은 마지막 자음이 모음으로 시작하는 단어 뒤에 오는 경우 더 이상 묵음이 되지 않는다. 이러한 교체는 단순한 단어 연결 시스템으로는 재현할 수 없으며, 이를 위해서는 문맥 의존적이 되기 위해 추가적인 복잡성이 필요하다.
포먼트 합성
[편집]포먼트 합성은 런타임에 인간 음성 샘플을 사용하지 않는다. 대신 합성된 음성 출력은 가산 합성과 음향 모델(물리 모델링 합성)을 사용하여 생성된다.[42] 기본 주파수, 발성, 잡음 수준과 같은 매개변수는 시간에 따라 변화하여 인공 음성의 파형을 생성한다. 이 방법을 때때로 규칙 기반 합성이라고 부르기도 하지만, 많은 연결 시스템에도 규칙 기반 구성 요소가 있다. 포먼트 합성 기술을 기반으로 한 많은 시스템은 인간 음성으로 오해될 수 없는 인공적이고 로봇 같은 음성을 생성한다. 그러나 최대 자연스러움은 항상 음성 합성 시스템의 목표는 아니며, 포먼트 합성 시스템은 연결 시스템에 비해 장점이 있다. 포먼트 합성 음성은 매우 빠른 속도에서도 안정적으로 이해할 수 있으며, 연결 시스템에서 흔히 발생하는 음향 결함을 피할 수 있다. 고속 합성 음성은 스크린 리더를 사용하여 컴퓨터를 빠르게 탐색하는 시각 장애인이 사용한다. 포먼트 신시사이저는 음성 샘플 데이터베이스가 없기 때문에 연결 시스템보다 일반적으로 프로그램 크기가 작다. 따라서 임베디드 시스템에서 사용할 수 있으며, 메모리와 마이크로프로세서 전력이 특히 제한적이다. 포먼트 기반 시스템은 출력 음성의 모든 측면을 완벽하게 제어할 수 있기 때문에 다양한 운율과 억양을 출력하여 질문과 진술뿐만 아니라 다양한 감정과 목소리 톤을 전달할 수 있다.
포먼트 합성에서 실시간은 아니지만 매우 정확한 억양 제어의 예로는 1970년대 후반 텍사스 인스트루먼트 장난감 스픽 & 스펠과 1980년대 초반 세가 아케이드 게임[43] 및 많은 아타리 아케이드 게임[44]에서 사용된 TMS5220 LPC 칩이 있다. 이 프로젝트들을 위해 적절한 억양을 만드는 것은 힘들었으며, 그 결과는 실시간 텍스트 음성 변환 인터페이스로 아직까지 필적할 만한 것이 없다.[45]
조음 합성
[편집]조음 합성은 인간 성도 및 그곳에서 발생하는 조음 과정을 모델로 음성을 합성하는 계산 기술로 구성된다. 실험실 실험에 정기적으로 사용된 최초의 조음 신시사이저는 1970년대 중반 해스킨스 연구소에서 필립 루빈, 톰 베어, 폴 머멜슈타인이 개발했다. 이 신시사이저(ASY로 알려짐)는 1960년대와 1970년대 폴 머멜슈타인, 세실 코커 등이 벨 연구소에서 개발한 성도 모델에 기반했다.
최근까지 조음 합성 모델은 상업용 음성 합성 시스템에 통합되지 않았다. 주목할 만한 예외는 원래 캘거리 대학교의 스핀오프 회사인 트릴리움 사운드 리서치에서 개발 및 판매한 NeXT 기반 시스템이다. 캘거리 대학교에서 원래 연구의 상당 부분이 수행되었다. 다양한 형태의 NeXT가 사라진 후(1980년대 후반 스티브 잡스가 시작하여 1997년 애플 컴퓨터와 합병), 트릴리움 소프트웨어는 GNU 일반 공중 사용 허가서에 따라 게시되었으며, 작업은 그누 스피치로 계속되었다. 1994년에 처음 판매된 이 시스템은 Carré의 "구분 영역 모델"에 의해 제어되는 인간 구강 및 비강관의 도파관 또는 전송선 아날로그를 사용하여 완전한 조음 기반 텍스트 음성 변환을 제공한다.
조지 C. 루세로와 동료들이 개발한 최근의 신시사이저들은 성대 생체역학, 성문 기류역학 및 기관지, 기관, 비강 및 구강의 음향 파동 전파 모델을 통합하고 있어 물리학 기반 음성 시뮬레이션의 완전한 시스템을 구성한다.[46][47]
HMM 기반 합성
[편집]HMM 기반 합성은 은닉 마르코프 모형에 기반한 합성 방법으로, 통계적 파라메트릭 합성이라고도 불린다. 이 시스템에서는 음성의 주파수 스펙트럼 (성도), 기본 주파수 (음성 소스), 길이 (운율)가 HMM에 의해 동시에 모델링된다. 음성 파형은 최대 우도 기준에 기반하여 HMM 자체에서 생성된다.[48]
사인파 합성
[편집]사인파 합성은 포먼트 (주 에너지 대역)를 순수한 톤 휘슬로 대체하여 음성을 합성하는 기법이다.[49]
딥 러닝 기반 합성
[편집]딥 러닝 음성 합성은 심층 신경망 (DNN)을 사용하여 텍스트(텍스트 음성 변환) 또는 스펙트럼(보코더)으로부터 인공 음성을 생성한다. 심층 신경망은 대량의 녹음된 음성으로 학습되며, 텍스트 음성 변환 시스템의 경우 관련 레이블 및 입력 텍스트를 사용한다.
15.ai는 다화자 모델을 사용한다. 수백 개의 목소리가 순차적으로가 아닌 동시에 학습되어 필요한 학습 시간을 줄이고, 모델이 공유된 감정 문맥을 학습하고 일반화할 수 있게 한다. 심지어 그러한 감정 문맥에 노출되지 않은 목소리에 대해서도 가능하다.[50] 애플리케이션에서 사용하는 비결정적 딥 러닝 모델: 동일한 텍스트 문자열에서 음성이 생성될 때마다 음성의 억양이 약간씩 달라진다. 또한 애플리케이션은 감정 컨텍스트라이저(이 프로젝트에서 만든 용어)를 사용하여 생성된 라인의 감정을 수동으로 변경할 수 있도록 지원한다. 감정 컨텍스트라이저는 추론 중에 모델의 지침 역할을 하는 감정을 전달하는 문장이나 구이다.[51][52]
일레븐랩스는 주로 브라우저 기반 인공지능 지원 텍스트 음성 변환 소프트웨어인 Speech Synthesis로 알려져 있다. 이 소프트웨어는 성악적 감정과 억양을 합성하여 실제와 같은 음성을 생성할 수 있다.[53] 회사는 자사 소프트웨어가 사용된 언어 입력의 문맥에 따라 전달의 억양과 속도를 조정하도록 구축되었다고 말한다.[54] 고급 알고리즘을 사용하여 텍스트의 문맥적 측면을 분석하고, 분노, 슬픔, 행복 또는 경보와 같은 감정을 감지하여 시스템이 사용자의 감정을 이해하도록 돕는다.[55] 그 결과 더욱 현실적이고 인간적인 억양이 생성된다. 다른 기능으로는 다국어 음성 생성 및 문맥에 따라 음성을 인식하는 긴 형식 콘텐츠 생성이 포함된다.[56][57]
DNN 기반 음성 신시사이저는 인간 음성의 자연스러움에 근접하고 있다. 이 방법의 단점으로는 데이터가 충분하지 않을 때의 낮은 견고성, 제어력 부족, 자기 회귀 모델에서의 낮은 성능 등이 있다.
중국어나 대만어와 같은 성조 언어의 경우, 다양한 수준의 성조 변화가 필요하며 때로는 음성 합성기의 출력이 성조 변화 오류를 초래할 수 있다.[58]
오디오 딥페이크
[편집]2023년, VICE 기자 조셉 콕스는 자신이 5분 동안 말하는 것을 녹음한 후 ElevenLabs가 개발한 도구를 사용하여 은행의 음성 인증 시스템을 속이는 음성 딥페이크를 만들었다는 사실을 발표했다.[59]
이것은 정보 불량 상황에 대한 스트레스를 증가시키는데, 이는 다음과 같은 사실과 결합된다:
- 인간 이미지 합성은 2000년대 초부터 실제 카메라로 촬영된 실제 인간과 카메라 시뮬레이션으로 촬영된 인간 시뮬레이션을 인간이 구별할 수 없는 수준 이상으로 발전했다.
- 2016년에는 기존 2D 비디오에서 준실시간으로 얼굴 표정을 위조할 수 있는 2D 비디오 위조 기법이 발표되었다.[60]
- 2017년 SIGGRAPH에서는 워싱턴 대학교 연구원들이 버락 오바마의 상반신 오디오 구동 디지털 유사체를 발표했다. 이는 2D 비디오와 오디오로 구성된 훈련 자료에서 립싱크 및 더 넓은 얼굴 정보를 습득하기 위한 훈련 단계를 완료한 후 애니메이션의 소스 데이터로서 음성 트랙만으로 구동되었다.[61]
2020년 3월, 다양한 미디어 소스의 다양한 가상 캐릭터로부터 고품질 음성을 생성하는 프리웨어 웹 애플리케이션인 15.ai가 출시되었다.[62] 초기 캐릭터에는 포탈의 GLaDOS, 쇼 마이 리틀 포니: 우정은 마법의 트와일라잇 스파클과 플러터샤이, 그리고 닥터 후의 10대 닥터가 포함되었다.
과제
[편집]텍스트 정규화 과제
[편집]텍스트 정규화 과정은 결코 간단하지 않다. 텍스트는 동철이음이의어, 숫자, 준말로 가득 차 있으며, 이 모든 것들은 음성 표현으로 확장되어야 한다. 영어에는 문맥에 따라 다르게 발음되는 많은 철자들이 있다. 예를 들어, "My latest project is to learn how to better project my voice"는 "project"의 두 가지 다른 발음을 포함한다.
대부분의 텍스트 음성 변환 (TTS) 시스템은 입력 텍스트의 의미론적 표현을 생성하지 않는다. 그렇게 하는 과정은 신뢰할 수 없고 제대로 이해되지 않으며 계산적으로 비효율적이기 때문이다. 결과적으로 동형이의어의 중의성 해소를 위해 이웃 단어를 조사하고 발생 빈도에 대한 통계를 사용하는 것과 같은 다양한 휴리스틱 기법이 사용된다.
최근 TTS 시스템은 HMM (위에서 논의됨)을 사용하여 품사를 생성하여 동형이의어의 중의성 해소를 돕기 시작했다. 이 기술은 "read"가 과거 시제를 의미하는 "red"로 발음되어야 하는지, 현재 시제를 의미하는 "reed"로 발음되어야 하는지와 같은 많은 경우에 상당히 성공적이다. 이러한 방식으로 HMM을 사용할 때의 일반적인 오류율은 보통 5% 미만이다. 이 기술은 대부분의 유럽 언어에도 잘 작동하지만, 필요한 훈련 말뭉치에 대한 접근은 이러한 언어에서 종종 어렵다.
숫자를 변환하는 방법 결정은 TTS 시스템이 해결해야 할 또 다른 문제이다. "1325"를 "one thousand three hundred twenty-five"와 같이 숫자를 단어로 변환하는 것은 간단한 프로그래밍 과제이다(적어도 영어에서는). 그러나 숫자는 다양한 문맥에서 발생한다. "1325"는 "one three two five", "thirteen twenty-five" 또는 "thirteen hundred and twenty five"로도 읽을 수 있다. TTS 시스템은 주변 단어, 숫자 및 구두점에 기반하여 숫자를 확장하는 방법을 종종 추론할 수 있으며, 때로는 모호한 경우 문맥을 지정하는 방법을 제공하기도 한다.[63] 로마 숫자도 문맥에 따라 다르게 읽을 수 있다. 예를 들어 "Henry VIII"는 "Henry the Eighth"로 읽히는 반면 "Chapter VIII"는 "Chapter Eight"로 읽힌다.
유사하게, 준말은 모호할 수 있다. 예를 들어 "inches"의 약어인 "in"은 단어 "in"과 구별되어야 하며, 주소 "12 St John St."는 "Saint"와 "Street" 모두에 동일한 약어를 사용한다. 지능적인 프런트 엔드를 가진 TTS 시스템은 모호한 약어에 대해 교육받은 추측을 할 수 있지만, 다른 시스템은 모든 경우에 동일한 결과를 제공하여 무의미한 (때로는 코믹한) 출력을 초래한다. 예를 들어 "율리시스 S. 그랜트"는 "Ulysses South Grant"로 렌더링된다.
텍스트-음소 변환 과제
[편집]음성 합성 시스템은 철자를 기반으로 단어의 발음을 결정하는 두 가지 기본 접근 방식을 사용한다. 이 과정은 종종 텍스트-음소 변환 또는 자소-음소 변환이라고 불린다(음소는 언어학자가 언어의 구분되는 소리를 설명하는 데 사용하는 용어이다). 텍스트-음소 변환의 가장 간단한 접근 방식은 사전 기반 접근 방식이다. 이 접근 방식에서는 언어의 모든 단어와 그 정확한 발음을 포함하는 대규모 사전이 프로그램에 저장된다. 각 단어의 정확한 발음을 결정하는 것은 사전에서 각 단어를 찾아보고 철자를 사전에 지정된 발음으로 대체하는 문제이다. 다른 접근 방식은 규칙 기반 접근 방식이다. 이 접근 방식에서는 발음 규칙이 단어에 적용되어 철자를 기반으로 발음을 결정한다. 이는 읽기를 배우는 "소리내어 읽기" 또는 합성 파닉스 접근 방식과 유사하다.
각 접근 방식은 장단점을 가지고 있다. 사전 기반 접근 방식은 빠르고 정확하지만, 사전에 없는 단어가 주어지면 완전히 실패한다. 사전 크기가 커질수록 합성 시스템의 메모리 공간 요구 사항도 증가한다. 반면에 규칙 기반 접근 방식은 어떤 입력에도 작동하지만, 불규칙한 철자나 발음을 고려할수록 규칙의 복잡성이 상당히 커진다. (영어에서 "of"라는 단어가 매우 흔하지만, 문자 "f"가 [v]로 발음되는 유일한 단어임을 고려해 보라.) 결과적으로 거의 모든 음성 합성 시스템은 이러한 접근 방식의 조합을 사용한다.
음소적 철자법을 사용하는 언어는 매우 규칙적인 표기 체계를 가지고 있으며, 철자를 기반으로 단어 발음을 예측하는 것이 상당히 성공적이다. 이러한 언어의 음성 합성 시스템은 종종 규칙 기반 방식을 광범위하게 사용하며, 철자에서 발음이 명확하지 않은 몇 안 되는 단어(외국 이름 및 차용어 등)에 대해서만 사전을 사용한다. 반면에 철자 체계가 매우 불규칙한 영어와 같은 언어의 음성 합성 시스템은 사전에 더 의존하고, 사전에 없는 특이하거나 단어에 대해서만 규칙 기반 방식을 사용할 가능성이 더 높다.
평가 과제
[편집]보편적으로 합의된 객관적 평가 기준의 부재로 인해 음성 합성 시스템의 일관된 평가는 어려울 수 있다. 다른 조직들은 종종 다른 음성 데이터를 사용한다. 음성 합성 시스템의 품질 또한 생산 기술(아날로그 또는 디지털 녹음 포함)과 음성 재생에 사용되는 시설의 품질에 따라 달라진다. 따라서 음성 합성 시스템 평가는 생산 기술과 재생 시설 간의 차이로 인해 종종 손상되었다.
그러나 2005년 이후 일부 연구자들은 공통 음성 데이터셋을 사용하여 음성 합성 시스템을 평가하기 시작했다.[64]
운율 및 감정 콘텐츠
[편집]영국 포츠머스 대학교의 에이미 드라호타와 동료들이 'Speech Communication' 저널에 발표한 연구에 따르면, 음성 녹음을 들은 청취자들은 화자가 웃고 있는지 여부를 우연한 수준보다 더 잘 판단할 수 있었다고 한다.[65][66][67] 감정 내용을 나타내는 음성 특성 식별이 합성 음성을 더 자연스럽게 들리게 하는 데 사용될 수 있다는 제안이 있었다. 관련 문제 중 하나는 긍정문, 의문문 또는 감탄문에 따라 문장의 음높이 윤곽을 수정하는 것이다. 피치 수정 기술 중 하나[36]는 소스 도메인(선형 예측 부호화 잔차)에서 이산 코사인 변환을 사용한다. 이러한 피치 동기 피치 수정 기술은 음성의 청음 영역의 통합 선형 예측 잔차에 적용된 동적 파열 지수와 같은 기술을 사용하여 합성 음성 데이터베이스의 사전 피치 마킹이 필요하다.[68] 일반적으로 운율은 음성 신시사이저에게는 여전히 과제이며, 활발한 연구 주제이다.
전용 하드웨어
[편집]
- 아이코폰
- 제너럴 인스트루먼트 SP0256-AL2
- 내셔널 세미컨덕터 DT1050 디지토커 (Mozer – 포레스트 모저)
- 텍사스 인스트루먼트 LPC 음성 칩[69]
하드웨어 및 소프트웨어 시스템
[편집]내장 기능으로 음성 합성을 제공하는 인기 있는 시스템.
텍사스 인스트루먼트
[편집]1980년대 초 TI는 음성 합성 분야의 선구자로 알려졌으며, TI-99/4 및 4A용으로 매우 인기 있는 플러그인 음성 신시사이저 모듈이 있었다. 음성 신시사이저는 여러 카트리지를 구매하면 무료로 제공되었으며, 많은 TI 제작 비디오 게임(알피너 및 파섹)에서 사용되었다. 이 신시사이저는 선형 예측 부호화의 변형을 사용하며 작은 내장 어휘를 가지고 있다. 원래 의도는 신시사이저 장치에 직접 꽂히는 작은 카트리지를 출시하여 장치의 내장 어휘를 늘리는 것이었다. 그러나 터미널 에뮬레이터 II 카트리지의 소프트웨어 텍스트 음성 변환 성공으로 이 계획은 취소되었다.
마텔
[편집]마텔 인텔리비전 게임 콘솔은 1982년에 인텔리보이스 음성 합성 모듈을 제공했다. 이 모듈에는 분리형 카트리지에 SP0256 나레이터 음성 신시사이저 칩이 포함되어 있었다. 나레이터는 2KB의 읽기 전용 메모리(ROM)를 가지고 있었으며, 이는 인텔리비전 게임에서 구문을 만들 때 사용할 수 있는 일반적인 단어 데이터베이스를 저장하는 데 사용되었다. 오라터 칩은 외부 메모리로부터 음성 데이터를 받을 수 있었기 때문에 필요한 추가 단어 또는 구문은 카트리지 자체 내에 저장될 수 있었다. 데이터는 간단한 디지털화된 샘플이 아니라 칩의 합성 성도 모델의 동작을 수정하기 위한 아날로그 필터 계수 문자열로 구성되었다.
SAM
[편집]1982년에 출시된 소프트웨어 자동 마우스는 최초의 상업용 전 소프트웨어 음성 합성 프로그램이었다. 나중에 맥인토크의 기반으로 사용되었다. 이 프로그램은 매킨토시가 아닌 애플 컴퓨터(애플 II 및 리사 포함), 다양한 아타리 모델 및 코모도어 64에서 사용할 수 있었다. 애플 버전은 DAC가 포함된 추가 하드웨어를 선호했지만, 카드가 없으면 컴퓨터의 1비트 오디오 출력(많은 왜곡 추가)을 대신 사용할 수 있었다. 아타리는 내장된 POKEY 오디오 칩을 활용했다. 아타리에서의 음성 재생은 일반적으로 인터럽트 요청을 비활성화하고 음성 출력 중 ANTIC 칩을 종료했다. 화면이 켜져 있을 때 들리는 출력은 극도로 왜곡된 음성이다. 코모도어 64는 64의 내장 SID 오디오 칩을 활용했다.
아타리
[편집]논쟁의 여지는 있지만, 운영체제에 통합된 최초의 음성 시스템은 1983년경 출시되지 않은 아타리 1400XL/1450XL 컴퓨터였다. 이 컴퓨터들은 Votrax SC01 칩과 유한 상태 기계를 사용하여 World English Spelling 텍스트 음성 합성 기능을 지원했다.[70]
아타리 ST 컴퓨터에는 플로피 디스크에 "stspeech.tos"가 함께 판매되었다.
애플
[편집]대량으로 출하된 운영체제에 통합된 최초의 음성 시스템은 애플의 매킨토크였다. 이 소프트웨어는 제3자 개발자인 조지프 카츠와 마크 바튼(이후 SoftVoice, Inc.)으로부터 라이선스를 받았으며 1984년 매킨토시 컴퓨터 출시 시 시연되었다. 이 1월 데모에는 512킬로바이트의 RAM 메모리가 필요했다. 결과적으로 초기 매킨토시가 실제로 출하된 128킬로바이트의 RAM에서는 실행될 수 없었다.[71] 따라서 데모는 프로토타입 512k Mac으로 이루어졌지만, 참석자들에게는 이 사실이 알려지지 않았고 합성 데모는 매킨토시에 대한 상당한 흥분을 불러일으켰다. 1990년대 초 애플은 시스템 전반에 걸친 텍스트 음성 변환 지원을 제공하는 기능을 확장했다. 더 빠른 PowerPC 기반 컴퓨터가 출시되면서 더 고품질의 음성 샘플링이 포함되었다. 애플은 또한 시스템에 음성 인식을 도입하여 유동적인 명령 세트를 제공했다. 최근에는 샘플 기반 음성을 추가했다. 처음에는 호기심의 대상이었던 애플 매킨토시의 음성 시스템은 시각 장애가 있는 사람들을 위한 완전 지원 프로그램인 플레인토크로 발전했다. 보이스오버는 2005년 맥 OS X 타이거 (10.4)에서 처음으로 선보였다. 10.4 (타이거) 및 10.5(레퍼드)의 초기 릴리스 동안 Mac OS X와 함께 출하되는 표준 음성은 하나뿐이었다. 10.6 (스노 레퍼드)부터 사용자는 다양한 음성 목록에서 선택할 수 있다. 보이스오버 음성은 문장 사이에 현실적인 숨소리를 포함하며, 플레인토크보다 빠른 읽기 속도에서도 향상된 명확성을 제공한다. Mac OS X에는 또한 say, 명령줄 인터페이스 기반 애플리케이션이 포함되어 텍스트를 들을 수 있는 음성으로 변환한다. 애플스크립트 표준 추가 기능에는 스크립트가 설치된 음성 중 하나를 사용하고 음성 텍스트의 피치, 말하기 속도 및 변조를 제어할 수 있는 say 동사가 포함되어 있다.
아마존
[편집]알렉사 및 AWS의 서비스형 소프트웨어로 사용됨[72] (2017년부터).
아미가OS
[편집]
고급 음성 합성 기능을 갖춘 두 번째 운영체제는 1985년에 출시된 아미가OS였다. 음성 합성은 코모도어 인터내셔널이 SoftVoice, Inc.로부터 라이선스를 받았으며, SoftVoice, Inc.는 원래 맥인토크 텍스트 음성 변환 시스템도 개발했다. 이 시스템은 아미가의 오디오 칩셋을 통해 가능해진 남성 및 여성 음성과 "스트레스" 표시 마커가 있는 미국 영어에 대한 완벽한 음성 에뮬레이션 시스템을 특징으로 했다.[73] 합성 시스템은 제한 없는 영어 텍스트를 표준 음성 코드 집합으로 변환하는 번역기 라이브러리와 음성 생성의 포먼트 모델을 구현하는 나레이터 장치로 나뉘었다. AmigaOS는 또한 높은 수준의 "Speak Handler"를 특징으로 하여 명령줄 사용자가 텍스트 출력을 음성으로 리디렉션할 수 있게 했다. 음성 합성은 타사 프로그램, 특히 워드 프로세서 및 교육용 소프트웨어에서 가끔 사용되었다. 합성 소프트웨어는 첫 번째 AmigaOS 릴리스부터 거의 변경되지 않았으며, 코모도어는 결국 AmigaOS 2.1 이후부터 음성 합성 지원을 제거했다.
미국 영어 음소 제한에도 불구하고, 다국어 음성 합성을 지원하는 비공식 버전이 개발되었다. 이 버전은 각 언어에 대한 규칙 집합이 주어지면 여러 언어를 번역할 수 있는 향상된 버전의 번역기 라이브러리를 사용했다.[74]
마이크로소프트 윈도우
[편집]현대 윈도우 데스크톱 시스템은 SAPI 4 및 SAPI 5 구성 요소를 사용하여 음성 합성 및 음성 인식을 지원할 수 있다. SAPI 4.0은 윈도우 95 및 윈도우 98의 선택적 추가 기능으로 제공되었다. 윈도우 2000은 내레이터, 시각 장애인을 위한 텍스트 음성 변환 유틸리티를 추가했다. JAWS for Windows, Window-Eyes, Non-visual Desktop Access, Supernova 및 System Access와 같은 타사 프로그램은 지정된 웹사이트, 이메일 계정, 텍스트 문서, Windows 클립보드, 사용자의 키보드 입력 등에서 텍스트를 소리내어 읽는 것과 같은 다양한 텍스트 음성 변환 작업을 수행할 수 있다. 모든 프로그램이 직접 음성 합성을 사용할 수 있는 것은 아니다.[75] 일부 프로그램은 플러그인 또는 추가 기능을 사용하여 텍스트를 소리내어 읽을 수 있다. 시스템 클립보드에서 텍스트를 읽을 수 있는 타사 프로그램이 있다.
마이크로소프트 스피치 서버는 음성 합성 및 인식을 위한 서버 기반 패키지이다. 웹 애플리케이션 및 콜 센터와 함께 네트워크 사용을 위해 설계되었다.
보트랙스
[편집]1971년부터 1996년까지 보트랙스는 여러 상업용 음성 신시사이저 구성 요소를 생산했다. 보트랙스 신시사이저는 맹인용 커즈와일 독서기의 1세대 모델에 포함되었다.
텍스트 음성 변환 시스템
[편집]텍스트 음성 변환 (TTS)은 컴퓨터가 텍스트를 소리내어 읽을 수 있는 기능을 의미한다. TTS 엔진은 서면 텍스트를 음소 표현으로 변환한 다음 음소 표현을 소리로 출력될 수 있는 파형으로 변환한다. 다른 언어, 방언 및 전문 어휘를 가진 TTS 엔진은 타사 출판사를 통해 이용 가능하다.[76]
안드로이드
[편집]안드로이드 버전 1.6은 음성 합성(TTS) 지원을 추가했다.[77]
인터넷
[편집]현재, 이메일 클라이언트에서 직접 메시지를 읽거나 웹 브라우저 또는 구글 툴바에서 웹 페이지를 읽을 수 있는 여러 응용 프로그램, 플러그인, 가젯이 있다. 일부 특수 소프트웨어는 RSS 피드를 내레이션할 수 있다. 한편, 온라인 RSS 나레이터는 사용자가 좋아하는 뉴스 출처를 듣고 팟캐스트로 변환할 수 있도록 하여 정보 전달을 단순화한다. 다른 한편, 온라인 RSS 리더는 인터넷에 연결된 거의 모든 개인용 컴퓨터에서 사용할 수 있다. 사용자는 생성된 오디오 파일을 휴대용 장치로 다운로드하여(예: 팟캐스트 수신기를 사용하여) 걷거나, 조깅하거나, 통근하는 동안 들을 수 있다.
인터넷 기반 TTS 분야에서 성장하는 분야는 웹 기반 보조과학기술이다. 예를 들어 영국 회사의 'Browsealoud'와 리드스피커가 있다. 이는 웹 브라우저에 접근할 수 있는 누구에게나 (접근성, 편의성, 엔터테인먼트 또는 정보 목적) TTS 기능을 제공할 수 있다. 비영리 프로젝트 페디아폰은 2006년에 위키백과에 유사한 웹 기반 TTS 인터페이스를 제공하기 위해 만들어졌다.[78]
다른 작업은 BBC 및 구글 Inc.의 참여를 통해 W3C 오디오 인큐베이터 그룹의 맥락에서 W3C 내에서 수행되고 있다.
오픈 소스
[편집]다음과 같은 일부 오픈 소스 소프트웨어 시스템을 사용할 수 있다.
- 다양한 언어를 지원하는 eSpeak.
- 페스티벌 음성 합성 시스템. 이 시스템은 이중음 기반 합성뿐만 아니라 더 현대적인 사운드 기법을 사용한다.
- 자유 소프트웨어 재단의 조음 합성을 사용하는 그누 스피치.[79]
기타
[편집]- 하드웨어 기반 인텔리보이스의 상업적 실패 이후, 게임 개발자들은 이후 게임에서 소프트웨어 합성을 거의 사용하지 않았다. 아타리의 이전 시스템인 아타리 5200 (베이스볼) 및 아타리 2600 (쿼드런 및 오픈 세사미)에도 소프트웨어 합성을 활용하는 게임이 있었다.
- 아마존 킨들, 삼성 E6, 포켓북 eReader 프로, 앙투라주 eDGe 및 비북 네오와 같은 일부 전자책 리더.
- BBC 마이크로는 텍사스 인스트루먼트 TMS5220 음성 합성 칩을 통합했다.
- 1979년 및 1981년에 생산된 일부 텍사스 인스트루먼트 가정용 컴퓨터(텍사스 인스트루먼트 TI-99/4 및 TI-99/4A)는 매우 인기 있는 음성 신시사이저 주변 장치를 사용하여 텍스트 음소 합성 또는 완전한 단어 및 구문 암송(텍스트 사전)이 가능했다. TI는 독점 코덱을 사용하여 완전한 음성 구문을 주로 비디오 게임과 같은 애플리케이션에 임베드했다.[80]
- IBM의 OS/2 워프 4는 IBM ViaVoice의 전신인 VoiceType을 포함했다.
- GPS 내비게이션 장치 제조사인 가르민, 매젤란, 톰톰 등은 자동차 내비게이션에 음성 합성을 사용한다.
- 야마하는 1999년에 포먼트 합성 기능을 포함한 음악 신시사이저인 야마하 FS1R을 생산했다. 최대 512개의 개별 모음 및 자음 포먼트 시퀀스를 저장하고 재생할 수 있어 짧은 보컬 구문을 합성할 수 있다.
디지털 음성 복제
[편집]2018년 NeurIPS에서 구글 연구원들은 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis'라는 연구를 발표했다. 이 연구는 전이학습을 화자 인증에서 텍스트 음성 합성으로 전이하여 단 5초의 음성 샘플만으로 거의 누구의 음성과도 유사하게 만들 수 있는 텍스트 음성 합성을 달성했다.[81]
또한 바이두 연구소 연구원들은 2018년 NeurIPS 학회에서 유사한 목표를 가진 음성 복제 시스템을 발표했으나,[82] 결과는 설득력이 부족하다.
2019년까지 디지털 음성 복제 기술이 범죄자의 손에 들어갔으며, 시만텍 연구원들은 디지털 음성 복제 기술이 범죄에 사용된 3건의 사례를 알고 있다.[83][84]
이는 다음과 같은 사실과 결합되어 정보 불량 상황에 대한 스트레스를 증가시킨다.
- 2000년대 초부터 인간 이미지 합성은 실제 카메라로 촬영된 실제 인간과 카메라 시뮬레이션으로 촬영된 인간 시뮬레이션을 인간이 구별할 수 없는 수준 이상으로 발전했다.
- 2016년에는 기존 2D 비디오에서 준실시간으로 얼굴 표정을 위조할 수 있는 2D 비디오 위조 기법이 발표되었다.[60]
- 2017년 SIGGRAPH에서는 워싱턴 대학교 연구원들이 버락 오바마의 상반신 오디오 구동 디지털 유사체를 발표했다. 이는 2D 비디오와 오디오로 구성된 훈련 자료에서 립싱크 및 더 넓은 얼굴 정보를 습득하기 위한 훈련 단계를 완료한 후 애니메이션의 소스 데이터로서 음성 트랙만으로 구동되었다.[61]
2020년 3월, 다양한 미디어 소스의 다양한 가상 캐릭터로부터 고품질 음성을 생성하는 프리웨어 웹 애플리케이션인 15.ai가 출시되었다.[62] 초기 캐릭터에는 포탈의 GLaDOS, 쇼 마이 리틀 포니: 우정은 마법의 트와일라잇 스파클과 플러터샤이, 그리고 닥터 후의 10대 닥터가 포함되었다.
음성 합성 마크업 언어
[편집]텍스트를 XML 호환 형식으로 음성으로 렌더링하기 위해 여러 마크업 언어가 만들어졌다. 가장 최근의 것은 음성 합성 마크업 언어 (SSML)로, 2004년에 W3C 권고안이 되었다. 이전의 음성 합성 마크업 언어에는 자바 스피치 마크업 언어(JSML)와 SABLE이 있다. 이들 각각은 표준으로 제안되었지만, 어느 것도 널리 채택되지 않았다.
음성 합성 마크업 언어는 대화 마크업 언어와 구별된다. 예를 들어, VoiceXML은 텍스트 음성 변환 마크업 외에도 음성 인식, 대화 관리 및 터치톤 다이얼링과 관련된 태그를 포함한다.
응용
[편집]음성 합성은 오랫동안 중요한 보조 기술 도구였으며 이 분야에서의 응용은 중요하고 광범위하다. 이를 통해 다양한 장애를 가진 사람들에게 환경적 장벽을 제거할 수 있다. 가장 오랜 응용은 시각 장애인을 위한 스크린 리더 사용이었지만, 현재 텍스트 음성 변환 시스템은 난독증 및 기타 읽기 장애를 가진 사람들과 읽기 전에 글을 읽지 못하는 어린이들도 흔히 사용한다.[85] 또한 심각한 말하기 장애를 가진 사람들에게 일반적으로 전용 음성 출력 통신 보조기를 통해 자주 사용된다.[86] 사람의 성격이나 이전 목소리에 더 잘 맞도록 합성 음성을 개인화하는 작업이 가능해지고 있다.[87] 주목할 만한 음성 합성 응용 프로그램은 해스킨스 연구소의 작업에 기반한 텍스트 음소 변환 소프트웨어와 보트랙스가 제작한 블랙 박스 신시사이저를 통합한 커즈와일 독서기였다.[88]

음성 합성 기술은 게임 및 애니메이션과 같은 엔터테인먼트 제작에서도 사용된다. 2007년, 아니모 리미티드는 음성 합성 소프트웨어 FineSpeech를 기반으로 한 소프트웨어 응용 프로그램 패키지 개발을 발표했다. 이 패키지는 엔터테인먼트 산업의 고객을 명시적으로 대상으로 하며, 사용자 사양에 따라 내레이션 및 대화 라인을 생성할 수 있다.[89] 이 응용 프로그램은 2008년에 성숙기에 도달했으며, NEC 빅글로브는 사용자가 일본 일본의 애니메이션 시리즈 코드 기아스: 반역의 를르슈 R2의 캐릭터 목소리로 구문을 만들 수 있는 웹 서비스를 발표했다.[90] 15.ai는 마이 리틀 포니: 우정은 마법 팬덤, 팀 포트리스 2 팬덤, 포탈 팬덤, 네모바지 스폰지밥 팬덤을 포함한 다양한 팬덤의 콘텐츠 제작에 자주 사용되었다.
장애 및 의사소통 장애 보조를 위한 텍스트 음성 변환 기능이 널리 사용 가능하게 되었다. 텍스트 음성 변환 기능은 새로운 응용 프로그램도 찾고 있다. 예를 들어, 음성 합성 기능과 음성 인식 기능이 결합되면 자연어 처리 인터페이스를 통해 모바일 장치와 상호 작용할 수 있다. 일부 사용자는 15.ai와 외부 음성 제어 소프트웨어를 사용하여 인공지능 가상 비서를 만들기도 했다.[51][52]
텍스트 음성 변환은 제2외국어 습득에도 사용된다. 예를 들어, Voki는 Oddcast가 만든 교육 도구로, 사용자가 다른 악센트를 사용하여 자신의 말하는 아바타를 만들 수 있도록 한다. 이 아바타는 이메일로 보내거나, 웹사이트에 삽입하거나, 소셜 미디어에 공유할 수 있다.
콘텐츠 제작자들은 팟캐스트,[91][92] 내레이션,[54] 코미디 쇼[93][94][95]를 위해 음성 복제 도구를 사용하여 자신의 음성을 재현했다. 출판사와 저자들도 이러한 소프트웨어를 사용하여 오디오북 및 뉴스레터를 내레이션했다.[96][97] 또 다른 응용 분야는 말하는 얼굴을 가진 인공지능 영상 생성이다. Elai.io 또는 신세시아와 같은 웹 앱 및 영상 편집 도구를 사용하면 사용자가 텍스트 음성 변환 기술을 사용하여 말하는 인공지능 아바타가 포함된 영상 콘텐츠를 만들 수 있다.[98][99]
음성 합성은 음성 장애 분석 및 평가를 위한 귀중한 계산 보조 도구이다. 브라질리아 대학교의 조르지 C. 루세로 등이 개발한 음성 품질 신시사이저는 발성의 물리학을 시뮬레이션하며, 성대 주파수 떨림 및 흔들림, 공기 흐름 소음 및 후두 비대칭 모델을 포함한다.[46] 이 신시사이저는 제어된 거칠음, 숨 가쁨 및 긴장 수준을 가진 발성 장애 화자의 음색을 모방하는 데 사용되었다.[47]
같이 보기
[편집]- 음성 인식(Speech-to-Text, STT)
- 중국어 음성 합성
- 음성 신시사이저 목록
- 스크린 리더 목록
- Orca (보조 기술)
- 페이퍼리스 사무실
- 무음 음성 인터페이스
- 음성 생성 장치
- 음성 처리
- 디지털 텔레비전의 텍스트 음성 변환
각주
[편집]- ↑ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). 《From Text to Speech: The MITalk system》. Cambridge University Press. ISBN 978-0-521-30641-6.
- ↑ Rubin, P.; Baer, T.; Mermelstein, P. (1981). 《An articulatory synthesizer for perceptual research》. 《Journal of the Acoustical Society of America》 70. 321–328쪽. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
- ↑ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). 《Progress in Speech Synthesis》. Springer. ISBN 978-0-387-94701-3.
- ↑ Van Santen, J. (April 1994). 《Assignment of segmental duration in text-to-speech synthesis》. 《Computer Speech & Language》 8. 95–128쪽. doi:10.1006/csla.1994.1005.
- ↑ History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006
- ↑ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine", J. B. Degen, Wien). (독일어)
- ↑ Mattingly, Ignatius G. (1974). Sebeok, Thomas A., 편집. 《Speech synthesis for phonetic and phonological models》 (PDF). 《Current Trends in Linguistics》 12 (Mouton, The Hague). 2451–2487쪽. 2013년 5월 12일에 원본 문서 (PDF)에서 보존된 문서. 2011년 12월 13일에 확인함.
- ↑ Klatt, D (1987). 《Review of text-to-speech conversion for English》. 《Journal of the Acoustical Society of America》 82. 737–93쪽. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.
- ↑ Lambert, Bruce (1992년 3월 21일). “Louis Gerstman, 61, a Specialist In Speech Disorders and Processes”. 《The New York Times》.
- ↑ “Arthur C. Clarke Biography”. 1997년 12월 11일에 원본 문서에서 보존된 문서. 2017년 12월 5일에 확인함.
- ↑ “Where "HAL" First Spoke (Bell Labs Speech Synthesis website)”. Bell Labs. 2000년 4월 7일에 원본 문서에서 보존된 문서. 2010년 2월 17일에 확인함.
- ↑ Anthropomorphic Talking Robot Waseda-Talker Series 보관됨 2016-03-04 - 웨이백 머신
- ↑ Gray, Robert M. (2010). 《A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol》 (PDF). 《Found. Trends Signal Process.》 3. 203–303쪽. doi:10.1561/2000000036. ISSN 1932-8346. 2022년 10월 9일에 원본 문서 (PDF)에서 보존된 문서.
- ↑ Zheng, F.; Song, Z.; Li, L.; Yu, W. (1998). 《The Distance Measure for Line Spectrum Pairs Applied to Speech Recognition》 (PDF). 《Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP'98)》. 1123–6쪽. 2022년 10월 9일에 원본 문서 (PDF)에서 보존된 문서.
- ↑ 가 나 “List of IEEE Milestones”. IEEE. 2019년 7월 15일에 확인함.
- ↑ 가 나 “Fumitada Itakura Oral History”. IEEE Global History Network. 2009년 5월 20일. 2009년 7월 21일에 확인함.
- ↑ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1995년 11월 1일). 《Interactive voice technology at work: The CSELT experience》. 《Speech Communication》 17. 263–271쪽. doi:10.1016/0167-6393(95)00030-R.
- ↑ Sproat, Richard W. (1997). 《Multilingual Text-to-Speech Synthesis: The Bell Labs Approach》. Springer. ISBN 978-0-7923-8027-6.
- ↑ [TSI Speech+ & other speaking calculators]
- ↑ Gevaryahu, Jonathan, [ "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide"]
- ↑ Breslow, et al. US 4326710: "Talking electronic game", April 27, 1982
- ↑ Voice Chess Challenger
- ↑ Gaming's most important evolutions 보관됨 2011-06-15 - 웨이백 머신, GamesRadar
- ↑ Adlum, Eddie (November 1985). “The Replay Years: Reflections from Eddie Adlum”. 《RePlay》. 11권 2호. 134–175 (160–3)쪽.
- ↑ Szczepaniak, John (2014). 《The Untold History of Japanese Game Developers》 1. SMG Szczepaniak. 544–615쪽. ISBN 978-0992926007.
- ↑ “A Short History of Computalker”. 《Smithsonian Speech Synthesis History Project》.
- ↑ CadeMetz (2020년 8월 20일). “Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74”. 《The New York Times》. 2020년 8월 23일에 확인함.
- ↑ Kurzweil, Raymond (2005). 《특이점이 온다》. 펭귄 북스. ISBN 978-0-14-303788-0.
- ↑ Taylor, Paul (2009). 《Text-to-speech synthesis》. Cambridge, UK: Cambridge University Press. 3쪽. ISBN 9780521899277.
- ↑ 앨런 W. 블랙, Perfect synthesis for all of the people all of the time. IEEE TTS Workshop 2002.
- ↑ John Kominek and 앨런 W. 블랙. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
- ↑ Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, Section 5.6 on page 54.
- ↑ William Yang Wang and Kallirroi Georgila. (2011). Automatic Detection of Unnatural Word-Level Segments in Unit-Selection Speech Synthesis, IEEE ASRU 2011.
- ↑ “Pitch-Synchronous Overlap and Add (PSOLA) Synthesis”. 2007년 2월 22일에 원본 문서에서 보존된 문서. 2008년 5월 28일에 확인함.
- ↑ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings, 1996.
- ↑ 가 나 Muralishankar, R.; Ramakrishnan, A. G.; Prathibha, P. (February 2004). 《Modification of Pitch using DCT in the Source Domain》. 《Speech Communication》 42. 143–154쪽. doi:10.1016/j.specom.2003.05.001.
- ↑ “Education: Marvel of The Bronx”. 《Time》 (미국 영어). 1974년 4월 1일. ISSN 0040-781X. 2019년 5월 28일에 확인함.
- ↑ “1960 - Rudy the Robot - Michael Freeman (American)”. 《cyberneticzoo.com》 (미국 영어). 2010년 9월 13일. 2019년 5월 23일에 확인함.
- ↑ 《New York Magazine》 (영어). New York Media, LLC. 1979년 7월 30일.
- ↑ 《The Futurist》 (영어). World Future Society. 1978. 359, 360, 361쪽.
- ↑ L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology, September 1993.
- ↑ Dartmouth College: Music and Computers 보관됨 2011-06-08 - 웨이백 머신, 1993.
- ↑ 예로는 아스트로 블래스터, 스페이스 퓨리, 스타 트렉: 전략 작전 시뮬레이터가 있다.
- ↑ 예로는 스타 워즈, 파이어폭스, 제다이의 귀환, 로드 러너, 제국의 역습, 인디아나 존스와 파멸의 사원, 720°, 건틀릿, 건틀릿 II, A.P.B., 페이퍼보이, 로드블래스터, Vindicators Part II, 로봇 괴물의 행성 탈출.
- ↑ John Holmes and Wendy Holmes (2001). 《Speech Synthesis and Recognition》 2판. CRC. ISBN 978-0-7484-0856-6.
- ↑ 가 나 Lucero, J. C.; Schoentgen, J.; Behlau, M. (2013). 《Physics-based synthesis of disordered voices》 (PDF). 《Interspeech 2013》 (Lyon, France: International Speech Communication Association). 587–591쪽. doi:10.21437/Interspeech.2013-161. S2CID 17451802. 2015년 8월 27일에 확인함.
- ↑ 가 나 Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). 《Perceptual error identification of human and synthesized voices》. 《Journal of Voice》 30. 639.e17–639.e23쪽. doi:10.1016/j.jvoice.2015.07.017. PMID 26337775.
- ↑ “The HMM-based Speech Synthesis System”. Hts.sp.nitech.ac.j. 2012년 2월 13일에 원본 문서에서 보존된 문서. 2012년 2월 22일에 확인함.
- ↑ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (1981년 5월 22일). 《Speech perception without traditional speech cues》 (PDF). 《Science》 212. 947–949쪽. Bibcode:1981Sci...212..947R. doi:10.1126/science.7233191. PMID 7233191. 2011년 12월 16일에 원본 문서 (PDF)에서 보존된 문서. 2011년 12월 14일에 확인함.
- ↑ Temitope, Yusuf (2024년 12월 10일). “15.ai Creator reveals journey from MIT Project to internet phenomenon”. 《더 가디언》. 2024년 12월 28일에 원본 문서에서 보존된 문서. 2024년 12월 25일에 확인함.
- ↑ 가 나 Kurosawa, Yuki (2021년 1월 19일). “ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる”. 《AUTOMATON》. 2021년 1월 19일에 원본 문서에서 보존된 문서. 2021년 1월 19일에 확인함.
- ↑ 가 나 Yoshiyuki, Furushima (2021년 1월 18일). “『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に”. 《Denfaminicogamer》. 2021년 1월 18일에 원본 문서에서 보존된 문서. 2021년 1월 18일에 확인함.
- ↑ “Generative AI comes for cinema dubbing: Audio AI startup ElevenLabs raises pre-seed”. 《Sifted》 (미국 영어). 2023년 1월 23일. 2023년 2월 3일에 확인함.
- ↑ 가 나 Ashworth, Boone (2023년 4월 12일). “AI Can Clone Your Favorite Podcast Host's Voice”. 《Wired》 (미국 영어). 2023년 4월 25일에 확인함.
- ↑ WIRED Staff. “This Podcast Is Not Hosted by AI Voice Clones. We Swear”. 《Wired》 (미국 영어). ISSN 1059-1028. 2023년 7월 25일에 확인함.
- ↑ Wiggers, Kyle (2023년 6월 20일). “Voice-generating platform ElevenLabs raises $19M, launches detection tool”. 《TechCrunch》 (미국 영어). 2023년 7월 25일에 확인함.
- ↑ Bonk, Lawrence. “ElevenLabs' Powerful New AI Tool Lets You Make a Full Audiobook in Minutes”. 《Lifewire》 (영어). 2023년 7월 25일에 확인함.
- ↑ Zhu, Jian (2020년 5월 25일). 《Probing the phonetic and phonological knowledge of tones in Mandarin TTS models》. 《Speech Prosody 2020》 (ISCA: ISCA). 930–934쪽. arXiv:1912.10915. doi:10.21437/speechprosody.2020-190. S2CID 209444942.
- ↑ Newman, Lily Hay. “AI-Generated Voice Deepfakes Aren't Scary Good—Yet”. 《Wired》 (미국 영어). ISSN 1059-1028. 2023년 7월 25일에 확인함.
- ↑ 가 나 Thies, Justus (2016). “Face2Face: Real-time Face Capture and Reenactment of RGB Videos”. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. 2016년 6월 18일에 확인함.
- ↑ 가 나 Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), 《Synthesizing Obama: Learning Lip Sync from Audio》, 워싱턴 대학교, 2018년 3월 2일에 확인함
- ↑ 가 나 Ng, Andrew (2020년 4월 1일). “Voice Cloning for the Masses”. 《deeplearning.ai》. The Batch. 2020년 8월 7일에 원본 문서에서 보존된 문서. 2020년 4월 2일에 확인함.
- ↑ “Speech synthesis”. World Wide Web Organization.
- ↑ “Blizzard Challenge”. Festvox.org. 2012년 2월 22일에 확인함.
- ↑ “Smile -and the world can hear you”. University of Portsmouth. 2008년 1월 9일. 2008년 5월 17일에 원본 문서에서 보존된 문서.
- ↑ “Smile – And The World Can Hear You, Even If You Hide”. 《Science Daily》. January 2008.
- ↑ Drahota, A. (2008). 《The vocal communication of different kinds of smile》 (PDF). 《Speech Communication》 50. 278–287쪽. doi:10.1016/j.specom.2007.10.001. S2CID 46693018. 2013년 7월 3일에 원본 문서 (PDF)에서 보존된 문서.
- ↑ Prathosh, A. P.; Ramakrishnan, A. G.; Ananthapadmanabha, T. V. (December 2013). 《Epoch extraction based on integrated linear prediction residual using plosion index》. 《IEEE Trans. Audio Speech Language Processing》 21. 2471–2480쪽. doi:10.1109/TASL.2013.2273717. S2CID 10491251.
- ↑ EE Times. "TI will exit dedicated speech-synthesis chips, transfer products to Sensory 보관됨 2012-05-28 - 웨이백 머신." June 14, 2001.
- ↑ “1400XL/1450XL Speech Handler External Reference Specification” (PDF). 2012년 3월 24일에 원본 문서 (PDF)에서 보존된 문서. 2012년 2월 22일에 확인함.
- ↑ “It Sure Is Great To Get Out Of That Bag!”. folklore.org. 2013년 3월 24일에 확인함.
- ↑ “Amazon Polly”. 《Amazon Web Services, Inc.》 (미국 영어). 2020년 4월 28일에 확인함.
- ↑ Miner, Jay; 외. (1991). 《Amiga Hardware Reference Manual》 3판. 애디슨-웨슬리 Publishing Company, Inc. ISBN 978-0-201-56776-2.
- ↑ Devitt, Francesco (1995년 6월 30일). “Translator Library (Multilingual-speech version)”. 2012년 2월 26일에 원본 문서에서 보존된 문서. 2013년 4월 9일에 확인함.
- ↑ “Accessibility Tutorials for Windows XP: Using Narrator”. Microsoft. 2011년 1월 29일. 2003년 6월 21일에 원본 문서에서 보존된 문서. 2011년 1월 29일에 확인함.
- ↑ “How to configure and use Text-to-Speech in Windows XP and in Windows Vista”. Microsoft. 2007년 5월 7일. 2010년 2월 17일에 확인함.
- ↑ Jean-Michel Trivi (2009년 9월 23일). “An introduction to Text-To-Speech in Android”. Android-developers.blogspot.com. 2010년 2월 17일에 확인함.
- ↑ Andreas Bischoff, The Pediaphon – Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones, PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575–579 ISBN 0-7695-2932-1, 2007
- ↑ “gnuspeech”. Gnu.org. 2010년 2월 17일에 확인함.
- ↑ “Smithsonian Speech Synthesis History Project (SSSHP) 1986–2002”. Mindspring.com. 2013년 10월 3일에 원본 문서에서 보존된 문서. 2010년 2월 17일에 확인함.
- ↑ Jia, Ye; Zhang, Yu; Weiss, Ron J. (2018년 6월 12일), “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”, 《신경 정보 처리 시스템 발전》 (영어) 31: 4485–4495, arXiv:1806.04558
- ↑ Arık, Sercan Ö.; Chen, Jitong; Peng, Kainan; Ping, Wei; Zhou, Yanqi (2018), “Neural Voice Cloning with a Few Samples”, 《신경 정보 처리 시스템 발전》 31, arXiv:1802.06006
- ↑ “Fake voices 'help cyber-crooks steal cash'”. 《BBC 뉴스》. BBC. 2019년 7월 8일. 2019년 9월 11일에 확인함.
- ↑ Drew, Harwell (2019년 9월 4일). “An artificial-intelligence first: Voice-mimicking software reportedly used in a major theft”. 《워싱턴 포스트》. 2019년 9월 8일에 확인함.
- ↑ Brunow, David A.; Cullen, Theresa A. (2021년 7월 3일). 《Effect of Text-to-Speech and Human Reader on Listening Comprehension for Students with Learning Disabilities》. 《Computers in the Schools》 (영어) 38. 214–231쪽. doi:10.1080/07380569.2021.1953362. hdl:11244/316759. ISSN 0738-0569. S2CID 243101945.
- ↑ Triandafilidi, Ioanis I.; Tatarnikova, T. M.; Poponin, A. S. (2022년 5월 30일). 〈Speech Synthesis System for People with Disabilities〉. 《2022 Wave Electronics and its Application in Information and Telecommunication Systems (WECONF)》. St. Petersburg, Russian Federation: IEEE. 1–5쪽. doi:10.1109/WECONF55058.2022.9803600. ISBN 978-1-6654-7083-4. S2CID 250118756.
- ↑ Zhao, Yunxin; Song, Minguang; Yue, Yanghao; Kuruvilla-Dugdale, Mili (2021년 7월 27일). 〈Personalizing TTS Voices for Progressive Dysarthria〉. 《2021 IEEE EMBS International Conference on Biomedical and Health Informatics (BHI)》. Athens, Greece: IEEE. 1–4쪽. doi:10.1109/BHI50953.2021.9508522. ISBN 978-1-6654-0358-0. S2CID 236982893.
- ↑ 《Evolution of Reading Machines for the Blind: Haskins Laboratories" Research as a Case History》 (PDF). 《재활 연구 개발 저널》 21. 1984.
- ↑ “Speech Synthesis Software for Anime Announced”. 《Anime News Network》. 2007년 5월 2일. 2010년 2월 17일에 확인함.
- ↑ “Code Geass Speech Synthesizer Service Offered in Japan”. Animenewsnetwork.com. 2008년 9월 9일. 2010년 2월 17일에 확인함.
- ↑ “Now hear this: Voice cloning AI startup ElevenLabs nabs $19M from a16z and other heavy hitters”. 《벤처비트》 (미국 영어). 2023년 6월 20일. 2023년 7월 25일에 확인함.
- ↑ “Sztuczna inteligencja czyta głosem Jarosława Kuźniara. Rewolucja w radiu i podcastach”. 《Press.pl》 (폴란드어). 2023년 4월 9일. 2023년 4월 25일에 확인함.
- ↑ Knibbs, Kate. “Generative AI Podcasts Are Here. Prepare to Be Bored”. 《와이어드》 (미국 영어). ISSN 1059-1028. 2023년 7월 25일에 확인함.
- ↑ Suciu, Peter. “Arrested Succession Parody On YouTube Features 'Narration' By AI-Generated Ron Howard”. 《포브스》 (영어). 2023년 7월 25일에 확인함.
- ↑ Fadulu, Lola (2023년 7월 6일). “Can A.I. Be Funny? This Troupe Thinks So.”. 《뉴욕 타임스》 (미국 영어). ISSN 0362-4331. 2023년 7월 25일에 확인함.
- ↑ Kanetkar, Riddhi. “Hot AI startup ElevenLabs, founded by ex-Google and Palantir staff, is set to raise $18 million at a $100 million valuation. Check out the 14-slide pitch deck it used for its $2 million pre-seed.”. 《비즈니스 인사이더》 (미국 영어). 2023년 7월 25일에 확인함.
- ↑ “AI-Generated Voice Firm Clamps Down After 4chan Makes Celebrity Voices for Abuse”. 《Vice.com》 (영어). 2023년 1월 30일. 2023년 2월 3일에 확인함.
- ↑ “Usage of text-to-speech in AI video generation”. 《elai.io》. 2022년 8월 10일에 확인함.
- ↑ “AI Text to speech for videos”. 《synthesia.io》. 2023년 10월 12일에 확인함.