음성 합성 마크업 언어

음성 합성 마크업 언어(Speech Synthesis Markup Language, SSML)는 음성 합성 애플리케이션을 위한 XML 기반 마크업 언어이다. 이는 W3C의 음성 브라우저 워킹 그룹의 권장 사항이다. SSML은 대화형 전화 통신 시스템을 구동하기 위해 VoiceXML 스크립트에 포함되는 경우가 많다. 그러나 오디오북 제작과 같이 단독으로 사용될 수도 있다. 데스크톱 애플리케이션의 경우 애플의 내장 음성 명령과 XML 언어인 마이크로소프트의 SAPI TTS(텍스트 음성 변환) 마크업을 비롯한 다른 마크업 언어가 널리 사용된다. 또한 Azure Cognitive Services의 텍스트 음성 변환 API를 통해 또는 구글 어시스턴트 또는 아마존 알렉사에 대한 타사 기술을 작성할 때 소리를 생성하는 데 사용된다.

SSML은 썬 마이크로시스템즈에서 개발한 JSML(Java Speech Markup Language)을 기반으로 하지만 현재 권장 사항은 대부분 음성 합성 공급업체에서 개발했다. 일부 영역은 지정되지 않은 상태로 남아 있지만 사실상 합성의 모든 측면을 다루므로 각 공급업체는 언어의 다른 변형을 허용한다. 또한 마크업이 없으면 합성기는 텍스트를 자체적으로 해석해야 한다.

예시

<?xml version="1.0"?>
<speak xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:dc="http://purl.org/dc/elements/1.1/"
       version="1.0">
  <metadata>
    <dc:title xml:lang="en">Telephone Menu: Level 1</dc:title>
  </metadata>

  <p>
    <s xml:lang="en-US">
      <voice name="David" gender="male" age="25">
        For English, press <emphasis>one</emphasis>.
      </voice>
    </s>
    <s xml:lang="es-MX">
      <voice name="Miguel" gender="male" age="25">
        Para español, oprima el <emphasis>dos</emphasis>.
      </voice>
    </s>
  </p>

</speak>

외부 링크