본문 바로가기
미래를 만드는 코드

구글 AI 스튜디오에서 두 명의 화자 대화 음성 생성법 🎙️🤖 구글 TTS, 이제 두 사람이 대화하는 목소리까지 만들 수 있다!

by kenko 2025. 6. 2.
반응형





목차

들어가며: 구글 AI 스튜디오, 음성 생성의 새로운 가능성  
구글 AI 스튜디오 Multi-speaker TTS란?  
두 명의 화자가 대화하는 음성 생성 단계별 가이드  
실제 사용 예시와 코드  
멀티스피커 TTS의 활용 사례  
구글 AI 스튜디오의 최신 기능과 업데이트  
마치며: 앞으로의 전망

들어가며: 구글 AI 스튜디오, 음성 생성의 새로운 가능성

안녕하세요! 오늘은 여러분께 구글 AI 스튜디오의 최신 기능, 바로 두 명의 화자가 서로 대화하는 느낌으로 음성을 만들어주는 멀티스피커 TTS(텍스트 음성 변환) 기능을 소개해 드릴게요.  
기존의 음성 생성은 한 명의 목소리로만 읽어주하는 게 대부분이었는데, 이제는 마치 실제 사람들이 대화하듯 자연스럽게 음성을 만들 수 있습니다.  
예를 들어, 팟캐스트, 오디오 드라마, 게임 대화, 교육 콘텐츠 등 다양한 분야에 바로 써먹을 수 있는 기능이죠! 🚀

구글 AI 스튜디오 Multi-speaker TTS란?

구글 AI 스튜디오의 멀티스피커 TTS는 Gemini 2.5 Pro 또는 Flash 미리보기 모델을 활용해, 두 명 이상의 화자가 대화하는 음성을 자연스럽게 생성해주는 기능입니다.  
이 기능은 단순히 한 명이 말하는 게 아니라, 각 화자마다 다른 목소리와 스타일, 어조, 감정까지 조절할 수 있어요.  
이렇게 하면 팟캐스트, 인터뷰, 오디오 드라마, 게임 내 대화, 교육 콘텐츠 등에서 훨씬 더 생동감 있는 결과물을 만들 수 있습니다.

두 명의 화자가 대화하는 음성 생성 단계별 가이드

구글 AI 스튜디오에서 두 명의 화자가 대화하는 음성을 만드는 방법은 정말 쉽습니다! 아래 단계를 따라 해보세요.

1단계: 구글 AI 스튜디오 Generate Speech에 접속하기  
먼저 구글 AI 스튜디오(Google AI Studio)에 접속합니다.  
최신 버전에서는 ‘Generate Speech’ 메뉴가 따로 있으니, 여기서 시작하시면 됩니다.

2단계: 모드에서 Multi-speaker audio 선택  
Generate Speech 화면에서 모드를 ‘Multi-speaker audio’로 변경합니다.  
이제 두 명 이상의 화자가 대화하는 음성을 생성할 수 있습니다.

3단계: 각 화자 별로 대화 입력  
화면에 각 화자(예: ‘지민’, ‘수진’) 이름을 지정하고, 각자가 말할 내용을 텍스트로 입력합니다.  
예를 들어,

지민: 안녕하세요, 수진 씨! 오늘 기분은 어떠세요?  
수진: 네, 안녕하세요! 오늘은 날씨도 좋고 기분도 좋네요.  
지민: 저도요! 오늘은 뭐 할 계획이세요?  
수진: 오후에 산책 가려고 해요. 지민 씨는요?

이런 식으로 입력하면 됩니다.

4단계: Run 버튼 클릭  
모든 대화를 입력한 후, Run 버튼을 클릭하면 AI가 알아서 두 명의 목소리로 자연스럽게 대화하는 음성을 만들어줍니다.  
생성된 음성 파일은 바로 다운로드할 수 있어요!

실제 사용 예시와 코드

구글 AI 스튜디오에서는 코드 없이도 웹에서 바로 멀티스피커 TTS를 사용할 수 있습니다.  
하지만, 개발자라면 Gemini API를 활용해 직접 코드로 구현할 수도 있습니다.

아래는 Python 코드 예시입니다.

from google import genai  
from google.genai import types  
import wave

def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):  
    with wave.open(filename, "wb") as wf:  
        wf.setnchannels(channels)  
        wf.setsampwidth(sample_width)  
        wf.setframerate(rate)  
        wf.writeframes(pcm)

client = genai.Client(api_key="GEMINI_API_KEY")

prompt = """TTS the following conversation between Joe and Jane:  
Joe: How's it going today Jane?  
Jane: Not too bad, how about you?"""

response = client.models.generate_content(  
    model="gemini-2.5-flash-preview-tts",  
    contents=prompt,  
    config=types.GenerateContentConfig(  
        response_modalities=["AUDIO"],  
        speech_config=types.SpeechConfig(  
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(  
                speaker_voice_configs=[  
                    types.SpeakerVoiceConfig(  
                        speaker='Joe',  
                        voice_config=types.VoiceConfig(  
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(  
                                voice_name='Kore',  
                            ),  
                        ),  
                    ),  
                    types.SpeakerVoiceConfig(  
                        speaker='Jane',  
                        voice_config=types.VoiceConfig(  
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(  
                                voice_name='Puck',  
                            ),  
                        ),  
                    ),  
                ],  
            ),  
        ),  
    ),  
)

data = response.candidates.content.parts.inline_data.data  
wave_file('out.wav', data)

이 코드를 실행하면, Joe와 Jane이 대화하는 음성이 ‘out.wav’ 파일로 저장됩니다.

멀티스피커 TTS의 활용 사례

멀티스피커 TTS는 다양한 분야에서 활용할 수 있습니다.

- 팟캐스트/오디오북  
  두 명 이상의 화자가 대화하는 팟캐스트나 오디오북을 쉽게 제작할 수 있습니다.
- 게임/챗봇  
  게임 속 NPC 대화, 챗봇의 다양한 목소리 구현에 활용할 수 있습니다.
- 교육 콘텐츠  
  두 명의 선생님이 대화하듯 설명하는 교육 영상, 오디오 강의 제작에 유용합니다.
- 접근성  
  시각장애인을 위한 오디오 콘텐츠, 인터뷰, 뉴스 등에서 활용 가능합니다.

구글 AI 스튜디오의 최신 기능과 업데이트

구글 AI 스튜디오는 최근 Gemini 2.5 Pro, Flash 모델을 통해 더욱 강력한 음성 생성 기능을 제공하고 있습니다.  
특히, 멀티스피커 TTS는 24개 언어와 30여 가지 음성을 지원하며, 각 화자의 스타일과 감정까지 세밀하게 조절할 수 있습니다.  
또한, Live API에서는 실시간으로 대화형 음성 응답이 가능해, 콜센터, 챗봇, 페르소나 개발 등에도 활용할 수 있습니다.

마치며: 앞으로의 전망

구글 AI 스튜디오의 멀티스피커 TTS 기능은 앞으로 더 많은 콘텐츠 제작자와 개발자에게 큰 도움이 될 것입니다.  
팟캐스트, 오디오 드라마, 게임, 교육, 접근성 등 다양한 분야에서 자연스러운 대화 음성을 쉽게 만들 수 있다는 점이 큰 강점입니다.  
여러분도 구글 AI 스튜디오에서 직접 멀티스피커 TTS를 체험해보시고, 창의적인 콘텐츠를 만들어보세요!  
오늘도 즐거운 AI 라이프 되세요! 😊

#구글AI스튜디오 #음성생성 #TTS #멀티스피커 #AI음성 #구글API #AI팁

반응형