Doarchive

Google Cloud Text-to-Speech API Python 에서 사용하기 본문

ETC

Google Cloud Text-to-Speech API Python 에서 사용하기

오순발닦개 2023. 6. 19. 18:00

Google Text-to-Speech

Google Text-to-Speech는 파이썬에서 사용할 수 있는 자연어 처리 기술 로 텍스트를 음성으로 변환할 수 있습니다.

이를 사용하여 음성 합성, 음성 변환 등의 작업을 수행할 수 있습니다. 예를 들어, 텍스트 파일을 입력으로 받아 음성 파일을 생성하거나, 실시간으로 음성을 변환할 수 있습니다.

https://cloud.google.com/text-to-speech?hl=ko 

 

Text-to-Speech: 생동감 있는 음성 합성  |  Google Cloud

Google의 머신러닝 기술에 기반한 API를 통해 40개가 넘는 언어 및 방언을 지원하는 220여 개의 자연스러운 음성으로 텍스트를 변환합니다.

cloud.google.com

 

 

사용하기 

API 사용 공식 문서

https://cloud.google.com/docs/authentication/application-default-credentials?hl=ko#GAC 

 

애플리케이션 기본 사용자 인증 정보 작동 방식  |  Google Cloud

의견 보내기 애플리케이션 기본 사용자 인증 정보 작동 방식 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 이 페이지에서는 애플리케이션 기본 사용자 인

cloud.google.com

 

Google Cloud Text-to-Speech API  를 사용하려면  대부분

API 사용등록 

Google Cloud SDK

glcoud CLI

google-cloud-texttospeech 라이브러리

이렇게 4가지를 모두 설치하라는 내용들이 많은데 

 

여러 컴퓨터에 API를 깔면서 확인해 보니 

API 사용등록 과 google-cloud-texttospeech 라이브러리 만 해주면 바로 사용이 가능하다 

 

https://cloud.google.com/?hl=ko 

 

클라우드 컴퓨팅 서비스  |  Google Cloud

데이터 관리, 하이브리드 및 멀티 클라우드, AI와 머신러닝 등 Google의 클라우드 컴퓨팅 서비스로 비즈니스 당면 과제를 해결하세요.

cloud.google.com

1. 구글 클라우드 접속 후 - 콘솔로 이동 

 

 

 

2. 새 프로젝트 생성하기 

 

2. 생성한 프로젝트 선태그로 API 및 서비스 선택

 

 

3. API 및 서비스 사용설정 선택 

 

 

 

4. Text to speech 검색

 

 

5. Text to speech 선택

 

 

 

 

6. Text to speech API 사용버튼 선택 

 

 

7.   세부설정 - IAM 및 관리자 - 서비스 계정 선택

 

 

 

8. 서비스 계정 만들기 선택 - 기탁 정보 입력후 - 역할 : 소유자로 선택 

 

 

 

 

9. 서비스 계정 완료루 키 관리  -> 새 키 만들기 차례 대로 선택 

 

 

 

 

10. 키를 만들면 json 파일이 자동으로 다운로드 됨

 

 

11. 환경변수 설정   고급 시스템 설정 - 환경 변수 설정 

 

변수 이름 : GOOGLE_APPLICATION_CREDENTIALS

변수 값 : json 파

 

 

12. 환경 변수가 잘 설정 되었는지 확인 

echo %GOOGLE_APPLICATION_CREDENTIALS%

 

 

13. 파이썬  라이브러리 설치  pip install --upgrade google-cloud-texttospeech

 

 

사용준비 완료 

 

 

잘 설치 되었는지 확인 해봅시다 

 

 

from google.cloud import texttospeech

# Instantiates a client
client = texttospeech.TextToSpeechClient()

# Set the text input to be synthesized
synthesis_input = texttospeech.SynthesisInput(text="Hello, World!")

# Build the voice request
voice = texttospeech.VoiceSelectionParams(language_code="en-US", ssml_gender=texttospeech.SsmlVoiceGender.NEUTRAL)

# Select the type of audio file you want returned
audio_config = texttospeech.AudioConfig(audio_encoding=texttospeech.AudioEncoding.MP3)

# Perform the text-to-speech request
response = client.synthesize_speech(input=synthesis_input, voice=voice, audio_config=audio_config)

print("Text-to-speech request successful.")

 

잘  설치 되었다면 Text-to-speech request successful 이 출력됨 

만약  환경변수 설정까지 확인을 했는데도   Your default credentials were not found 이 나온다면   컴퓨터를 껏다 켜면 정상적으로 설정됨

 

Text-to-speech 사용하는 샘플코드 

from google.cloud import texttospeech

# Instantiates a client
client = texttospeech.TextToSpeechClient()

# Set the text input to be synthesized
synthesis_input = texttospeech.SynthesisInput(text="Hello, World!")

# Build the voice request
voice = texttospeech.VoiceSelectionParams(
    language_code="en-US", ssml_gender=texttospeech.SsmlVoiceGender.NEUTRAL
)

# Select the type of audio file you want returned
audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

# Perform the text-to-speech request
response = client.synthesize_speech(
    input=synthesis_input, voice=voice, audio_config=audio_config
)

# The response's audio_content is binary.
with open("output.mp3", "wb") as out:
    # Write the response to the output file.
    out.write(response.audio_content)
    print('Audio content written to file "output.mp3"')
 
728x90