기타 도구/STT

카카오 STT 오디오 포맷에 대한 설명

모르는 개발자 2023. 2. 10. 15:18

비트 뎁스: 16bit

비트 뎁스(Bit Depth): 비트 뎁스는 얼마나 세밀하게 소리의 크고 작음을 표현해 줄지 결정한다. 16비트만해도 65,536가지의 수를 표현할 수 있지만 24비트가 되면 16,777,216가지의 수를 표현할 수 있게 된다.

 

ex) 소리의 크기가 0,1,2 밖에 없다면 무음이 0, 작은 북소리는 1, 큰 북소리는 2을이라고 했을 때 중간북이 중간크기의 1.5소리를 냈을 때 2 또는 1이 될텐데 그러면 소리의 세밀함이 떨어질 수 밖에 없을 것이다.

 

 

채널: 1ch (mono)

모노는 1ch으로 1개의 마이크로 녹음 한 소리로 소리가 평면적이다.

스테레오는 2ch으로 2개의 마이크로 녹음한 소리로 소리가 더 입체적이다.

말소리는 음악이 아니기 때문에 용량이 더 큰 스테레오보다는 모노가 더 좋을 것이다.

 

 

코덱: RAWPCM, MP3

COder and DECoder 음성 또는 영상의 신호를 디지털 신호로 변환하는 코더와 그 반대로 변환시켜 주는 디코더를 통틀어 부르는 용어이다.

mp3는 가장 많이 쓰이는 코덱으로 손실 압축 포맷 음원의 사실상 표준이라고 한다.

 

 

샘플레이트: 8kHz, 16kHz (16Hz 이상이면 16Hz로 변환해서 요청)

샘플레이트(Sample Rate): 샘플레이트는 주파수 분포의 밀도를 결정하는 단위다.

 

ex) 만약 피아노로 "도레미파솔라시도"를 쳤다고 해보자. 샘플레이트가 정상적이라면 제대로 모두 들을 수 있겠지만 샘플레이트가 낮다면 '도미솔시' 혹은 '도파도' 만 들릴 수도 있는 것이다.

 

 

ex)으로 스스로 이해한대로 사족을 붙여봤는데 혹시 틀렸다면 댓글로 알려주세요~

 

 

참고자료 : ↓