카카오 STT 오디오 포맷에 대한 설명
비트 뎁스: 16bit
비트 뎁스(Bit Depth): 비트 뎁스는 얼마나 세밀하게 소리의 크고 작음을 표현해 줄지 결정한다. 16비트만해도 65,536가지의 수를 표현할 수 있지만 24비트가 되면 16,777,216가지의 수를 표현할 수 있게 된다.
ex) 소리의 크기가 0,1,2 밖에 없다면 무음이 0, 작은 북소리는 1, 큰 북소리는 2을이라고 했을 때 중간북이 중간크기의 1.5소리를 냈을 때 2 또는 1이 될텐데 그러면 소리의 세밀함이 떨어질 수 밖에 없을 것이다.
채널: 1ch (mono)
모노는 1ch으로 1개의 마이크로 녹음 한 소리로 소리가 평면적이다.
스테레오는 2ch으로 2개의 마이크로 녹음한 소리로 소리가 더 입체적이다.
말소리는 음악이 아니기 때문에 용량이 더 큰 스테레오보다는 모노가 더 좋을 것이다.
코덱: RAWPCM, MP3
COder and DECoder 음성 또는 영상의 신호를 디지털 신호로 변환하는 코더와 그 반대로 변환시켜 주는 디코더를 통틀어 부르는 용어이다.
mp3는 가장 많이 쓰이는 코덱으로 손실 압축 포맷 음원의 사실상 표준이라고 한다.
샘플레이트: 8kHz, 16kHz (16Hz 이상이면 16Hz로 변환해서 요청)
샘플레이트(Sample Rate): 샘플레이트는 주파수 분포의 밀도를 결정하는 단위다.
ex) 만약 피아노로 "도레미파솔라시도"를 쳤다고 해보자. 샘플레이트가 정상적이라면 제대로 모두 들을 수 있겠지만 샘플레이트가 낮다면 '도미솔시' 혹은 '도파도' 만 들릴 수도 있는 것이다.
ex)으로 스스로 이해한대로 사족을 붙여봤는데 혹시 틀렸다면 댓글로 알려주세요~
참고자료 : ↓