Ernie// 성의있는 댓글 감사.

나도 비슷한 생각을 많이 해봤다.
사실 발음이 이루어지는 과정에 대해서는
전적으로 동의한다.

다만, 그것들로부터 일반화된 정보를 얻어
새롭게 발음을 generate하는데에는 한계가 있음을
알수 있었다.

내가 접근했던 과정을 말해보면 아래와 같다.

일단 처음에 두 가지 가능성을 염두에 뒀다.

1. 발음은 그 정보가 1 period에 담겨있지 않고, 소리의
 amplitude가 시간에 따라서 어떻게 달라지느냐에 달려있다.
즉, 쉽게 말하면 음파를 그래프로 그렸을 때, main frequency를
encapsulate하는 곡선의 모양에 따라 결정된다고 생각했다.

그런데 이 가설은 명백하게 틀렸다.
왜냐하면 발음 '아'를 녹음해서 한 주기만 떼어다가 무한 반복을 해도
'아'라는 음이 잘 인식되기 때문.

1-1. 이건 위의 의견에서 파생된건데, 단순한 amplitude가 시간에 따라서
어떻게 변하느냐가 아니라 소리 각 성분이 시간에 따라서 성분 비율이 어떻게
달라지냐는 것이었다. 역시 다른 말로 하면 시간에 따라서 frequency space에서의
그래프가 어떻게 달라지냐는 것.
 
그런데 이 가설 역시 틀린게 명백했다. 위에서 말한 실험이
이 가설 또한 반증한다.


2. 위 실험에서 알 수 있듯이 발음에 관한 모은 정보는 1 period 안에 들어있다.
그래서 이론적으로 소리를 frequency space에서 분석만으로 모든 것이 해결되어야만 할 것 같지만,
실제론 그렇지 않다. 왜냐하면 위 실험 결과는 '아' 에만 해당되는 것이기 때문.

'야'를 가지고 실험을 하면, 초/중/종성 중에서 중성 부분만 무한 반복할 때
'아' 소리로 인식이 되었다.
역시 '야' 는 '이' + '아' 였다.

사실 이러한 것에 대해서는 이미 잘 분석이 되어있다.
기억이 잘 날지 모르겠지만 한국 국어시간에 우리는 모음의 종류를 나눈다.
홑모음/겹모음 이런식으로(정확한 용어인지는 자신이 없다.)

아, 어, 오, 우, 으, 이 등이 홑모음에 해당하고 나머지는 다 조합에 의한 것이다.


여기까지만 생각하면, 어니와 내가 생각한 초,중,종성 이론이 맞다고 볼 수 있겠다.
물론 난 아직도 그 이론이 맞다고 생각한다. 하지만 문제는 '일반화'에 있다.

난 먼저 홑모음을 가지고 실험을 했다.
홑모음을 가지고 아, 어, 오, 우, 으, 이// 등등을 "fabricate"할 수 있다면
그 다음에 "ㄱ" 특성, "ㄴ"특성 등을 연구해서 "너가," "가너" 등을 제조해볼 생각이었다.
그런데 첫단계에서부터 막혔다.

왜냐하면 내가 '아'라는 발음을 했을 때랑, 다른 사람이 '아' 했을 때
두 파형의 fourier 분석이 너무나 다르게 나왔기 때문이다.

물론 각각의 경우 major peak만 뽑아서 컴퓨터로 새롭게 sythersize하면
제대로된 '아' 소리를 만들어 낼 수 있는데, 이것은 엄밀하게 말하면
발음을 복제한게 아니라 단지 완전히 똑같은 소리를 재현한 것이다.


똑같은 파를 제조했으니 같은 발음이 나오는 건 당연.


다음엔 같은 사람이 '아' 소리를 다른 음의 높이에서 해봤다.
그래프 상에서 파형은 조금 다르긴 했지만 'interpersonal discrepancy'에 비하면
크게 달라지지 않았다.

진정 '아'라는 소리를 만들기 위해서는 두 사람의 '아' 발음 데이터를 가지고
전혀 다른 목소리의 '아'를 제조할 수 있어야 하는데 그러려면 꽤 많은 사람의
'아'를 가지고 분석을 해볼 필요가 있다고 생각한다.
 이것은 발음이란 것이 단순하게 frequency의 특정 비율에 의해 결정되는 것이 아니라,
frequency space picture 중에서 여러 사람의 '아' 발음으로부터
공통 특성을 찾아내야 하기 때문이다.
 

나중에 시간이 많을 때 하루 정도 투자하면 많은걸 얻을 수 있지 않을까 싶다.
실험을 하는데 시간이 걸리는 작업도 아니니까.ㅋㅋㅋ
적어도 일반화는 못 시켜도 내 발음을 합성할 수 있지 않을까?ㅋ
쉽지 않으려나...
=============================================

그보다 발음에 관해서 실험을 몇 개 해보면 재미난 사실을 발견할 수 있다.
지난번 포스팅 때도 알던 사실이긴 하지만, 글이 길어질까봐 안적었는데.

악기 소리의 정보가 파형만으로 결정되는건 아니란 것이다.

그 전까지 생각으로는 바이올린 소리를 하나 녹음하면,
같은 파형(frequecy element 조합)으로 여러가지 음을 만들어 낼 수 있으리라
생각했다.

이 것은 사실이다.
실제로 해보니까, 비교적 바이올린스럽게 음을 합성해낼 수 있었다.

그런데 이러한 특성은 바이올린이나, 첼로 같은 악기에서만 나타나는 특성이다.
더 구체적으로 말하면 소리가 지속적으로 날 수 있는 악기.

피아노만 해도 피아노 음을 녹음해서, 같은 fourier 성분으로 소리를
만들어봐야 피아노 같다는 느낌이 전혀 들지 않는다.
심지어는 실제 피아노 음 중 1 period를 무한 반복해도 피아노 같은 느낌이 들지 않는다.

피아노 소리를 재현하기 위해서는 소리의 exponential decaying 특성이
필수적이다. (아직 증명해보진 않았지만) 그것도 decaying time constant가 각 element 별로
다름을 고려해줘야 한다. 피아노 음을 녹음했을 때, 초반과 후반의 fourier picture가 꽤 상이하게
나옴을 관찰할 수 있기 때문이다.

아마 grand 피아노의 소리를 작은 디지털 악기로 재현하기 힘든 이유는
피아노의 울림 통 모양과 나무 재질에 의해서 결정되는
각 frequency element 별로 전부 다른 time constant를 전부 independant하게
디지털적으로 처리해주는 프로세싱이 어려워서 그런게 아닐까 싶다.

이것도 더 구체적으로 공부해보면 재밌겠다.
2009/08/12 21:42 2009/08/12 21:42
Trackback URL : http://www.yutiro.com/tc/trackback/18
  1.   2009/08/13 02:51     댓글주소  수정/삭제  댓글쓰기
    Exponential Decay라니... 그런건 생각을도 못해봤는데 그럴듯 한데?
    실험이라는건 Matlab으로 하는 거냐? 녹음하고 Finite time Fourier transform하는거.
    한가지 문듯 생각이 든 것이, 사실 피아노라던가 하는 악기들의 "줄(?)" 뭐 암튼 소리를 내는 부분이 dispersive하잖아. 그래서 period하나에 모든 정보가 담겨있다는 것이 사실 엄연히 말하면 사실이 아닐텐데 과연 그게 얼마나 큰 차이를 가져올까?
  2. 순원  2009/08/14 13:21     댓글주소  수정/삭제  댓글쓰기
    실험은 matlab에서 Fast Fourier Transform로 했지. finite time 이야.
    dispersive하다는건 어떤 얘기지?
openclose