Cepstrum de freqüència Mel

En el processament del so, el cepstrum de freqüència mel (amb acrònim anglès MFC) és una representació de l'espectre de potència a curt termini d'un so, basat en una transformada de cosinus lineal d'un espectre de potència logarítmica en una escala de freqüència mel no lineal.

Els coeficients cepstrals de freqüència Mel (amb acrònim anglès MFCC) són coeficients que formen col·lectivament un MFC.^[1] Es deriven d'un tipus de representació cepstral del clip d'àudio (un "espectre d'un espectre") no lineal. La diferència entre el cepstrum i el cepstrum de freqüència mel és que al MFC, les bandes de freqüència estan igualment espaciades a l'escala mel, que s'aproxima a la resposta del sistema auditiu humà més de prop que les bandes de freqüència espaciades linealment utilitzades en l'espectre normal. Aquesta deformació de freqüència pot permetre una millor representació del so, per exemple, en la compressió d'àudio que podria reduir l'amplada de banda de transmissió i els requisits d'emmagatzematge dels senyals d'àudio.

Els MFCC es deriven habitualment de la següent manera:^[2]

Apliquem la Transformada de Fourier al senyal d'àudio temporal.
Es pondera el resultat amb l'escala de Mel.
Prenem el logaritme als valors de l'escala de Mel.
Apliquem la transformada del cosinus i obtenim els MFCC.

Aplicacions:

Els MFCC s'utilitzen habitualment com a paràmetres en sistemes de reconeixement de veu,^[3] com ara els sistemes que poden reconèixer automàticament els números parlats en un telèfon.

Els MFCC també estan trobant cada vegada més usos en aplicacions de recuperació d'informació musical, com ara classificació de gènere, mesures de similitud d'àudio, etc.^[4]

Referències

↑ Min Xu. «HMM-based audio keyword generation». A: Kiyoharu Aizawa. Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer, 2004. ISBN 978-3-540-23985-7.
↑ Sahidullah, Md.; Saha, Goutam Speech Communication, 54, 4, 5-2012, pàg. 543–565. DOI: 10.1016/j.specom.2011.11.004.
↑ T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task Arxivat 2011-07-17 a Wayback Machine.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.
↑ Meinard Müller. Information Retrieval for Music and Motion. Springer, 2007, p. 65. ISBN 978-3-540-74047-6.

[1] Min Xu. «HMM-based audio keyword generation». A: Kiyoharu Aizawa. Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer, 2004. ISBN 978-3-540-23985-7.

[2] Sahidullah, Md.; Saha, Goutam Speech Communication, 54, 4, 5-2012, pàg. 543–565. DOI: 10.1016/j.specom.2011.11.004.

[3] T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task Arxivat 2011-07-17 a Wayback Machine.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.

[4] Meinard Müller. Information Retrieval for Music and Motion. Springer, 2007, p. 65. ISBN 978-3-540-74047-6.

[1]

[2]

[3]

[4]