Disculpa, por favor, que haya tardado tanto tiempo en enviarte los materiales prometidos



Descargar 63.46 Kb.
Fecha de conversión29.01.2018
Tamaño63.46 Kb.



VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html


Tarea 1: Formulación de hipótesis

Tarea 1.1: Revisión bibliográfica


Primera parte

1. Sobre los parámetros relevantes para el estudio de la individualidad de la voz.

2. Sobre la importancia relativa de los distintos parámetros.

3. Conclusiones.

4. Bibliografía.

1. Sobre los parámetros relevantes para el estudio de la individualidad de la voz

En el conjunto de la investigación en torno a la identificación del hablante se pueden diferenciar tres tipos de estudios:



a) los centrados en el reconocimiento visual de los espectrogramas (por ej., Tosi et alii (1972)); b) los que tratan el reconocimiento perceptivo del hablante (por ej., Pollack et alii (1954), Compton (1963), Stevens et alii (1968), Hollien et alii (1982), Kuwabara y Takagi (1991), Kreiman y Papcum (1991), Pisoni (1993)); y c) los que se ocupan del reconocimiento automático del habla (la mayor parte de los consultados para este proyecto, porque son los que más abundan: los estudios de Atal, Wolf, el grupo de Hollien, etc.).

Conviene quizá empezar con una reflexión crítica a menudo repetida en la bibliografía (vid. por ejemplo Künzel 1995) acerca de los trabajos comprendidos en el grupo a), es decir, aquellos basados en el uso para la comparación de voces de una técnica presuntamente objetiva consistente en la interpretación visual de espectrogramas de banda ancha, técnica que, como precisa Künzel, sigue empleándose en España. Es la llamada técnica de “voiceprint”.

Los rasgos más destacables que se suelen emplear al aplicarla son -aunque ninguno de sus valedores los lista- el ancho de banda de los formantes, sus frecuencias centrales o la composición espectral de las fricativas y de las oclusivas. Se juzga la similitud visual de estas características sobre la asunción de que la diferencia interlocutor es mayor que la intralocutor, lo cual no siempre se constata en los espectrogramas. Se ha demostrado que el margen de error de esta técnica es muy elevado, y que en realidad lo único que hace es desplazar el alto grado de subjetividad que encierran los juicios auditivos o perceptivos al campo visual. Por estas razones no nos hemos detenido en los trabajos del grupo a).

Nos hemos limitado a los trabajos incluidos en los puntos b) y c), es decir, en el análisis de otros procedimientos en los que la influencia del factor humano, aunque complementario, se limite y en los que se consideren parámetros acústicos lo más objetivos posible y lo más específicos del hablante posible. Doddington (1985) establece una primera división entre los parámetros de alto nivel de información, como los referidos al dialecto, estilo, etc., y los de bajo nivel de información, como amplitud espectral, frecuencia del tono de voz, frecuencias formánticas, y otros rasgos acústicos. El primer grupo se corresponde con las denominadas Dimensiones socio/psicológicas (Kuwabara 1995), esto es, todos los rasgos dependientes de factores sociales, económicos, geográficos, educativos, psicológicos, físicos transitorios, sexuales o lingüísticos; el segundo grupo, en cambio, se corresponde conlas Dimensiones fisiológicas, que son las que podemos abordar en esta investigación, K.N. Stevens (1971) destacó las siguientes (entre aquellas especialmente susceptibles de emplearse en la identificación y discriminación entre hablantes):



Referidas a la fuente:

  • F0. La frecuencia media del tono.

  • La forma de la onda glotal, que es muy diferente de hablante a hablante.

Referidas a los resonadores:

  • Frecuencias formánticas. Si se consideran los valores medios de las frecuencias formánticas en un número de vocales suficientemente amplio, se obtiene un indicio de la longitud media del tracto vocal del hablante. Para este propósito es particularmente útil el valor medio del F3, puesto que este no cambia de modo notable de vocal a vocal y proporciona una indicación más precisa de la longitud del tracto vocal que el F1 y el F2. A medida que aumenta la longitud del tracto vocal, disminuye la frecuencia del formante.

  • En cuanto a la anchura de los formantes, resulta especialmente interesante comparar los de la vocal [i], que parecen diferir poco en el caso de un solo hablante y sin embargo presentan claras diferencias en el caso de varios locutores.

  • Sonidos Turbulentos. En el caso de la [s], se producen algunas diferencias intra-locutor, pero claramente menos marcadas que las que se dan entre distintos locutores. Las resonancias de alta frecuencia del tracto vocal que se ven excitadas en la producción de un sonido turbulento como es este dependen de la forma de las cavidades anteriores a la constricción y del modo en el que la lengua y el paladar se disponen en la parte inmediatamente posterior a la constricción.

  • Consonantes nasales. Lo mismo que en el caso anterior, parecen presentar diferencias espectrales más marcadas entre hablantes que intralocutor, si bien el propio Stevens reconoce que las muestras analizadas son muy próximas en el tiempo. Probablemente todas estas características se vieran alteradas con muestras más distanciadas temporalmente.

Hollien (1990) y (1991) mantiene algunos de estos, pero añade otros rasgos, que a su juicio presentan una alta probabilidad de ser decisivos en la discriminación entre hablantes:

  • El Espectro a Largo Plazo. Especialmente útil con datos normalizados obtenidos en laboratorio; muy resistente a los efectos del stress sobre el habla; en su sistema es el resultado del análisis de 40 parámetros extraídos de la señal.

  • El Vector de los formantes vocálicos. Es un parámetro muy importante para la identificación de los sujetos, porque el tracto vocal individual presenta estabilidad, y porque estos rasgos son muy resistentes a la distorsión y a las interferencias. Todavía tiene validez el trabajo de Ladefoged y Broadbent (1957) en el que se defiende este parámetro. Hollien, tras repasar la bibliografía sobre la cuestión, elige dos parámetros para configurar su vector:

1. Las frecuencias centrales de los tres primeros formantes (que parecen ser muy reveladoras, especialmente si se estudian al menos tres vocales, [a, i, u] y la sílaba [na]).

2. La distancia entre estos tres primeros formantes (F1/F2, F2/F3), que no puede ser alterada a voluntad (cf. Tosi et alii (1972)).



  • El Vector temporal. Sobre este último se ha trabajado poco (vid., por ejemplo, Johnson et alii (1984), pero en buena lógica pueden ser factores muy importantes para la identificación. Las medidas empleadas para este vector incluyen:

1. El tiempo total de habla, definido como el tiempo en milisegundos que lleva producir una emisión de un conjunto dado de sílabas.

2. La proporción del tiempo de habla, definido como la medida del tiempo total durante el cual existe energía acústica en una emisión.

3. La proporción de los intervalos de silencio.

4. La velocidad de habla, medida de las sílabas completadas durante un periodo de tiempo fijado.

5. La ratio de la duración consonante/vocal, esto es, la relación entre el tiempo destinado a la producción de la consonante y el destinado a la vocal en una emisión dada de CV.


  • El Vector del F0. En el trabajo de Hollien y colaboradores, este vector implica la medida de 30 parámetros diferentes, por lo que los resultados, según el autor son más fiables que los ofrecidos por estudios anteriores.

Todos estos vectores, reunidos, proporcionan un ‘perfil’ complejo del hablante, basado en datos naturales, esto es, extraídos de la señal hablada.

En esta misma línea, otros trabajos como Atal (1972), Karlsson (1988), Eskenazi et alii (1990), Kuwabara y Takagi (1991) y Kuwabara y Sagisaka (1995) mencionan aproximadamente los mismos parámetros como responsables de la individualidad de la voz. El resumen de todos estos estudios y de los que en ellos se citan podría ser este:



Referidas a la fuente:

  • El valor medio de la F0

  • El contorno tonal

  • La forma de la onda glotal

  • La fluctuación de la F0

Referidas a los resonadores:

  • Frecuencias formánticas.

  • Anchura de los formantes

  • Trayectorias de los formantes

  • Distancias y ratios entre formantes

  • LTAS

  • Sonidos Turbulentos

  • Consonantes nasales

  • Efectos coarticulatorios (vocales, nasales y líquidas)

Variables temporales:

  • El tiempo total de habla

  • Proporción de habla y de silencios

  • Velocidad del habla

A la hora de seleccionar los parámetros para el estudio, pueden tenerse en cuenta algunas de las reflexiones que hace Wolf (1971) acerca de cuáles serían criterios de decisión válidos:

a) Deberían ser parámetros presentes natural y frecuentemente en el habla normal. Los efectos coarticulatorios, en cuanto que son, en cierto grado al menos, ‘aprendidos’, no se tendrían en cuenta (cf. para una opinión contraria, Su et alii (1974)).

b) Han de ser fáciles de medir.

c) Deben tener la mayor variabilidad posible inter-hablantes y la menor posible intra-hablante. Tanto la forma de la onda glotal como los sonidos turbulentos parecen reunir esas condiciones.

d) No deberían variar mucho con el tiempo ni verse afectados por las condiciones psico- o fisiológicas del hablante. Las nasales quedarían eliminadas de acuerdo con este último criterio (cf. sin embargo Wolf (1972) y Glenn y Kleiner (1968), quienes consideran muy informativo el análisis de las nasales). En el habla espontánea, un rasgo especialmente sensible al ‘stress’ experimentado por el hablante es la F0, y uno muy resistente es el LTAS (Pittman 1987, Hollien 1990).

e) Han de ser resistentes al posible ruido ambiental y no han de verse afectados por las condiciones de la transmisión. Los valores medios de los formantes vocálicos (del F3 –que proporciona indicios sobre la longitud del tracto vocal del hablante- , del F2 y del F1) y su anchura son parámetros muy válidos en este sentido, puesto que son muy resistentes a la distorsión y a las interferencias. Se aconseja estudiar las vocales extremas [a i u]. Por otra parte, se señala que los valores del F1 y F2 de las vocales extremas /i,u,a/ son los más estables y menos sensibles al contexto (Stevens y House 1963).

f) Finalmente, no pueden ser fácilmente modificables por la mera voluntad del hablante, es decir, deben ser resistentes a los intentos de disimular la voz. La distancia entre los tres primeros formantes no puede ser alterada a voluntad (F1 / F2, F2 / F3).

2. Sobre la importancia relativa de los distintos parámetros

En este punto es donde más desacuerdo existe, en función de los resultados obtenidos por cada autor en sus experimentos.

Las conclusiones sobre cuál es el parámetro prioritario para la individualidad de una voz varían, aunque llos diversos autores consultados tratan de asignar un orden jerárquico a los distintos índices. El resultado final sería el siguiente:

a) Prioridad del F0: (Compton 1963), Wolf (1972), Matsumoto et alii (1973), Brown (1981), van Dommelen (1987).

b) Prioridad del LTAS: Bordone-Sacerdote y Sacerdote (1969), Doherty (1976), Hollien y Majewski (1974 y 1977), Furui (1986), Pittam (1987), Pausewnag Gelfer (1989).

c) Prioridad de la estructura espectral, bien sea de las frecuencias formánticas absolutas: Shearme y Colmes (1959), Miller (1964), Itoh y Saito (1982), Carrell (1984) Kuwabara y Ohgushi (1987), Kuwabara y Takagi (1991), o bien sea de las trayectorias formánticas: Ingram et alii (1996).

c.1. Por lo que se refiere a qué formantes o qué distancias entre formantes son las más informativas, tampoco hay coincidencia en las posturas:

-Hollien (1990): F1, F2 y F3, y distancias entre F1-F2 y F2-F3; Kuwabara y Tagaki (1991): F1, F2 y F3; Kreiman y Papcum (1991): F1, F2 y F3 y distancias F2-F1.

-Furui (1986) y Ramón et alii (2000): La información más representativa del hablante estará localizada entre los 2.5 KHz. y los 3.5 KHz.

d) Misma prioridad para la F0 y la estructura formántica: La Riviere (1975).

e) Variables temporales: Pruzansky (1963), Wolf (1972), Doherty y Hollien (1978), Brown (1981), Johnson et alii (1984).

f) Contorno tonal: Atal (1972), van Dommelen (1987).

g) No es factible establecer una prioridad, la importancia de cada parámetro puede diferir de hablante a hablante y depende también de la naturaleza de las muestras: Gobl (1989) y Kuwabara y Sagisaka (1995).

3. Conclusiones

Tras esta primera revisión de la bibliografía, pueden extraerse las siguientes conclusiones provisionales:

1. En el material revisado no hemos encontrado muchos títulos recientes, abundan los publicados en los años setenta y ochenta, que se asumen como punto de partida –sin cuestionarse- en los estudios más recientes.

2. La falta de resultados coincidentes y concluyentes acerca de cuál sea el parámetro más decisivo para el reconocimiento del hablante puede deberse a los enfoques metodológicos empleados, que son muy diferentes. En cualquier caso, parece difícil establecer una jerarquía absoluta entre los parámetros. Varios autores apuntan la interdependencia entre los índices, cuya prioridad relativa dependería, asimismo, del hablante. Por ejemplo, los oyentes pueden tomar como clave primaria para el reconocimiento de un hablante A un tono bajo, y sin embargo apoyarse en la estructura formántica para el reconocimiento de un hablante B (van Dommelen 1987). Esto es, todos los rasgos mencionados conllevan un cierto grado de información sobre las características del hablante y son potencialmente válidos para la tarea de reconocimiento.

3. Los estudios más recientes se centran sobre todo en el aspecto metodológico, esto es, en los diferentes sistemas (paramétricos o no paramétricos) de manipulación y control de la cualidad de la voz. Son numerosos los trabajos realizados por especialistas en el campo de la telecomunicación y escasean, en cambio, los estudios de naturaleza puramente fonética, especialmente los de fonética articulatoria (diferencias entre hablantes en el control y coordinación de las variables articulatorias y sus correlatos acústicos).

4. Resulta muy evidente que la variabilidad del hablante no se ha investigado en la misma medida que los aspectos invariantes de la producción del habla. Por lo tanto, en esta investigación tendremos que trabajar a menudo con bibliografía cuyo objetivo es el contrario al que a nosotros nos interesa.

5. En cuanto al número de locutores del que se ha partido para realizar los distintos estudios consultados, es muy variable: desde un mínimo de 8 hasta un máximo de 40 voces distintas.

4. Bibliografía

a) Sobre parámetros

-Assaleh, K.T. (1994) Robust features for speaker identification, Dissertation Abstracts International, Ann Arbor, 54 (11).

-Atal, B.S. (1972) “Automatic Speaker recognition based on pitch contours”, J.A.S.A 52, págs. 1687-1697.

-Barlow, M.G. (1993) Prosodic acoustic correlates of speaker characteristics, Dissertation Abstracts International, Ann Arbor, 54 (6).

-Bernales, M. et alii (1999) “Rendimiento de parámetros acústico-fonéticos en el reconocimiento de hablantes”, BFUCh 37, págs. 161-180.

-Bordone-Sacerdote, C. y G.G. Sacerdote (1969) “Some spectral properties of individual voices”, Acustica 21, págs. 199-210.

-Boss, D. (1996) "The problem of F0 and real life speaker identification: a case study", Forensic Linguistics 3, I, págs. 155-160.

-Brown, R. (1981) "An experimental study of the relative importance of acoustic parameters for auditory speaker recognition", Language and Speech 24, 4, págs. 295-310.

-Calinski, T., Jassem, W. y Kaczmarck, Z. (1970) “Investigation of vowel formant frequencies as personal voice characteristics by means of multivariate analysis of variance”, Speech Analysis and Synthesis (Varsovia), 2, págs. 7-40.

-Carrell, T.D. (1984) “Contributions of fundamental frequency, formant spacing, and glottal waveform to talker identification”, Research on Speech Perception Technical Report (Indiana University Speech Laboratory), 5.

-Carrell, T.D. (1985) Contributions of fundamental frequency, formant spacing and glottal waveform to talker identification, Dissertation Abstracts International, Ann Arbor, 45 (10).

-Champod, C. Y D. Meuwly (1998) “The inference of identity in forensic speaker recognition”, RLA2C, Avignon, págs. 125-134.

-Compton, A. J. (1963) “Effects of filtering and vocal duration upon the identification of speakers aurally”, J.A.S.A. 35, págs. 1748-1752.

-Doddington, G.R. (1985) “Speaker recognition. Identifying people by their voices”, Proc. IEEE 73, págs. 1651-1664.

-Doherty, E. T. (1976) “An evaluation of selected acoustic parameters for use in speaker identification”, Journal of Phonetics 4, págs. 321-326.

-Doherty, E. y H. Hollien (1978) "Multiple factor speaker identification of normal and distorted speech", Journal of Phonetics 6, págs. 1-8.

-Dommelen, W. A. van (1997) "The contribution of speech rhythm and pitch to speaker recognition", Language and Speech 30, 4, págs. 325-338.

-Eskenazi, D.G. Childers y D.M. Hicks (1990) “Acoustic correlates of vocal quality”, Journal of Speech and Hearing Research 33, págs. 298-306.

-Furui, S. (1978) “Effects of Long-Term Spectral Variability in Speaker Recognition”, J.A.S.A. 64: S183.

-Furui, S. (1986) “Research on individuality features in speech waves and automatic speaker recognition techniques”, Speech Communication 5, 2, págs. 183-197.

-Furui, S. (1991) “Speaker-dependent-feature extraction, recognition and processing techniques”, Speech Communication 10, págs. 505-520.

-Gelfer, M.P. et alii (1989) "The effects of sample duration and timing on speaker identification. Accuracy by means of long-term spectra", Journal of Phonetics 17:4, págs. 327-338.

-Gobl, C (1989) “A preliminary study of acoustic voice quality correlates”, STL-Quarterly Progress Status Report 4, págs. 9-22.

-Glenn, J. W. y Kleiner, N. (1968) « Speaker identification based on nasal phonation », J.A.S.A. 43, págs. 368-372.

-Hollien, H. (1990) The Acoustics of Crime. The New Science of Forensic Phonetics, Plenum, Nueva York.

-Hollien, H. (1991) “The profile approach to speaker identification”, Actes du XIIème Congrès International des Sciences Phonétiques (Aix-en-Provence, 1991), Université de Provence, Aix, págs. 396-401.

-Hollien, H. y Majewski , W. (1977) “Speaker identification by long-term spectra under normal and distorted speech”, J.A.S.A. 62, págs. 975-980.

-Hollien, H., W. Majewski y E.T. Doherty (1982) “Perceptual identification of voice under normal, stress and disguise speaking conditions”, Journal of Phonetics 10, págs. 139-148.

-Iles, M. W. (1973) Speaker identification as a function of fundamental frequency and resonant frequencies, Dissertation Abstracts International, Ann Arbor, 54 (6).

-Ingram, J.C.L., Prandolini, R., Ong, S. (1996) “Formant trajectories as indices of phonetic variation for speaker identification”, Forensic Linguistics, vol. 3-1, 129-145.

-Itoh, K. y Saito, S. (1982) “Effects of acoustical feature parameters of speech on perceptual identification of speaker”, IECE Trans. Vol. J65-A, págs. 101-108.

-Jankowski, C. (1997) Fine structure features for speaker identification, Dissertation Abstracts International, Sección B, Ann Arbor, 57 (8).

-Jessem, M. (1997) "Speaker-specific information in voice quality parameters", Forensic Linguistics vol. 4, págs. 84-104.

-Jiang, M. (1996) "Fundamental frequency vector for a speaker identification system", Forensic Linguistics 3, I, págs. 95- 107.

-Johnson, C.C., Hollien, H., and Hicks, J.W. Jr. (1984) “Speaker identification utilizing selected temporal speech features”, Journal of Phonetics 12, págs. 319-327.

-Johnson, K. (1990) "The role of perceived speaker identity in F0 normalization of vowels", J.A.S.A. 88:2, págs. 642-654.

-Karlsson, I. (1988) “Glottal waveform parameters for different speaker types”, Proc. Speech ’88, 7th FASE Symposium, vol. 1, págs. 225-231.

-Kasuya, H. et alii (1986a) “Preliminary experiments on voice screening”, Journal of Phonetics 14, págs. 463-468.

-Kniffka, H. y S. Blackwell (Eds.) (1996) Recent Developments in Forensic Linguistics, Peter Lang, Frankfurt.

-Koenig, B.E. (1986) "Spectrografic voice identification: a forensic survey", J.A.S.A. 79, págs. 2088-2090.

-Kreiman, J. y Papcun, G. (1991) “Comparing discrimination and recognition of unifamiliar voices”, Speech Communication 10, págs. 265-275.

-Künzel, H. J. (1995) “Field procedures in forensic speaker recognition”, en J. Windsor Lewis (Ed.) Studies in General and English Phonetics, Routledge, Londres, págs. 68-84.

-Künzel, H.J. (1997) "Some general phonetic and forensic aspects of speaking tempo", Forensic Linguistics 4, I, págs. 48-84.

-Kuwabara, H. y Sagisaka, Y. (1995) “Acoustic characteristics of speaker individuality: Control and conversion”, Speech Communication 16, págs. 165-173.

-Kuwabara, H. y Ohgushi, K. (1987) “Contributions of vocal tract resonants frequencies and bandwidths to the personal perception of speech”, Acustica 63, págs 121-128.

-Kuwabara, H. and Takagi, T. (1991) “Acoustic parameters of voice individuality and voice-quality control by analysis-synthesis method”, Speech Communication 10, págs. 491-495.

-Ladefoged, P. (1984) "Speaker variation", Journal of Phonetics 12, 1, págs. 85-89.

-Ladefoged, P. y Broadbent, D.E. (1957) “Information conveyed by vowels”, J.A.S.A. 29, págs. 98-104.

-LaRiviere, C. (1972) Some acoustic and perceptual correlates of speaker identification, Dissertation Abstracts International, Ann Arbor, 32.

-LaRiviere, C. (1975) "Contribution of fundamental frequency and formant frequencies to speaker identification", Phonetica 31, págs. 185-197.

-Li, K. P., Hughes, G. W. y House, A. S. (1969) “Correlation characteristics and dimensionality of speech spectra”, J.A.S.A. 46, págs. 1019-1025.

-Li, Q. (1996) Classification using principal features with application to speaker verification, Dissertation Abstracts International, Ann Arbor, 57 (6).

-Majewski, W. y H. Hollien (1974) “Euclidean distance between long-term spectra as a criterion for speaker identification”, Proceedings of the Speech Communication Seminar, Estocolmo, págs. 303-310.

-Majewski, W. et alii (1979) "Some remarks on different speaker identification techniques" en Hollien, H. y P. Hollien (Eds.) Current Issues in the Phonetic Sciences, John Benjamins, Amsterdam, págs. 829-835.

-Matsumoto, H. et alii (1973) “Multidimensional representation of personal quality of vowels and its acoustical correlates”, IEEE Trans. Vol. AU, 21, págs. 428-436.

-Milenkovic, P. (1993) “Voice source model for continuous control of pitch period”, J.A.S.A. 93, págs. 1087-1096.

-Miller, J.E. (1964) “Decapitation and recapitation: a study of voice quality”, J.A.S.A. 36.

-Olive, J. (1992) “Mixed spectral representation-formants and LPC”, J.A.S.A 92, págs. 1837-1840.

-Pisoni, D. B. (1993) “Long-term memory in speech perception: some new findings on talker variability, speaking rate and perceptual learning”, Speech Communication 13, págs. 109-125.

-Pittam, J. (1987) “The long-term spectral measurement of voice quality as a social and personality marker: a review”, Language and Speech 30, págs. 1-13.

-Pollack, I., J.M. Pickett y W.H. Sumby (1954) “On the identification of speakers by voice”, J.A.S.A. 26, págs. 403-412.

-Pruzansky, S. (1963) “Pattern matching procedure for automatic for automatic talker recognition”, J.A.S.A. 35, págs. 354-358.

-Ramón, J. L. et alii (2000) “Parametric speaker verification with linear prediction and cepstrum using the envelope of voice and discriminant analysis” en Actas del I Congreso de la Sociedad Española de Acústica Forense, 5 y 6 de octubre de 2000, págs. 169-181.

-Scherer, K. R. (1979) “Personality markers in speech” en K.R. Scherer y H. Giles (Eds.) Social Markers in Speech, Cambridge University Press, Cambridge, págs. 147-209.

-Shearme, J.N. y J.N. Colmes (1959) “An experiment concerning the recognition of voices”, Language and Speech 2, págs. 123-131.

-Stevens, K. (1971) “Sources of inter- and intra-speaker variability in the acoustic properties of speech sounds”, Proc. 7th Intern. Congr. Phon. Sc., Montreal, págs. 206-227.

-Stevens, K.N. et alii (1968) « Speaker identification and authentication: a comparison of spectrographic and auditory presentation of speech materials”, J.A.S.A. 44, págs. 1596-1607.

-Skelton, R. B. (1970) “Individuality in the vowel triangle”, Phonetica 21, págs. 129-137.

-Su, L. S, Li, K. P. y Fu, K. S. (1974) “Identification of speakers by use of nasal coarticulation”, J.A.S.A. 56, págs. 1867-1882.

-Tosi, O., Oyer, H., Lashbrook, W., Pedrey, C., Nichol, J. y Nash, W. (1972) “Experiment on voice identification”, J.A.S.A. 51, págs. 2030-2043.

-Van den Heuvel, H., Cranen, B. y Rietveld, T. (1996) “Speaker variability in the coarticulation of /a, i, u/”, Speech Communication 18, págs. 113-130.

-Wolf, J. J. (1972) “Efficient acoustic parameters for speaker recognition”, J.A.S.A. 51, págs. 2044-2056.

-Zraick, R.I. et alii (2000) "The effect of task on determination of habitual pitch", Journal of Voice 14, 4, págs. 484-489.

b) Sobre fonética judicial (sólo obras generales)

-Baldwin, J. y French, P. (1990) Phorensic Phonetics, Pinter, Londres.

-Bolt, R., Cooper, F.S. y Green, D. M. (1979) On the Theory and Practice of Voice Identification, National Academy of Sciences, Washington.

-Gibbons, J. (Ed.) (1994) Language and the Law, Longman, Londres.

-Hollien, H. (1990) The Acoustics of Crime, Plenum Press, Nueva York.

-Kniffa, H. y Balckwell, S. (Eds.) (1996) Recent Developments in Forensic Linguistics, Peter Lang, Frankfurt.

-Künzel, H. J. (1990) Phonetische Untersuchungen zur Sprecher-Erkennung durch linguistisch naive Personen, Steiner, Stuttgart.

-Moenssens, A. et alii (1995) Scientific Evidence in Civil and Criminal Cases, Westbury-The Foundation Press, Nueva York.

-Nolan, F. (1983) The Phonetic Bases of Speaker Recognition, Cambridge University Press, Cambridge.

-Tosi, O. (1979) Voice Identification: Theory and Legal Applications, University Park Press, Baltimore.


Tarea 1: Formulación de hipótesis

Tarea 1.1: Revisión bibliográfica


Segunda parte

Conclusiones

Tras la segunda revisión de la bibliografía, pueden extraerse las siguientes conclusiones:



1. El material revisado esta vez, como la vez anterior, no es muy reciente: abundan los títulos publicados en los años setenta y ochenta, que se asumen como punto de partida en los estudios más actuales.

2. En el conjunto de la investigación en torno a la identificación del hablante se pueden diferenciar tres tipos de estudios:

a) los centrados en el reconocimiento visual de los espectrogramas (por ej., Tosi et alii (1972));

b) los que tratan el reconocimiento perceptivo del hablante (por ej., Pollack et alii (1954), Compton (1963), Stevens et alii (1968), Hollien et alii (1982), Kuwabara y Takagi (1991), Kreiman y Papcum (1991), Pisoni (1993));

c) los que se ocupan del reconocimiento automático del habla (la mayor parte de los consultados para este proyecto, porque son los que más abundan: los estudios de Atal, Wolf, el grupo de Hollien, etc.).

3. No hemos considerado los artículos del grupo a), por las razones que se comentaron brevemente al inicio del informe anterior. Por lo demás, ni en los estudios del grupo b) ni en los del c) han aparecido parámetros nuevos que puedan añadirse a la lista presentada en las conclusiones provisionales, la cual se reproduce a continuación para mayor comodidad.

Parámetros referidos a la fuente:

  • El valor medio de la F0

  • El contorno tonal

  • La forma de la onda glotal

  • La fluctuación de la F0

Referidos los resonadores:

  • Frecuencias formánticas

  • Anchura de los formantes

  • Trayectorias de los formantes

  • Distancias y ratios entre formantes

  • LTAS

  • Sonidos Turbulentos

  • Consonantes nasales

  • Efectos coarticulatorios (vocales, nasales y líquidas)

Variables temporales:

  • El tiempo total de habla

  • Proporción de habla y de silencios

  • Velocidad del habla

[Sólo nos consta que se hace una referencia a la intensidad como otro parámetro virtualmente relevante en el artículo de Scherer, K. R. (1979) “Personality markers in speech” en K.R. Scherer y H. Giles (Eds.) Social Markers in Speech, Cambridge University Press, Cambridge, págs. 147-209.].

4. La falta de resultados coincidentes y concluyentes acerca de cuál sea el parámetro más decisivo para el reconocimiento del hablante puede deberse a los enfoques metodológicos empleados, que son muy diferentes. En cualquier caso, parece difícil establecer una jerarquía absoluta entre los parámetros. Varios autores apuntan la interdependencia entre los índices, cuya prioridad relativa dependería, asimismo, del hablante. Por ejemplo, los oyentes pueden tomar como clave primaria para el reconocimiento de un hablante A un tono bajo, y sin embargo apoyarse en la estructura formántica para el reconocimiento de un hablante B (van Dommelen 1987). Esto es, todos los rasgos mencionados conllevan un cierto grado de información sobre las características del hablante y son potencialmente válidos para la tarea de reconocimiento.

5. Aun teniendo presente lo anteriormente expuesto, los diversos autores consultados tratan de asignar un orden jerárquico a los distintos índices. El resultado final sería el siguiente:

a) Prioridad del F0: (Compton 1963), Wolf (1972), Matsumoto et alii (1973), Brown (1981), van Dommelen (1987).

b) Prioridad del LTAS: Bordone-Sacerdote y Sacerdote (1969), Doherty (1976), Hollien y Majewski (1974 y 1977), Furui (1986), Pittam (1987), Pausewnag Gelfer (1989).

c) Prioridad de la estructura espectral, bien sea de las frecuencias formánticas absolutas: Shearme y colmes (1959), Miller (1964), Itoh y Saito (1982), Carrell (1984) Kuwabara y Ohgushi (1987), Kuwabara y Takagi (1991), o bien sea de las trayectorias formánticas: Ingram et alii (1996).

d) Misma prioridad para la F0 y la estructura formántica: La Riviere (1975).

e) Variables temporales: Pruzansky (1963), Wolf (1972), Doherty y Hollien (1978), Brown (1981), Johnson et alii (1984).

g) No es factible establecer una prioridad, la importancia de cada parámetro puede diferir de hablante a hablante y depende también de la naturaleza de las muestras: Gobl (1989) y Kuwabara y Sagisaka (1995).

h) Contorno tonal: Atal (1972), van Dommelen (1987).



6. Por lo que se refiere a qué formantes o qué distancias entre formantes son las más informativas, tampoco hay coincidencia en las posturas, pero la mayoritaria resulta ser la que defiende el estudio de los tres primeros formantes, como se señaló en las conclusiones provisionales.

7. A la hora de seleccionar los parámetros para el estudio, pueden tenerse en cuenta algunas de las reflexiones que hace Wolf (1971) acerca de cuáles serían criterios de decisión válidos:

a) Deberían ser parámetros presentes natural y frecuentemente en el habla normal. Los efectos coarticulatorios, en cuanto que son, en cierto grado al menos, ‘aprendidos’, no se tendrían en cuenta (cf. para una opinión contraria, Su et alii (1974)).

b) Han de ser fáciles de medir.

c) Deben tener la mayor variabilidad posible inter-hablantes y la menor posible intra-hablante. Tanto la forma de la onda glotal como los sonidos turbulentos parecen reunir esas condiciones.

d) No deberían variar mucho con el tiempo ni verse afectados por las condiciones psico- o fisiológicas del hablante. Las nasales quedarían eliminadas de acuerdo con este último criterio (cf. sin embargo Wolf (1972) y Glenn y Kleiner (1968), quienes consideran muy informativo el análisis de las nasales). En el habla espontánea, un rasgo especialmente sensible al ‘stress’ experimentado por el hablante es la F0, y uno muy resistente es el LTAS (Pittman 1987, Hollien 1990).

e) Han de ser resistentes al posible ruido ambiental y no han de verse afectados por las condiciones de la transmisión. Los valores medios de los formantes vocálicos (del F3 –que proporciona indicios sobre la longitud del tracto vocal del hablante- , del F2 y del F1) y su anchura son parámetros muy válidos en este sentido, puesto que son muy resistentes a la distorsión y a las interferencias. Se aconseja estudiar las vocales extremas [a i u]. Por otra parte, se señala que los valores del F1 y F2 de las vocales extremas /i,u,a/ son los más estables y menos sensibles al contexto (Stevens y House 1963).



f) Finalmente, no pueden ser fácilmente modificables por la mera voluntad del hablante, es decir, deben ser resistentes a los intentos de disimular la voz. La distancia entre los tres primeros formantes no puede ser alterada a voluntad (F1 / F2, F2 / F3).

8. En cuanto al número de locutores del que se ha partido para realizar los distintos estudios consultados, es muy variable: desde un mínimo de 8 hasta un máximo de 40 voces distintas.

Bibliografía (obras no recogidas en la primera parte del informe):

  • Bordone-Sacerdote, C. y G.G. Sacerdote (1969) “Some spectral properties of individual voices”, Acustica 21, págs. 199-210.

  • Carrell, T.D. (1984) “Contributions of fundamental frequency, formant spacing, and glottal waveform to talker identification”, Research on Speech Perception Technical Report (Indiana University Speech Laboratory), 5.

  • Compton, A. J. (1963) “Effects of filtering and vocal duration upon the identification of speakers aurally”, J.A.S.A. 35, págs. 1748-1752.

  • Hollien, H., W. Majewski y E.T. Doherty (1982) “Perceptual identification of voice under normal, stress and disguise speaking conditions”, Journal of Phonetics 10, págs. 139-148.

  • Majewski, W. y H. Hollien (1974) “Euclidean distance between long-term spectra as a criterion for speaker identification”, Proceedings of the Speech Communication Seminar, Estocolmo, págs. 303-310.

  • Miller, J.E. (1964) “Decapitation and recapitation: a study of voice quality”, J.A.S.A. 36.

  • Pisoni, D. B. (1993) “Long-term memory in speech perception: some new findings on talker variability, speaking rate and perceptual learning”, Speech Communication 13, págs. 109-125.

  • Pittam, J. (1987) “The long-term spectral measurement of voice quality as a social and personality marker: a review”, Language and Speech 30, págs. 1-13.

  • Pollack, I., J.M. Pickett y W.H. Sumby (1954) “On the identification of speakers by voice”, J.A.S.A. 26, págs. 403-412.

  • Pruzansky, S. (1963) “Pattern matching procedure for automatic for automatic talker recognition”, J.A.S.A. 35, págs. 354-358.

  • Scherer, K. R. (1979) “Personality markers in speech” en K.R. Scherer y H. Giles (Eds.) Social Markers in Speech, Cambridge University Press, Cambridge, págs. 147-209.

  • Shearme, J.N. y J.N. Colmes (1959) “An experiment concerning the recognition of voices”, Language and Speech 2, págs. 123-131.

  • Skelton, R. B. (1970) “Individuality in the vowel triangle”, Phonetica 21, págs. 129-137.

  • Stevens, K.N. et alii (1968) « Speaker identification and authentication: a comparison of spectrographic and auditory presentation of speech materials”, J.A.S.A. 44, págs. 1596-1607.

  • Tosi, O. et alii (1972) “Experiment on voice identification”, J.A.S.A. 51, págs. 2030-2043.



J. GIL y E. BATTANER, Revisión bibliográfica.

Tarea 1: Formulación de hipótesis - Tarea 1.1: Revisión bibliográfica




Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©composi.info 2017
enviar mensaje

    Página principal