Buscador

Encontrado(s) 2218505 resultado(s)
Encontrada(s) 221851 página(s)

An attribute detection based approach to automatic speech processing, Una estrategia de procesamiento automático del habla basada en la detección de atributos

  • Siniscalchi, Sabato Marco
  • Lee, Chin-Hui
State-of-the-art automatic speech and speaker recognition systems are often built with a pattern matching framework that has proven to achieve low recognition error rates for a variety of resource-rich tasks when the volume of speech and text examples to build statistical acoustic and language models is plentiful, and the speaker, acoustics and language conditions follow a rigid protocol. However, because of the “blackbox” top-down knowledge integration approach, such systems cannot easily leverage a rich set of knowledge sources already available in the literature on speech, acoustics and languages. In this paper, we present a bottom-up approach to knowledge integration, called automatic speech attribute transcription (ASAT), which is intended to be “knowledge-rich”, so that new and existing knowledge sources can be verified and integrated into current spoken language systems to improve recognition accuracy and system robustness. Since the ASAT framework offers a “divide-and-conquer” strategy and a “plug-andplay” game plan, it will facilitate a cooperative speech processing community that every researcher can contribute to, with a view to improving speech processing capabilities which are currently not easily accessible to researchers in the speech science community., Los sistemas más novedosos de reconocimiento automático de habla y de locutor suelen basarse en un sistema de coincidencia de patrones. Gracias a este modo de trabajo, se han obtenido unos bajos índices de error de reconocimiento para una variedad de tareas ricas en recursos, cuando se aporta una cantidad abundante de ejemplos de habla y texto para el entrenamiento estadístico de los modelos acústicos y de lenguaje, y siempre que el locutor y las condiciones acústicas y lingüísticas sigan un protocolo estricto. Sin embargo, debido a su aplicación de un proceso ciego de integración del conocimiento de arriba a abajo, dichos sistemas no pueden aprovechar fácilmente toda una serie de conocimientos ya disponibles en la literatura sobre el habla, la acústica y las lenguas. En este artículo presentamos una aproximación de abajo a arriba a la integración del conocimiento, llamada transcripción automática de atributos del habla (conocida en inglés como automatic speech attribute transcription, ASAT). Dicho enfoque pretende ser “rico en conocimiento”, con el fin de poder verificar las fuentes de conocimiento, tanto nuevas como ya existentes, e integrarlas en los actuales sistemas de lengua hablada para mejorar la precisión del reconocimiento y la robustez del sistema. Dado que ASAT ofrece una estrategia de tipo “divide y vencerás” y un plan de juego de “instalación y uso inmediato” (en inglés, plugand-play), esto facilitará una comunidad cooperativa de procesamiento del habla a la que todo investigador pueda contribuir con vistas a mejorar la capacidad de procesamiento del habla, que en la actualidad no es fácilmente accesible a los investigadores de la comunidad de las ciencias del habla.
Proyecto:


What is computational phonology?, ¿Qué es la fonología computacional?

  • Daland, Robert
Computational phonology is not one thing. Rather, it is an umbrella term which may refer to work on formal language theory, computer-implemented models of cognitive processes, and corpus methods derived from the literature on natural language processing (NLP). This article gives an overview of these distinct areas, identifying commonalities and differences in the goals of each area, as well as highlighting recent results of interest. The overview is necessarily brief and subjective. Broadly speaking, it is argued that learning is a pervasive theme in these areas, but the core questions and concerns vary too much to define a coherent field. Computational phonologists are more united by a shared body of formal knowledge than they are by a shared sense of what the important questions are., La fonología computacional no representa un campo unitario, sino que es un término genérico que puede hacer referencia a obras sobre teorías de lenguajes formales; a modelos de procesos cognitivos implementados por ordenador; y a métodos de trabajo con corpus, derivados de la bibliografía sobre procesamiento del lenguaje natural (PLN). Este artículo ofrece una visión de conjunto de estas distintas áreas, identifica los puntos comunes y las diferencias en los objetivos de cada una, y pone de relieve algunos de los últimos resultados más relevantes. Esta visión de conjunto es necesariamente breve y subjetiva. En términos generales, se argumenta que el aprendizaje es un tema recurrente en estos ámbitos, pero las preguntas y los problemas centrales varían demasiado como para definir un área de estudio unitaria y coherente. Los fonólogos computacionales están unidos por un cúmulo común de conocimientos formales más que por un parecer compartido acerca de cuáles son las preguntas importantes.
Proyecto:


Listeners may rely on intonation to distinguish languages of different rhythm classes, Los oyentes podrían basarse en la entonación para distinguir lenguas de diferentes clases rítmicas

  • Hagmann, Lea
  • Dellwo, Volker
Previous research argued that listeners can distinguish between languages of different rhythm class but not of the same class (class discrimination hypothesis). In the present research we tested the role of duration and pitch cues (intonation) in this process. In Experiment I we tested whether we could replicate previous findings on listeners’ language discrimination ability with native Swiss German listeners. Results showed that the discrimination of English and Japanese based on durational cues led to the same results as in previous experiments. In Experiment II we tested listeners’ ability to distinguish between languages belonging to different rhythm classes (English-French, French-Japanese, Spanish-Japanese) and the same rhythm class (Spanish-French). Results revealed that listeners’ distinction was not above chance level for all language contrasts. In Experiment III we added intonation to a French- English and a Spanish-French language contrast. Results revealed a significant effect of intonation for the French- English but not the Spanish-French contrast. The experiments showed that the primary cue for listeners to distinguish between languages of different rhythm class is not generally duration, as previously hypothesized, but it can also be intonation. Implications of the findings on the theory that languages can be classified according to their speech rhythm (rhythm class hypothesis) are discussed., Algunas investigaciones anteriores sostienen que los oyentes pueden distinguir entre lenguas de diferente ritmo pero, en cambio, no de la misma clase rítmica (hipótesis de la discriminación de clases). En la presente investigación examinamos el papel de la duración y de las claves tonales (entonación) en este proceso. En el Experimento I analizamos si podíamos replicar los resultados anteriores sobre la capacidad de discriminación lingüistica de los oyentes con jueces nativos de alemán de Suiza. Los resultados muestran que la discriminación de inglés y japonés basada en claves de duración conduce a los mismos resultados que en experimentos anteriores. En el Experimento II analizamos la capacidad de los oyentes para distinguir entre lenguas pertenecientes a diferentes clases rítmicas (inglés-francés, francés-japonés, español-japonés) y a la misma clase rítmica (español-francés). Los resultados pusieron de manifiesto que la distinción por parte de los oyentes no se encontraba por encima del nivel del azar para todos los contrastes entre lenguas. En el Experimento III añadimos la entonación a los contrastes entre francés e inglés y entre español y francés. Los resultados revelan un efecto significativo de la entonación para el contraste francés-inglés pero no para el contraste español-francés. Los experimentos muestran que la clave primaria que los hablantes usan para distinguir entre lenguas de diferente clase rítmica no es generalmente la duración, como previamente se había propuesto, sino que también puede ser la entonación. Por último, se analizan las implicaciones de los resultados para la teoría de que las lenguas pueden clasificarse según su ritmo de habla (hipótesis de la clase rítmica).
Proyecto:


The role of perception in yeísmo: A preliminary study with Catalan-speaking listeners, El papel de la percepción en el yeísmo: Estudio preliminar con jueces catalanohablantes

  • Rost Bagudanch, Assumpció
Yeísmo, as a change in progress in the Spanish phonological system, has been studied from various perspectives, especially from dialectology and articulatory phonetics. However, the role of the listener in its origins and spread has been scarcely analysed. In fact, it is necessary to focus on the side of the listener to detect if the articulatory similarity of sounds [ʎ] and [j] can be perceptively ambiguous and, thus, confounded. The present work wants to examine this topic in order to determine how the innovative neutralization could initiate. With this purpose we have carried out a perception study which consisted of three different tests: the first one worked as control test and the other two were used to find out if the change could be related to signal reception problems or to opacities in the input segmentation. In these experiments, we have used samples from a Spanish speaker who upholded /ʎ/ and /ʝ/ distinction (second test) and from a yeísta speaker (third test). Despite our concern is to analyse the dephonologization of /?/ in Spanish, there is an important obstacle to achieve our goal: it is quite difficult to find Spanish speakers that do preserve the phonological distinction between /ʎ/ and /ʝ/ in the same way Spanish system once did. Therefore, we must rely on compared grammar: the judges of the perception tests were 20 Catalan speakers, a language that keeps this phonological contrast. The results display that 30 % of the stimulus from Spanish speakers were misinterpreted. In addition, data suggest that the presence of an adjacent palatal vowel and the occurrence in an unstressed position may favour the confusion and, hence, the recategorization process., El fenómeno del yeísmo se ha abordado desde varias perspectivas pero se ha tratado muy poco el papel que desempeña el oyente en él. Como proceso de cambio en marcha, el receptor de la señal ha de tener necesariamente un papel esencial que permita esclarecer cómo se empezó a propagar la innovación yeísta. Con este propósito, se ha decidido llevar a cabo un estudio perceptivo que permita averiguar si [ʎ] y [j] pueden resultar ambiguos desde el punto de vista del receptor de la señal. Sin embargo, la investigación de esta neutralización topa con una complicación inevitable: el avance de la innovación hace que sea difícil dar con hablantes que mantengan la distinción fonológica. Por este motivo, se ha acudido a la gramática comparada; es decir, se ha acudido a 20 jueces catalanohablantes que, en su L1, conservan la categoría /ʎ/ tal como en origen hizo el español. A estos jueces se les han administrado tres pruebas: una de ellas funcionaba como test de control y las otras dos, a partir de estímulos de locutores castellanohablantes distinguidores y yeístas, debían servir para averiguar si el cambio se puede achacar a problemas en la segmentación de la señal o a su recepción. Los resultados indican que un 30 % de los estímulos en las pruebas realizadas con input del español constituyen casos de confusión, que viene favorecida, además, por la presencia del segmento objeto de atención en sílaba átona y en contacto con vocales palatales.
Proyecto:


Syntax and word-specific phonetics: the origins of the allomorphs of the Galician definite article, Sintaxis y fonética particular de ciertas palabras: Orígenes de los alomorfos del artículo definido en gallego

  • Dubert-García, Francisco
The Galician definite article seems to be a case of a ditropic clitic which, phonologically, attaches to the preceding word while maintaining direct, constitutive syntactic relations with following words. The article has three allomorphs whose selection is conditioned by the ending of the preceding word. In this paper I study the historical origins of these allomorphs. They are the result of assimilatory processes due to constraints governing the structure of the syllable and intersyllabic contact; the domain of these constraints, however, was restricted to the definite article and the 3rd person accusative clitic pronoun, leaving unaffected other words having the same phonetic sequences in apparently similar contexts. In this paper I will demonstrate the convenience of explaining the origins of these alternations by means of usage based models designed to explore the role of frequency in the emergence of grammar and facilitate the natural combination of information from the language’s semantic, syntactic and phonological components., El artículo definido gallego parece ser un clítico ditrópico: se liga fonológicamente a la palabra que le antecede, aunque mantiene relaciones constitutivas directas con las palabras que le siguen. Tiene tres alomorfos cuya distribución está condicionada por el segmento final de la palabra que lo precede. En este trabajo estudio los orígenes históricos de estos tres alomorfos, que son el resultado de procesos asimilatorios debidos a las restricciones que gobiernan la estructura de la sílaba y los contactos entre sílabas; en todo caso, la influencia de estas restricciones estaba claramente restringida al artículo definido y al pronombre átono acusativo de 3.ª persona; estas restricciones no afectaron a otras palabras que tenían las mismas secuencias fonéticas en contextos aparentemente similares. En este artículo, intentaré mostrar la conveniencia de explicar los orígenes de las alternancias con las herramientas de los modelos de la lingu..stica basada en el uso, pues fueron concebidos para explorar el papel de la frecuencia en el surgimiento de la gramática y para permitir la combinación natural de información tomada de los componentes sintáctico, semántico y fonológico de la lengua.
Proyecto:


A stochastic approach to rhotic variation in Spanish codas, Análisis estocástico de la variación de las róticas en posición de coda en español

  • Gibson, Mark
A stochastic analysis using aerodynamic and temporal variables is presented to explain tap/trill variation in Spanish codas. Simultaneous intraoral pressure (Po), translingual flow (F) and acoustic signals were obtained for two native speakers of Peninsular Spanish performing a rate-controlled reiterative task. Data were analyzed using linear mixed effects models fitted with random effects for speaker and repetition. The results show that tongue height and tongue anteriority of the preceding vowel affect the timing and aerodynamic parameters of the rhotic onset gesture, but the phonological specifications of the following consonants do not. Continuous variables were fit into a Bayesian logit regression model using noninformative priors which shows that tap/trill variation in coda can be predicted in part from aerodynamic and temporal parameters. Such a proposal obviates the need to resort to positional constraints to explain tap/trill variation in codas., Se presenta un análisis estocástico con variables aerodinámicas y temporales para explicar la variación de las róticas en posición implosiva en español. Las señales acústicas, de presión orofaríngea y flujo traslingual, fueron obtenidas simultáneamente de dos sujetos nativos de habla hispana en una tarea de repetición controlada. Los datos fueron analizados utilizando una serie de modelos lineales de efectos mixtos tomando como efectos aleatorios programados tanto la variable hablante como repetición. Los resultados demuestran que la postura de la lengua en la vocal que precede a la rótica afecta a la temporización y los parámetros aerodinámicos del gesto inicial de la rótica. Las variables continuas se programaron en un modelo de regresión logística bayesiana utilizando una distribución de probabilidades a priori no informativa que demuestra que la variación entre la vibrante simple y la vibrante múltiple en posición implosiva en español es predecible en parte por los parámetros aerodinámicos y temporales. Tal propuesta hace innecesario explicar la variación de las róticas en posición implosiva con un modelo determinista que regule el surgimiento de segmentos en determinadas posiciones fonológicas.
Proyecto:


Accent mark and visual word recognition in Spanish, Marca acentual y reconocimiento visual de palabras en español

  • Schwab, Sandra
The present research aims at determining to what extent an orthographic error related to the accent mark affects the visual recognition of Spanish words. For this, we conducted two experiments of visual lexical decision (with no word production), in which Spanish-speaking participants were instructed to ignore the presence or the absence of the accent mark. Stimuli were composed of words originally without accent mark (OrNA for ‘originally no accent’; Experiment 1) and words originally with an accent mark (OrWA for ‘originally with accent’; Experiments 1 and 2). OrNA words were presented in three conditions: correctly spelled (e.g., dulce ‘sweet’), with an added accent mark on the lexically stressed vowel ( dúlce) and with a misplaced accent mark on the lexically non-stressed vowel ( dulcé). Along the same line, OrWA words were also presented in three conditions: correctly spelled (e.g., lápiz ‘pen’), without the accent mark (lapiz) and with a misplaced accent mark (lapíz). Taken together, the results showed that the accent mark plays a role in the visual word recognition in Spanish. More specifically, the addition and/or the misplacement of an accent mark significantly slow down the visual recognition of the words, whereas the omission of the accent mark does not. The findings are discussed within the framework of dual-route models., Esta investigación tiene como meta determinar en qué medida un error ortográfico relativo al acento gráfico (i.e., tilde) afecta al reconocimiento visual de las palabras en español. Para ello, realizamos dos experimentos de decisión léxica visual (sin producción de las palabras), en los que los participantes tenían que ignorar la presencia o ausencia del acento gráfico. Los estímulos se componían de palabras originalmente sin acento gráfico (OrNA para ‘originally no accent’; Experimento 1) y palabras originalmente con acento gráfico (OrWA para ‘originally with accent’; Experimentos 1 y 2). Las palabras OrNA se presentaron en tres condiciones: correctamente ortografiadas (p. ej., dulce), con un acento gráfico en la vocal tónica (dúlce) y con un acento mal colocado en la vocal átona (dulcé). Asimismo, las palabras OrWA también se presentaron en tres condiciones: correctamente ortografiadas (p. ej., lápiz), sin el acento gráfico (lapiz) y con el acento gráfico mal colocado (lapíz). Los resultados mostraron que el acento gráfico desempeña un papel en el reconocimiento visual de las palabras. Más específicamente, la adición y/o la mala colocación del acento gráfico ralentizan significativamente el reconocimiento visual de las palabras, mientras que la omisión del acento gráfico no lo dificulta. Discutimos los resultados dentro del marco de los modelos de doble ruta.
Proyecto:


A preliminary approach to phonological phrase in Spanish, Aproximación preliminar al sintagma fonológico en español

  • Polo Cano, Nuria
Although the prosodic hierarchy has been well established in phonological theory for decades, little empirical work on its higher constituents has been done on Spanish. This study examines two well-known phonological processes in Spanish (spirantization of voiced plosives and fricative sibilant voicing in coda position) as possible parameters in the delimitation of phonological phrases. The data analyzed have been gathered from two native Spanish speakers from the Central Peninsular variety of Spanish, who read 334 stimuli created for that purpose. The results suggest that there is a phonological phrase boundary between the subject and the verb, especially in long subjects. Other syntactic structures seem to be mapped as prosodic constituents of lower or higher levels (prosodic words and intonational phrases, respectively)., A pesar de que la jerarquía prosódica se propuso hace ya varios años, no es mucho el trabajo realizado hasta el momento sobre la caracterización de los constituyentes superiores de la jerarquía en español. Este trabajo propone utilizar dos procesos segmentales conocidos en esta lengua (la espirantización de las oclusivas sonoras y la sonorización de la fricativa alveolar sorda en posición de coda) como parámetros válidos en la delimitación de los sintagmas fonológicos, hasta ahora sin evidencia en esta lengua. Para ello, se han utilizado datos de dos informantes de la variedad centropeninsular y se han grabado emisiones de /b/, /d/, /ɡ/ y /s/ de las distintas estructuras sintácticas posibles en español, con un total de 334 estímulos de habla leída. Solo se ha podido establecer una linde prosódica de sintagma fonológico entre sujeto y verbo, sobre todo con sujetos largos. Las fronteras prosódicas descubiertas en las otras estructuras sintácticas analizadas se pueden deber a delimitaciones prosódicas en niveles prosódicos inferiores o superiores (palabras prosódicas y sintagmas entonativos respectivamente).
Proyecto:


Tinnitus: mechanisms, measures and sound treatments, Acúfenos: mecanismos, medidas y tratamientos sonoros

  • Cobo Parra, Pedro
Tinnitus is the auditory perception of sounds in the absence of any external source. Tinnitus that occurs every day for more than five minutes is reported by 10–15% of the population, and for 1 to 2% it is a handicap that interferes significantly with their quality of life (severe tinnitus). Despite the intensive research into therapeutic options, including surgery, pharmacotherapy, and electrical and acoustical stimulation, there is no approved treatment for tinnitus at present. Although the exact origin of tinnitus is still unknown, it seems to be the correlate of maladaptive attempts of the brain at reorganization due to distorted sensory input (brain plasticity). This theory is consistent with the fact that most tinnitus is associated with hearing loss. Acoustical therapies try to take advantage of this plasticity, stimulating properly the auditory system to produce tinnitus relief. Several sound therapies are reviewed in this paper, concluding that the so-called Enriched Acoustic Environment (namely a sequence of gammatones, each one with random frequency and amplitude matched to the hearing loss at this frequency) provides the most refined and selective stimulus for the tinnitus patient. Therefore, the hearing loss curve of the patient is needed to design this sound stimulus., El acúfeno consiste en la percepción de un sonido fantasma (un zumbido continuo dentro de la cabeza), sin una fuente externa que lo produzca. Para apreciar la importancia del tema hay que tener en cuenta que aproximadamente un 1-2 % de la población padece de acúfeno severo, y que a día de hoy no existe ninguna medicina que lo cure. Todavía no se conoce el origen exacto del acúfeno, aunque se supone que se produce por un mecanismo de compensación homeostático del sistema auditivo central ante una pérdida auditiva periférica (plasticidad cerebral). Las terapias acústicas pretenden revertir esta plasticidad cerebral estimulando el sistema auditivo con un sonido apropiado para reducir la molestia del acúfeno. En este artículo se revisan varias terapias acústicas y se concluye que la más apropiada consiste en una secuencia de tonos gamma de frecuencia aleatoria dentro de la banda de audio, con amplitud proporcional a su pérdida auditiva a esa frecuencia (un Ambiente Acústico Enriquecido). Por tanto, para su diseño se requiere la curva de pérdidas (HL) del paciente en cada uno de los oídos.
Proyecto:


An acoustic study of temporal aspects of discourse under the influence of alcohol in Spanish speakers, Un estudio acústico sobre los aspectos temporales del discurso bajo la influencia del alcohol en hablantes del español

  • González Ceria, Jennifer
Although the effects of alcohol on the temporal parameters of speech have been approached in various studies in numerous languages, there is no such study analyzing the acoustic manifestations of said effects in the Spanish language. The aim of this preliminary study is to observe in which ways certain strategies, such as silent pauses, filled pauses, and syllable lengthening —both in frequency and duration—, as well as speaking and articulatory rates are affected by the alcoholization in utterances realized by Spanish speakers. Ten female subjects participated in this experiment, each performing four tasks—two in order to obtain semi-spontaneous speech and two in order to obtain read speech—in each of the three sessions maintained. In the first session the participants were completely sober, in the second they were under a moderate influence of alcohol, and in the third session they were in a more intoxicated state than in the previous session. The results show that the quantity of speech disrupting strategies is not determinately related to the level of intoxication of the subject, whereas in contrast the duration of such strategies, as well as speaking and articulation rate constitute notable indicators of intoxication. That is to say, that alcohol, as it affects the central nervous system, produces a slowing of speech that creates a relationship with the length of pauses and slowness of speech that is directly proportional with blood alcohol content., Aunque los efectos del alcohol que afectan a los parámetros temporales del discurso se han abordado en diferentes estudios de otros idiomas, no existe ninguno que haya analizado sus manifestaciones acústicas en español. En este trabajo se presenta una caracterización preliminar de los efectos del alcohol en lo referido a pausas vacías, pausas sonoras, alargamientos —tanto en su cantidad como en su duración—, velocidad de elocución y velocidad de articulación en los enunciados de hablantes nativos del español. Los participantes de este experimento fueron 10 sujetos femeninos que realizaron cuatro tareas —dos para la obtención de discurso semiespontáneo y dos para la obtención de discurso leído— en cada una de las tres sesiones que se realizaron —en la primera sesión estaban en estado de sobriedad, en la segunda sesión se encontraban bajo una intoxicación moderada de alcohol y, en la tercera sesión, bajo una intoxicación mayor que en la anterior—. Los resultados muestran que la cantidad de estrategias de la interrupción del discurso no determina si un sujeto está intoxicado, mientras que la duración de estas, la velocidad de elocución y la velocidad de articulación sí son grandes predictores de dicha intoxicación. Esto quiere decir que el alcohol, al afectar a nuestro sistema nervioso central, produce un enlentecimiento en el discurso que hace que las pausas sean más duraderas y que hablemos con mayor lentitud cuanto mayor sea la cantidad de alcohol en sangre.
Proyecto:


Buscador avanzado