logo_unizar
universidad de zaragoza


Zaragoza 8-10 Noviembre 2006
Propuesta de Evaluación de Sistemas ALBAYZIN-06

La Red Temática en Tecnologías del Habla es un foro común donde los investigadores en Tecnología del Habla puedan aunar esfuerzos y compartir experiencias con el fin de:

  1. Fomentar la investigación en Tecnologías del Habla atrayendo a nuevos jóvenes investigadores a este campo mediante cursos de formación, intercambios de estudiantes, becas y premios.
  2. Atraer inversiones para investigación de las empresas hacia las Tecnologías del Habla mediante la búsqueda de nuevas aplicaciones que ofrezcan nuevas posibilidades de negocio. Estas aplicaciones se deben concretar en demostradores que atraigan el interés de las empresas.
  3. Avanzar en la creación de lazos de colaboración e integración de los miembros de la Red para mantener el liderazgo de España en la investigación del Castellano, y potenciar también los idiomas co-oficiales como el Catalán, Euskera y Gallego.
 
Con el motivo de fomentar la investigación en Tecnologías del Habla de nuevos jóvenes investigadores, la Red Temática en Tecnologías del Habla organiza una propuesta de evaluación de sistemas en las siguientes áreas:
    Reconocimiento automático del Habla frente a habla patológica
    Sínstesis del habla
    Segmentación e Identificador de hablantes
    Traducción de texto a lengua de signos
Las condiciones de participación son las siguientes:
 

Los participantes se compromenten a la presentación de los resultados de la evaluación en una sesión especial que tendrá lugar durante las IV Jornadas en Tecnología del Habla.

La participación se realiza a modo individual o equipo formado por un grupo de investigadores donde el representante del equipo debe ser estudiante.

 

La participación por equipo está limitada a una de las 4 categorías definidas, pudiendo presentar tantos sistemas como quiera dentro de una categoría.

El 21 de Julio de 2006 se dispondrá de los planes de evaluación y se abre el periodo de inscripción.

La fecha límite de inscripción será el 15 de Septiembre de 2006

A partir del 16 de Agosto de 2006 se podrá disponer del material de entrenamiento y desarrollo para las distintas evaluaciones. Es necesario estar inscrito en la evaluación para recibir el material.

El 18 de Octubre de 2006 se liberarán las bases de datos para la evaluación

El 27 de Octubre de 2006 a las 24:00 es la fecha límite para recibir los resultados en el formato y método que se indicará a los participantes.

El 3 de Noviembre de 2006 se enviarán los resultados de la evaluación.

 

Premios:
Al equipo con el mejor resultado de cada categoría de evaluación se le otorgará un diploma, una beca de asistencia a las IV Jornadas para un miembro del equipo y un premio metálico de 300 Euros.
Planes de Evaluación, versión 1.0
    Reconocimiento automático del Habla frente a habla patológica
    Síntesis del habla
    Segmentación e Identificador de hablantes
    Traducción de texto a lengua de signos
 
FORMULARIO DE INSCRIPCIÓN
 
Los planes de evaluación resumidos:
 
  Reconocimiento automático del habla frente a habla patológica
 

El propósito de esta evaluación es el fomentar la investigación en sistemas de identificación de habla patológica y el desarrollo de sistemas robustos de reconocimiento de voz para habla patológica. En esta primera campaña de evaluación se trabajará sobre el problema del reconocimiento de palabras aisladas. El vocabulario a reconocer lo formarán 57 palabras del "Registro Fonológico Inducido" Marc Monfort, Adoración Juárez, Ed. CEPE, ISBN: 8486235987.

En la actualidad disponemos de unas pequeñas bases de datos con repeticiones de las 57 palabras tanto por personas "normales" como con alguna patología en la voz. Para el entrenamiento y ajuste de los sistemas se propocionará una parte de la base de datos que al menos contendrá 500 locuciones de habla normal y 1000 de habla patológica.

  Síntesis del Habla
 
El propósito de esta evaluación es el fomentar la investigación en sistemas de síntesis de voz. En esta primera evaluación se quiere evaluar la capacidad de desarrollar sistemas de síntesis que sean capaces de mimetizar la voz de hablantes. Para ello se plantea un plan de evaluación que consiste en el ataque a un sistema de control de accesos con un sistema de verificación de hablante. Para ello se proporcionará para cada hablante registrado en el sistema de control de accesos un fichero de audio con una frase. La evaluación consistirá en generar de forma sintética al menos 10 ficheros de audio por hablante con el texto indicado para cada uno de ellos. Las prestaciones se medirán en relación al número de falsas aceptaciones conseguidas.
  Segmentación / Identificación de hablantes
 

El objetivo de esta evaluación es fomentar los trabajos de investigación en relación con la segmentación de la voz en conversaciones con varios locutores, y además, identificar parcialmente algunos de los locutores. Con esta finalidad se plantea un plan de evaluación que consiste en la segmentación e identificación de las intervenciones de hasta 5 locutores conocidos en ficheros donde podrán haber intervenciones de otros locutores. Ambos aspectos, segmentación e identificación, son importantes: una buena segmentación pero una mala identificación será considerado como una segmentación errónea. Durante la fase de entrenamiento o desarrollo se ofrecerán grabaciones cortas correspondientes a los 5 locutores a segmentar e identificar.

Para la evaluación se utilizarán la herramienta del NIST “md-eval-v21.pl”
(The diarization evaluation tool) disponible en
http://www.nist.gov/speech/tests/rt/rt2006/spring/"

 

El material de entrenamiento consistira en 5 ficheros de aprox. 1-5 segundos con la voz de 5 locutores. El material de test consistirá en 20 ficheros de entre 3-5 minutos con intervenciones de estos 5 locutores y de más locutores.

  Traducción de texto a lengua signos
 

El propósito de esta evaluación es impulsar la traducción entre lenguas buscando una aplicación novedosa. Este caso la aplicación consiste en traducir texto en castellano en secuencias de signos pertenecientes a la lengua de signos española. La evaluación está orientada a un dominio concreto de aplicación: frases pronunciadas por un funcionario que atiende a las personas que desean sacar o renovar el DNI o el pasaporte. Inicialmente se dispondrá de un conjunto de 150 frases con una única traducción a lengua de signos (para entrenamiento y desarrollo) y la evaluación consistirá en 50 frases en castellano para las que se deberá generar una única traducción. Para la evaluación se utilizarán las mismas herramientas que las utilizadas en las evaluaciones NIST.

http://www.nist.gov/speech/tests/mt/resources/scoring.htm http://www.nist.gov/speech/tests/mt/doc/mt06_evalplan.v4.pdf

Como material de entrenamiento se proporcinaran 150 frases con su traducción a lengua de signos. Como material de test se proporcionarán 50 frases sin traducción.

 
Para inscribirse en el plan de evaluación de sistemas Albayzin-06, rellenar el siguiente formulario de inscripción y enviarlo firmado por fax al número 976 762111 o por correo electrónico a 4jth@unizar.es

 

 

counter