Jump to content
HArlock1980

Reconocimiento de voz

Recommended Posts

Supongo que os parecerá una tontería pero me aburría y he hecho esto en 10 minutos.. me apetecía compartirlo por aquí... jejeje

 

 

Share this post


Link to post
Share on other sites

Pues no me acaba de funcionar el tema de los filtros, y he tenido que avanzar para poder presentar el prototipo, ahora ya estoy con el TTS, dejo el tema de los filtros para más adelante.

 

Share this post


Link to post
Share on other sites

Hola creo que he llegado un poco tarde al post, solo quería agregar algo sobre el audio ya que soy profesor de acústica en dos conservatorios de musica.

Aca va mi aporte:

Lo mas básico, sabemos que es la frecuencia y la intensidad de un sonido? (si ya lo saben salteense esta parte)

Aun más básico: ¿Que es el sonido?:

Pues bien para que haya sonido debe haber tres cosas: una fuente emisora que debe poseer ciertas características., un canal de transmisión que es el aire y un receptor es decir un ser vivo con la competencia intelectual capaz de decodificar la señal recibida (acá hay un componente cultural del que no vamos a hablar, si a alguien le interesa me lo pide).

-La fuente emisora: debe ser una sustancia material elástica, la elasticidad es una propiedad de la materia por la cual por una fuerza externa a ella es capaz de deformarse (sin romperse) y cuando esa fuerza cesa, es capaz por si misma de volver a su forma original, por ejemplo una cuerda de una guitarra. Todas las fuentes sonoras tienen alguna parte o pieza que es elástica y que al jerecer alguna fuerza sobre ella comienza a vibrar. Una Vibración es un moviviemnto oscilatorio, (buscar en la wiki). El movimiento oscilatorio más simpple es que se denomina moviemiento armónico simpley desde el punto de vista matemático es el seno de un ángulo, por eso también se lo denomina senoidal o sinusoidal, por ejemplo el sonido de un diapasón de orquilla es sinusoidal. Bian habran visto un gráfico típico sobre ejes cartesianos de una onda sinusoidal, entonces la distancia que hay desde el eje de las absisas (x) al punto de máxima elongación ( el punto mas alto de la "cresta" de la onda) determina la intensidad, a mayor energía entregada mayor intensidad que percibimos auditivamente como el volumen de un sonido.

Como se puede observar en el gráfico, la onda presenta un patrón de movimiento cíclico, es decir el mismo moviemiento se repite, por ejemplo: la onda comienza en  x = 0 y en y = 0. En el eje x medimos el tiempo que transcurre y en el eje y medimos las elongaciones o el ángulo que hay engre dicho punto ( el que estemos midiendo en ese momento) con respecto al eje x, o mas sencillo, las distancias entre un punto cualquiera de la onda con respecto al eje x. Entonces el patron de movimiento es x = 0, y = 0; a medida que x crece y crece hasta llegar al máximo; luego x crece e y decrece hasta nuevamente tocar el eje x; luego x crece e y sigue decreciendo hasta llegar al punto mínimo ( el valle de la onda) para luego mientras x sigue creciendo y vuelve a crecer hasta llegar nuevamente a tocar el eje x y así todo este ciclo se repite mientras suene dicho sonido.

Frecuencia entonces es la cantidad de ciclos que la onda realiza en una unidad de tiempo, para los sonidos se usa el segundo. Pongo otro ejemplo para entender lo que es frecuencia: "Señor cada cuanto pasa el colectivo,(bus) que va a Buenos Aires ? .- rta: hay dos coelctivos  por cada hora" frecuencia: 2colectivos/hora.

Auditivamente escuchamos a la frecuencia como "la nota" musical que podemos escribir en un pentagrama - [[[ OJO, nuesto sistema musical sólo reconoce 12 frecuencias, los 12 semitonos en que se divide una octava, pero el oido es capaz de distinguir muchas más, pero no no entran en nuestro sistema musical ordinario salvo la mpuscia de vanguardia, hablando siempre de la cultura occidental]]] - EL sonido "LA" central, (que se escribe en el segundo espacio de un pentagrama en clave de sol) tiene una frecuencia de 440 HZ (HZ =  hertz o sea 440 vibraciones u oscilaciones por segundo), es decir cada nota musical tiene un número determinado de frecuencia)

Filtrar sonido ambiente: para filtrar sonido ambiente entonces hay que tener en cuenta dos cosas, las posibles frecuencias de la voz hablada, (de la voz cantada si se desea) y las posibles frecuencias de los posibles sonidos ambiente a filtrar.

La voz hablada masculina de un hombre después del cambio de voz, puede estar entre los 220 hz aprox, a los 165 hz, lavo cantada de un hombre (no distingo aqui entre tenor y bajo sino que doy el rango total) sería entre los 82.5 hz hasta el famoso do de pecho de Carusso = 528 Hz.

Las mujeres  voz hablada =  entre los 220 hz y los 440 hz y la voz cantada ( sin distinguir entre contraltos y sopranos) puede ir desde los 198 hz hasta el famoso Fa sobre agudo del aria de la reina de la noche de La Flauta Mágica de Mozart = 1584 Hz.

Estos son aproximadamente los rangos de frecuencia de las voces (faltan las de los niños).

Ahora bien los sonidos del ambiente lamentablemente ocupan todo el rango audible = desde los 20 hjz hasta los 15.000 hz o 20.000 hz (15khz, 20 khz) pero podiramos decir que un motor sobresalen las frecuancias bajas, pero un ventilador o algo así tendria frecuencias altas o por encima de los 1000 hz o siendo aun mas finos el motor tendría frecuencias bajas < 110 Hz y las aspas frecuencias > 1000 hz, los silbidos tiene frecuencias altas, chirridos de pueta por lo general son frecuencias altas, el paso de un tren frecuecias bajas pero su bocina tendria por lo general frecuencias medias, todo esto depende del ruido ambiente con que nos enfrentemos y asi teniendo en cuenta el rango de las voces y las del posible ruido ambiente enconraremos las mejores frecuencias minimas . máximas de corte para aplicar a nuestros filtros.

Perdón por no incluir los gráficos pero son faciles de ver en internet.

Saludos a todos.

Share this post


Link to post
Share on other sites

Hola me gustaria saber si se puedo hacer algo sobre el reconocimiento de voz, ya que me gustaría implementarlo en mi proyecto de unity, gracias

Hola me gustaria saber como implementar este reconocimiento de voz a mi proyecto gracias.

Share this post


Link to post
Share on other sites
hace 8 horas, Stalin said:

Hola me gustaria saber si se puedo hacer algo sobre el reconocimiento de voz, ya que me gustaría implementarlo en mi proyecto de unity, gracias

Hola me gustaria saber como implementar este reconocimiento de voz a mi proyecto gracias.

Te he encontrado este Asset, pero seguro que hay muchos más en la Store: https://assetstore.unity.com/packages/tools/audio/mobile-speech-recognizer-73036

Share this post


Link to post
Share on other sites

UnitySpain © Todos los derechos reservados 2020
×
×
  • Create New...