voxideas | a melhor idéia em reconhecimento de fala

A Tecnologia de reconhecimento de fala

Desde os anos 50, os pesquisadores têm investigado maneiras de se construir máquinas que possam entender a fala humana. No começo eles investigaram formas de reconhecer fonemas específicos (principalmente as vogais) pronunciadas por certas pessoas. Essa abordagem foi adotada inicialmente devido ao fato de ser mais fácil reconhecer falas de uma determinada pessoa do que falas de pessoas estranhas, e porque é mais simples reconhecer uma unidade fonética do que a fala contínua.

As pesquisas prosseguiram e os próximos passos foram no sentido de reconhecer todas as unidades fonéticas do idioma inglês pronunciadas por várias pessoas, depois números e mais tarde palavras isoladas.

O processo de reconhecimento de fala, algo que se pensava ser simples no começo das pesquisas da área, mostrou-se muito complicado e consumiu quarenta anos dos esforços dos pesquisadores para produzir resultados satisfatórios que possibilitassem reconhecer a fala contínua, sendo estatisticamente representativa das falas da população e que cobrisse um grande número de palavras do dicionário.

Nestes 50 anos de investigação os pesquisadores detectaram 2 características importantes da fala: 1) sua representação temporal 2) sua representação no domínio da freqüência. Do ponto de vista temporal, deve-se observar que as palavras podem ser contraidas ou alongadas, de acordo com o contexto, situação, região da pessoa, etc.

Do ponto de vista da freqüência, deve-se notar que as palavras não podem ser pronunciadas duas vezes de forma idêntica nem mesmo pela mesma pessoa. Um fator complicador é a falta de silêncio entre duas palavras em uma fala natural, o que dificulta a localização e identificação das mesmas.

Com a utilização dos Modelos de Markov de Estados Escondidos (Hidden Markov Models - HMM) foi possível construir modelos computacionais que reconhecessem a fala contínua.Os HMM são ferramentas estatísticas que permitem o modelamento das variações do fenômeno tanto no domínio da fala como no da freqüência.

Desde 1988 com a tese de doutorado de Kai-Fu Lee, a área têm experimentado um grande avanço, tanto nas taxas de reconhecimento como no tamanho do vocabulário.

Após a obtenção, em laboratórios, de taxas de reconhecimento de 95%, companhias começaram a ser criadas por pesquisadores desta área e produtos começaram a chegar às prateleiras para o cidadão (como por exemplo o Via-Voice da IBM). Ao mesmo tempo, as pesquisas se concentraram no reconhecimento de fala por telefone e na superação de ruídos normalmente encontrados em ligações por quem utiliza telefones celulares ou públicos em vias públicas.

Os princípios são os mesmos, mas as técnicas para filtrar as falas e detectar quem está falando ao telefone perante uma conversa de fundo devem ser bem sofisticadas. Estas técnicas são implementadas hoje em dia tanto a nível de hardware (placas específicas para atendimento de chamadas telefônicas, filtragem, eliminação de ecos, processamento de sinal, etc) como de software.

Obs : Você pode enviar sua dúvida sobre a tecnologia de reconhecimento de fala para techgroup@voxideas.com.