 |
A
Tecnologia de reconhecimento de fala
Desde os anos 50,
os pesquisadores têm investigado maneiras de se construir
máquinas que possam entender a fala humana. No começo
eles investigaram formas de reconhecer fonemas específicos
(principalmente as vogais) pronunciadas por certas pessoas.
Essa abordagem foi adotada inicialmente devido ao fato de
ser mais fácil reconhecer falas de uma determinada
pessoa do que falas de pessoas estranhas, e porque é
mais simples reconhecer uma unidade fonética do que
a fala contínua.
As pesquisas prosseguiram
e os próximos passos foram no sentido de reconhecer
todas as unidades fonéticas do idioma inglês
pronunciadas por várias pessoas, depois números
e mais tarde palavras isoladas.
O processo de reconhecimento de fala, algo que se pensava
ser simples no começo das pesquisas da área,
mostrou-se muito complicado e consumiu quarenta anos dos esforços
dos pesquisadores para produzir resultados satisfatórios
que possibilitassem reconhecer a fala contínua, sendo
estatisticamente representativa das falas da população
e que cobrisse um grande número de palavras do dicionário.
|
|
Nestes 50 anos de investigação os pesquisadores detectaram
2 características importantes da fala: 1) sua representação
temporal 2) sua representação no domínio da
freqüência. Do ponto de vista temporal, deve-se observar
que as palavras podem ser contraidas ou alongadas, de acordo com
o contexto, situação, região da pessoa, etc.
Do ponto de vista da freqüência, deve-se notar que as
palavras não podem ser pronunciadas duas vezes de forma idêntica
nem mesmo pela mesma pessoa. Um fator complicador é a falta
de silêncio entre duas palavras em uma fala natural, o que
dificulta a localização e identificação
das mesmas.
Com a utilização dos Modelos de Markov de Estados
Escondidos (Hidden Markov Models - HMM) foi possível construir
modelos computacionais que reconhecessem a fala contínua.Os
HMM são ferramentas estatísticas que permitem o modelamento
das variações do fenômeno tanto no domínio
da fala como no da freqüência.
|
 |
Desde 1988 com a tese
de doutorado de Kai-Fu Lee, a área têm experimentado
um grande avanço, tanto nas taxas de reconhecimento
como no tamanho do vocabulário.
Após a obtenção, em laboratórios,
de taxas de reconhecimento de 95%, companhias começaram
a ser criadas por pesquisadores desta área e produtos
começaram a chegar às prateleiras para o cidadão
(como por exemplo o Via-Voice da IBM). Ao mesmo tempo, as
pesquisas se concentraram no reconhecimento de fala por telefone
e na superação de ruídos normalmente
encontrados em ligações por quem utiliza telefones
celulares ou públicos em vias públicas.
Os princípios são os mesmos, mas as técnicas
para filtrar as falas e detectar quem está falando
ao telefone perante uma conversa de fundo devem ser bem sofisticadas.
Estas técnicas são implementadas hoje em dia
tanto a nível de hardware (placas específicas
para atendimento de chamadas telefônicas, filtragem,
eliminação de ecos, processamento de sinal,
etc) como de software.
Obs : Você
pode enviar sua dúvida sobre a tecnologia de reconhecimento
de fala para techgroup@voxideas.com.
|
|
|