Segundo o IBGE, mais de 2,3 milhões de brasileiros possuem deficiência auditiva profunda e enfrentam dificuldades diárias de comunicação em espaços públicos, usando tanto a Língua Brasileira de Sinais (Libra) e a Língua Portuguesa de Sinais (LGP). No mundo, são mais de 430 milhões de pessoas surdas e/ou com deficiência auditiva.
Tais desafios motivaram a Lenovo e o CESAR (Centro de Estudos e Sistemas Avançados do Recife), a criarem uma tecnologia proprietária de IA capaz de identificar visualmente e contextualizar gestos individuais através de um conjunto de dados de milhares de vídeos de Língua Brasileira de Sinais. Foram 5 anos de desenvolvimento do projeto, que contou com um financiamento de US$ 4 milhões por parte da Lenovo.
A ideia é que a solução permita que pessoas com deficiência auditiva façam sinais para a câmera de um dispositivo enquanto um algoritmo realiza a tradução simultânea em texto, em português. A tecnologia também pode ser utilizada para ensinar a linguagem de sinais a pessoas ouvintes, já que é possível usar imagens computacionais para rastrear a precisão dos gestos em relação ao banco de dados personalizado em construção.
Assim, em vez de tentar traduzir sinal por sinal, a inteligência artificial e o banco de dados em desenvolvimento estão aprendendo a reconhecer posições das mãos, extrapolando dados das curvas das mãos e, principalmente, dos pontos de articulação digital dos ossos do sinalizador. Uma vez que o algoritmo pode reconhecer e processar esses movimentos e gestos rapidamente e com precisão, é possível reconhecer o fluxo de uma frase e traduzi-la para texto.
“No CESAR nós somos especialistas em aprender. Nesse projeto, aprendemos a quebrar o problema, de uma forma que a gente consegue entendê-lo, resolver e entregar valor ao longo de todo o trajeto. O importante é gerar passos intermediários e aprender com experimentação em ciclos cada vez menores, tanto sobre o público quanto sobre a tecnologia. É importante vislumbrar o próximo passo, não o topo da montanha”, diz Willian Grillo, designer de interação do CESAR, em nota.
Próximos passos do projeto
Até agora, todos os testes e treinamento de algoritmo relacionados foram realizados dentro da Lenovo e do CESAR, e vários colaboradores com deficiência auditiva de ambas as equipes contribuíram para o projeto como treinadores, testadores e participantes de grupos focais. O modelo de tradução ao vivo funcionará não apenas com a Língua Brasileira de Sinais, como poderá ser estendido para outras línguas de sinais ao redor do mundo.
O próximo passo é escalar o projeto além dos testes internos. Bilhões de pontos de dados adicionais serão necessários para atingir o objetivo desejado de lançar uma interface de tradução de língua de sinais em tempo real.
Na busca por uma escala mais rápida e desenvolvimento de um MVP, a Lenovo está adaptando essas novas soluções de tradução para verticais específicas, incluindo bancos e varejo, com o objetivo de implementá-las no mundo real em 2024.