Como é o tradutor de linguagem de sinais baseado em IA para ouvir pessoas desenvolvido pela Lenovo

A empresa e o Centro Brasileiro de Estudos e Sistemas Avançados do Recife (CESAR) lançaram o produto, que recebeu investimento de US$ 4 milhões. Inicialmente estará disponível para português mas pretendem adicionar outros idiomas a curto prazo.

10 de agosto de 2023 10h48

A Lenovo e o Centro de Estudos e Sistemas Avançados do Recife (CESAR) no Brasil desenvolveram um aplicativo baseado em inteligência artificial (IA) capaz de “traduzir” língua de sinais para pessoas ouvintes.

Segundo o Instituto Brasileiro de Geografia e Estatística (IBGE), mais de 2,3 milhões de brasileiros enfrentam dificuldades de comunicação devido à surdez profunda e usam a Língua Brasileira de Sinais (Libra) e a Língua Portuguesa de Sinais (LGP), além de diversos dialetos de sinais regionais. A escala e a complexidade do desafio estimularam o projeto de pesquisa e desenvolvimento de cinco anos, financiado pela Lenovo com um investimento de mais de $ 4 milhões.

Para realizar o projeto, foram investidos 4 milhões de dólares

Baseando-se em um banco de dados de milhares de vídeos Libra, as organizações desenvolveram tecnologia proprietária de inteligência artificial que pode identificar visualmente e contextualizar gestos individuais. A iniciativa é descrita pelo CESAR e pela Lenovo como uma estreia mundial com potencial de aplicação universal.

Acreditamos que o impacto sobre essas pessoas será maior do que os tradutores online para idiomas escritos, disse Hildebrando Lima, diretor de pesquisa e desenvolvimento da Lenovo Brasil, em entrevista à Forbes. “Antes dos tradutores online, havia dicionários online, mas eles não resolvem a dificuldade que muitos têm de entender os sinais, às vezes por falta de prática ou falta de material didático e de instrutores”, disse Lima, acrescentando que a tecnologia vai diminuir essas barreiras quando totalmente desenvolvido.

Baseado em redes neurais de aprendizado profundo, a arquitetura do sistema é semelhante a modelos como o GPT-3 para tradução e reconhecimento do português para Libra, o que facilita a tradução em tempo real para a língua de sinais. Para a geração de vídeos em língua de sinais, as organizações criaram um intérprete sintético (um avatar virtual semelhante a um humano) usando modelos Generative Adversarial Network (GAN).

No entanto, a complexidade do aplicativo exigiu o desenvolvimento de sistemas de inteligência artificial para automatizar muitas tarefas, disse Vitor Casadei, gerente sênior de cientistas de dados técnicos do CESAR. Por exemplo, criar o banco de dados de treinamento [las grabaciones utilizadas para entrenar los modelos de reconocimiento de seales] foi facilitado pelos sistemas de visão computacional criados pela equipesublinhou o executivo.

Uma equipe de 80 pessoas trabalhou no projeto, incluindo cinco profissionais com deficiência auditiva, além da comunidade para a qual o sistema foi criado. Além dos profissionais surdos da equipe, a participação da comunidade surda no projeto é fundamental, disse Casadei, acrescentando que dezenas de surdos estiveram envolvidos nos processos de concepção, validação e teste da ferramenta.

relevância global

O plano da Lenovo é expandir o uso do sistema para outras línguas de sinais ao redor do mundo.usando um procedimento de patente pendente que aproveita as semelhanças entre diferentes línguas de sinais para acelerar o processo de aprendizagem.

“Vários estudos indicam que as línguas de sinais compartilham diversas características, semelhantes às línguas faladas. Desenvolvemos uma técnica que leva em conta esse fato e, assim, é possível aproveitar o aprendizado em treinamento [Lengua de Seas Brasilea]acelerar o aprendizado de outras línguas de sinais, com resultados muito promissores”, disse Casadei, do CESAR.

Segundo Lima, da Lenovo, o plano é expandir o projeto internacionalmente até 2024/25, começando pela América Latina e Estados Unidos. “Acreditamos que os casos de uso exigem [en EEUU] são muito parecidos”, disse o executivo.

Embora o foco inicial seja em áreas como banca e varejo, o objetivo final é implantar o aplicativo em qualquer contexto de utilidade, seja virtual, físico ou híbrido. Além disso, O plano da Lenovo é disponibilizar o kit de desenvolvimento de software (SDK) para a comunidade de desenvolvedorespromovendo ainda mais o desenvolvimento de soluções para deficientes auditivos.

Foto profissional grátis de dentro de casa, amigo, um
A primeira versão está disponível apenas para português, mas outros idiomas serão adicionados

A confidencialidade também foi uma grande preocupação ao longo do desenvolvimento do projeto. Todos os participantes, desde os envolvidos nos cadastros até os envolvidos na validação e teste, assinaram um documento autorizando o uso de suas contribuições para a pesquisa, de acordo com a Lei Geral de Proteção de Dados (LGPD).

Para proteger a privacidade do usuário, os modelos são projetados para capturar apenas os dados essenciais da câmera para reconhecimento de sinaiscomo formas de mão ou movimentos corporais, disse Casadei do CESAR. “É impossível identificar uma pessoa específica a partir desse conjunto de dados, o que garante o cumprimento da LGPD respeitando a privacidade do usuário”, disse o executivo.

As organizações esperam que a ferramenta tenha melhorias contínuas à medida que mais pessoas a usam. Esses exercícios incluirão adições contínuas às gravações de sinal, coleta de feedback do usuário e refinamento do processo de calibração do aplicativo. “A equipe também iniciou alguns experimentos com aprendizado ativo [un mtodo de enseanza que involucra a los estudiantes en el aprendizaje interactivo a travs de discusiones, resolucin de problemas y juegos de roles] com resultados promissores, mesmo que ainda haja muito trabalho a ser feito”, afirma o responsável pelo CESAR.

O CESAR e a Lenovo também exploraram o potencial da ferramenta para fins educacionais, principalmente para o ensino de línguas de sinais. As empresas depositaram uma série de patentes nesta área, que estão atualmente em análise. Embora o “tradutor” da língua de sinais atualmente não inclua reconhecimento de voz para usuários que podem falar, mas não podem ouvir, este é um tópico de discussão em andamento para desenvolvimento futuro.

Eventualmente, o sistema visa estimular a participação ativa dos surdos como comunicadores e não como meros receptores, removendo as barreiras existentes e promovendo uma sociedade mais inclusiva. “Temos plena convicção de que esta tecnologia transformará completamente as interações entre ouvintes e deficientes auditivos”, concluiu Lima.

*Nota originalmente publicada em Forbes Estados Unidos

Suzana Leite

"Estudioso de viagens do mal. Totalmente viciado em café. Escritor. Fanático por mídia social. Estudante amigo dos hipsters."

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *