Revolução da Inteligência Artificial: Mulher Paralisada ‘Fala’ através de Avatar Digital

Resumo: Pesquisadores desenvolveram uma interface cérebro-computador revolucionária que permite a uma mulher paralisada comunicar-se através de um avatar digital. Esse avanço marca a primeira vez em que a fala ou expressões faciais foram sintetizadas diretamente a partir de sinais cerebrais.

O sistema consegue converter esses sinais em texto a uma impressionante taxa de quase 80 palavras por minuto, superando as tecnologias existentes. O estudo representa um salto significativo em direção à restauração da comunicação completa para pessoas paralisadas.

Dados Importantes:

  • A BCI desenvolvida decodifica os sinais cerebrais em fala e expressões faciais sintetizadas, permitindo que pessoas paralisadas se comuniquem de forma mais natural.
  • Em vez de reconhecer palavras inteiras, o sistema identifica fonemas, as subunidades da fala, melhorando a velocidade e a precisão.
  • A voz do avatar digital foi personalizada para refletir a voz da usuária antes da lesão, e as animações faciais foram controladas por software que interpretou os sinais cerebrais para várias expressões faciais.

Fonte: UCSF

Pesquisadores da Universidade da Califórnia em São Francisco (UCSF) e da Universidade da Califórnia em Berkeley desenvolveram uma interface cérebro-computador (BCI) que permitiu a uma mulher com paralisia grave devido a um acidente vascular cerebral no tronco cerebral falar por meio de um avatar digital.

É a primeira vez que tanto a fala quanto as expressões faciais foram sintetizadas a partir de sinais cerebrais. O sistema também é capaz de decodificar esses sinais em texto a uma taxa de quase 80 palavras por minuto, uma melhoria significativa em relação à tecnologia comercialmente disponível.

Edward Chang, MD, presidente de cirurgia neurológica na UCSF, que trabalha com a tecnologia conhecida como interface cérebro-computador, ou BCI, há mais de uma década, espera que essa mais recente pesquisa, publicada em 23 de agosto de 2023 na revista Nature, leve a um sistema aprovado pela FDA que permita a fala a partir de sinais cerebrais em um futuro próximo.

“Nosso objetivo é restaurar uma maneira completa e incorporada de se comunicar, que é realmente a forma mais natural para nós conversarmos com os outros”, disse Chang, que é membro do Instituto Weill de Neurociência da UCSF e Professor Distinto Jeanne Robertson em Psiquiatria.

“Esses avanços nos aproximam muito mais de tornar isso uma solução real para os pacientes.”

A equipe de Chang já havia demonstrado anteriormente que era possível decodificar sinais cerebrais em texto em um homem que também havia sofrido um acidente vascular cerebral no tronco cerebral muitos anos antes. O estudo atual demonstra algo mais ambicioso: a decodificação de sinais cerebrais na riqueza da fala, juntamente com os movimentos que animam o rosto de uma pessoa durante uma conversa.

Chang implantou um retângulo finíssimo de 253 eletrodos na superfície do cérebro da mulher sobre áreas que sua equipe descobriu serem críticas para a fala. Os eletrodos interceptaram os sinais cerebrais que, se não fosse pelo derrame, teriam chegado aos músculos de sua língua, mandíbula, laringe e também ao seu rosto. Um cabo, conectado a uma porta fixada em sua cabeça, ligava os eletrodos a um banco de computadores.

Por semanas, a participante trabalhou com a equipe para treinar os algoritmos de inteligência artificial do sistema a reconhecer seus sinais cerebrais únicos para a fala. Isso envolveu a repetição de diferentes frases de um vocabulário conversacional de 1.024 palavras repetidamente, até que o computador reconhecesse os padrões de atividade cerebral associados aos sons.

Em vez de treinar a IA para reconhecer palavras inteiras, os pesquisadores criaram um sistema que decodifica palavras a partir de fonemas. Esses são os subconjuntos da fala que formam palavras faladas da mesma forma que letras formam palavras escritas. “Hello”, por exemplo, contém quatro fonemas: “HH”, “AH”, “L” e “OW”.

Usando essa abordagem, o computador só precisava aprender 39 fonemas para decifrar qualquer palavra em inglês. Isso tanto melhorou a precisão do sistema quanto o tornou três vezes mais rápido.

“A precisão, a velocidade e o vocabulário são cruciais”, disse Sean Metzger, que desenvolveu o decodificador de texto com Alex Silva, ambos estudantes de pós-graduação no Programa de Bioengenharia conjunto da UC Berkeley e da UCSF. “É o que dá ao usuário o potencial, com o tempo, de se comunicar quase tão rapidamente quanto nós e ter conversas muito mais naturais e normais.”

Para criar a voz, a equipe desenvolveu um algoritmo para sintetizar a fala, que personalizaram para se parecer com a voz dela antes da lesão, usando uma gravação dela falando em seu casamento.

A equipe animou o avatar com a ajuda de software que simula e anima os movimentos musculares do rosto, desenvolvido pela Speech Graphics, uma empresa que cria animação facial baseada em IA.

Os pesquisadores criaram processos de aprendizado de máquina personalizados que permitiram que o software da empresa se conectasse aos sinais enviados do cérebro da mulher enquanto ela tentava falar e convertesse esses sinais nos movimentos do rosto do avatar, fazendo a mandíbula abrir e fechar, os lábios protruir e se apertar, a língua subir e descer, além dos movimentos faciais de felicidade, tristeza e surpresa.

“Estamos compensando as conexões entre o cérebro e o trato vocal que foram rompidas pelo acidente vascular cerebral”, disse Kaylo Littlejohn, um estudante de pós-graduação que trabalha com Chang e Gopala Anumanchipalli, PhD, professor de engenharia elétrica e ciências da computação na UC Berkeley.

“Quando o sujeito usou esse sistema pela primeira vez para falar e mover o rosto do avatar em conjunto, eu soube que isso seria algo que teria um impacto real.”

Um próximo passo importante para a equipe é criar uma versão sem fio que não exigiria que o usuário estivesse fisicamente conectado à BCI.

“Dar às pessoas a capacidade de controlar livremente seus próprios computadores e telefones com essa tecnologia teria efeitos profundos em sua independência e interações sociais”, disse o co-primeiro autor David Moses, PhD, professor adjunto de cirurgia neurológica.

Autores: Outros autores incluem Ran Wang, Maximilian Dougherty, Jessie Liu, Delyn Tu-Chan e Karunesh Ganguly da UCSF, Peter Wu e Inga Zhuravleva da UC Berkeley, e Michael Berger da Speech Graphics.

Financiamento: Esta pesquisa foi apoiada pelos Institutos Nacionais de Saúde (NINDS 5U01DC018671, T32GM007618), pela Fundação Nacional de Ciências e por doações filantrópicas. Com conteúdo do neurosciencenews.

Ler mais

Pacto entre o YouTube e a UMG para música protegida por inteligência artificial

A integração da inteligência artificial generativa ao sistema Content ID do YouTube aborda o desafio de proteger o conteúdo protegido por direitos autorais dos criadores em uma era de material gerado por IA, ao mesmo tempo em que abraça o potencial da inovação impulsionada por IA.

O YouTube revelou um plano estratégico para aprimorar sua sinfonia de proteção de direitos autorais – o Content ID. Essa mudança transformadora, que envolve a integração de ferramentas de IA generativa, tem como objetivo ampliar a harmonia entre os direitos dos criadores e a inovação tecnológica.

Se você ainda não sabe o que é o Content ID, aqui está uma explicação fornecida pelo YouTube.

O Content ID está evoluindo: IA e proteção de direitos autorais

O anúncio do YouTube de incorporar ferramentas de IA generativa ao seu sistema Content ID é nada menos que uma abertura sinfônica. Esse novo conjunto de tecnologia e proteção de direitos autorais tem como objetivo reescrever o livro de regras para identificar vídeos que ultrapassam os limites de conteúdo aceitável. Ao adotar a IA, o YouTube busca garantir que as melodias dos criadores não sejam abafadas pelo uso não autorizado, ao mesmo tempo em que aproveita o potencial do conteúdo gerado por IA para compor uma experiência online harmoniosa.

A motivação subjacente é clara – proteger os direitos dos criadores sem sufocar a inovação. Com a proliferação de conteúdo gerado por IA, um delicado equilíbrio deve ser mantido. O objetivo duplo do YouTube se assemelha à regência de uma sonata, onde a originalidade dos criadores ocupa o centro do palco, enquanto a IA complementa graciosamente a composição.

YouTube & UMG: Os princípios

Os esforços do Google no domínio da IA se assemelham a um maestro compondo uma obra-prima. Uma recente parceria com a Universal Music Group (UMG) destaca o compromisso do Google em criar um framework de IA em perfeita harmonia com objetivos compartilhados. Essa parceria, uma sinfonia de inovação, sugere as aspirações do Google em fomentar acordos únicos com a indústria da música, potencialmente dando origem a novas dimensões de direitos de propriedade intelectual.

Aqui estão os princípios que a Universal Music Group e o YouTube concordam em relação à IA:

  • A IA está aqui, e a abraçaremos de forma responsável, juntamente com nossos parceiros da música.
  • A IA está inaugurando uma nova era de expressão criativa, mas ela deve incluir proteções adequadas e abrir oportunidades para os parceiros da música que optam por participar.
  • Construímos uma organização líder na indústria em termos de confiança e segurança, juntamente com políticas de conteúdo. Vamos expandir essas medidas para enfrentar os desafios da IA.

Essa aliança sinfônica envia uma mensagem ressonante através da paisagem digital: dançar em sintonia com os algoritmos de busca do Google, abraçando uma nova era de compartilhamento de dados para o treinamento de IA, é fundamental. É um apelo aos compositores e criadores para harmonizarem sua arte com o coro da IA, produzindo composições encantadoras que ressoam em várias plataformas.

A revolução com IA no YouTube para proteção de direitos autorais em parceria com a UMG.
A revolução com IA no YouTube para proteção de direitos autorais em parceria com a UMG.

Artistas e IA

Nesta grande orquestração, o YouTube convocou um conjunto de luminárias da música – Anitta, Juanes, Ryan Tedder do OneRepublic e o legado do lendário Frank Sinatra – todos unidos sob a bandeira da UMG. Esses virtuosos desempenharão um papel fundamental na formação de experimentos com IA generativa e na pesquisa pioneira na plataforma. Suas contribuições ecoarão pelos corredores da evolução da música gerada por IA, criando uma sinfonia que mescla a arte humana e a inovação tecnológica.

A pergunta: Por que o Google de repente abraçou parcerias com gravadoras de música A resposta vem de um incidente cativante envolvendo música gerada por IA. A sensação de “Heart on My Sleeve”, uma composição com vozes geradas por IA dos titãs da música Drake e The Weeknd, harmonizou seu caminho para a luz. No entanto, o clímax foi interrompido pela intervenção da Universal Music Group, que exigiu sua remoção.

O desafio surgiu de um labirinto intrincado de complexidades de direitos autorais. Embora as vozes geradas por IA em si não sejam passíveis de direitos autorais, as melodias subjacentes certamente o são. A dança legal matizada, agravada por diversas leis estaduais, deixou a UMG em uma posição desafiadora. Os pedidos de remoção foram baseados na presença de elementos protegidos por direitos autorais, como a tag do produtor Metro Boomin.

O futuro

Em uma epístola digital, o maestro do YouTube, Neal Mohan, insinuou a próxima expansão do Content ID para o reino do “conteúdo gerado”. Embora envolto em um véu sinfônico de mistério, essa expansão promete uma cadência harmoniosa que ressoa tanto com os criadores quanto com a inovação impulsionada por IA. O clímax da IA identificando conteúdo gerado por IA está prestes a fortalecer o compromisso do YouTube em proteger a comunidade de espectadores, criadores, artistas e compositores.

Na grande sinfonia da IA e da música, a evolução do YouTube reflete uma progressão harmoniosa em direção à proteção dos direitos dos criadores enquanto abraça o futuro da inovação gerada por IA. À medida que a tecnologia e a criatividade compõem um dueto encantador, o cenário digital ecoa a promessa de um futuro harmonioso, onde melodias de legalidade e inovação ressoam em perfeita uníssono. Com informações do Dataeconomy.

Ler mais