Se não é possível treinar inteligência artificial sem violar direitos de autor, qual é o caminho?

Cristina A. Ferreira

8 fev 2024 11:19

Este artigo tem mais de 2 anos

Hoje não há forma de treinar grandes modelos de inteligência artificial sem infringir direitos de autor, admitem as próprias empresas do sector. Mas há caminhos a serem desenhados (ou pelo menos debatidos) para responder a esta e outras questões, como saber se um obra criada por IA pode/deve ser protegida por direitos de copyright.

Nos últimos meses têm-se sucedido os processos judiciais contra empresas como a OpenAI, dona do ChatGPT, por causa do treino dos modelos de inteligência artificial. Primeiro foram os autores, com destaque para vários nomes conhecidos, onde se incluiu George RR Martin, autor de A Guerra dos Tronos.

Já este ano soube-se que há um processo que também lista obras de autores portugueses, usadas sem consentimento dos próprios para treinar modelos de IA. São referidas obras de 16 mil autores usadas para treinar modelos que servem plataformas como o Midjourney. Na lista divulgada no início do ano estão referências a 4.700 artistas, incluindo Add Fuel (Diogo Machado), Jorge Jacinto, Nadir Afonso, Regina Pessoa ou Vhils (Alexandre Farto).

Nos media surgiram igualmente processos, como o do The New York Times, que avançou para a justiça contra a OpenAI, a meio de um processo negocial com a dona do ChatGPT para definir um modelo de remuneração para a utilização dos seus conteúdos. O mesmo tipo de acordos têm aliás sido negociados com vários grupos do sector e com vários autores.

Este é um caminho que pode ajudar a criar alguma conciliação entre autores e empresas de tecnologia, mas que demoraria anos para ser feito, tendo em conta a forma como os modelos que servem a IA generativa são treinados e a quantidade de dados que usam. Ao tempo necessário para identificar todos os autores a compensar, há que juntar meios para o fazer, técnicos e financeiros.

A OpenAI é uma das empresas que tem feito vários acordos neste sentido, e que se assume convencida de não ser possível treinar grandes modelos de IA sem usar material protegido por direitos de autor e a razão é simples. Numa carta ao Parlamento britânico, a empresa lembrava que o direito de autor “cobre virtualmente todo o tipo de expressão humana - incluindo publicações em blogs, fotografias, publicações em fóruns, código de software e documentos governamentais”.

“Limitar as fontes de informação disponíveis para o treino dos grandes modelos de linguagem (LLM) a livros ou desenhos do domínio público, criados há mais de um século, pode resultar numa experiência interessante, mas não vai dar aos sistemas de AI o que precisam para responder às necessidades do cidadão atual”, admitia o esclarecimento.

Parece que chegámos então a uma encruzilhada. Qual é a saída? Não há respostas fáceis, mas há algumas luzes ao fundo do túnel. Antes de lá chegarmos, falemos do problema.

“Existe uma corrida ao ouro no desenvolvimento de modelos de inteligência artificial, sobretudo para a IA generativa, e estes modelos dependem de um treino muito baseado no uso massivo de dados”, lembra Eduardo Magrani, consultor sénior da CCA Law.

Recorrem a técnicas de data mining ou de scraping que fazem a prospeção de texto e dados para extrair novos conhecimentos e informações a partir de conteúdos já existentes e vasculham a internet sem fazer uma seleção rigorosa de repositórios específicos e da fonte dos conteúdos aos quais têm acesso.

“À semelhança do que sucede com os seres humanos, os sistemas de IA não nascem ensinados; ‘aprendem’ a criar determinados conteúdos”, mas “ao contrário dos seres humanos, não usam a veia criativa para o fazer”, sublinha Vítor Palmela Fidalgo, diretor jurídico da Inventa, consultora especializada em propriedade intelectual. Aprendem através da tal prospeção de dados, como ilustra o famoso quadro The Next Rembrandt, gerado por tecnologia de impressão 3D. A obra é o resultado de um algoritmo que analisou quase 170.000 fragmentos das obras de Rembrandt armazenados num banco de dados, num processo que durou em torno de 18 meses e que também analisou toda a informação disponível sobre a personalidade do autor.

Veja aqui o vídeo que explica o projeto The Next Rembrandt

Nem todos os modelos de IA são treinados da mesma forma, nem com o mesmo impacto em conteúdo protegido. Muito depende da abrangência e da qualidade dos dados, mas a lógica de prospeção de dados em ambiente aberto dos modelos de IA generativa podem com maior probabilidade implicar o acesso a conteúdos protegidos por direitos de autor e a grande questão é perceber se essa operação constitui ou não uma reprodução lícita da obra.

“A eventual necessidade de autorização do titular de direito de autor coloca vários problemas aos que pretendem desenvolver este tipo de inovação, seja a questão da remuneração devida, seja a identificação do (significativo) reportório de obras e titulares de direitos em causa”, lembra Vítor Fidalgo da Inventa.

Europa vs Estados Unidos

Europa e Estados Unidos têm abordagens diferentes ao direito de autor, mas nenhuma delas está pronta para responder aos desafios que a evolução da inteligência artificial veio trazer e, como já aconteceu em vários momentos da história, inovação e direitos estabelecidos parecem estar de costas voltadas. Em ambas as regiões do globo as obras de domínio público, sem direitos associados ou que já expiraram podem ser usadas sem grandes restrições. Para todas as criações protegidas por direitos de copyright há limitações ao uso, mas também exceções a essas limitações.

Nos Estados Unidos aplica-se o princípio do fair use para as exceções, na Europa há uma quadro mais fechado. “O fair use é uma regra muito mais flexível que o modelo europeu. O modelo europeu, que também vigora em Portugal, é um modelo de usos livres que já determina à priori que tipos de usos estão permitidos [...] e se não está previsto no sistema de exceções, em princípio depende de uma autorização expressa do autor”, explica Eduardo Magrani. “O sistema americano não tem essas exceções tão definidas e fechadas”. Ainda assim, todos os processos judiciais que têm sido movidos no país contra empresas de tecnologia sustentam que a regra do fair use não cabe no treino de modelos de IA.

Na Europa parece existir um consenso em relação à necessidade das operações de treino de modelos, que durante esta prospeção de dados contactam com material protegido por direitos de autor, precisarem de uma validação do titular desses direitos. Por causa disso, explica Vítor Fidalgo, em 2019 a Diretiva de direitos de autor no mercado digital estabeleceu uma nova exceção, que lida diretamente com a prospeção de dados. No entanto, esta exceção só se aplica às reproduções de obras protegidas por direitos de autor para fins de investigação científica, realizada por organismos e instituições responsáveis pelo património cultural. Há ainda uma outra exceção, de âmbito mais geral, também ela limitada e que só se aplica “na medida em que os titulares de direitos não tenham reservado a utilização dos conteúdos de forma adequada. Em outras palavras, dá aos titulares de direitos de autor a faculdade de estabelecer um opt out, que, naturalmente, a maior parte deles não o
fará”.

A grande dúvida que se tem colocado é se esta medida é a que mais convém à inovação no âmbito da inteligência artificial. “Nos EUA, está a ser discutido se este tipo de utilização caí no âmbito do fair use, que constitui uma cláusula geral – inexistente no direito europeu – que permite acomodar, com bastante latitude, as diversas exceções aos direitos de autor". Caso a solução avance no sentido de se considerar uma exceção geral à proteção por direitos de autor, Vítor Fidalgo acredita que a “União Europeia poderá achar-se em desvantagem nesta matéria, não atraindo a principal indústria do ramo”.

“O pêndulo de inovação vs direitos de autor exige um equilíbrio complexo que não tem uma resposta óbvia e vai depender do olhar de cada país, de cada regulador, de cada sistema judicial”, sublinha também Eduardo Magrani.

Países como o Japão optaram por uma abordagem diferente, que passa pela criação de um Safe Harbour, uma atualização às leis de direito de autor para permitir que modelos de IA sejam treinados com material protegido por direitos de copyright. Acredita-se que a fórmula vai ajudar a acelerar a inovação nesta área crítica hoje para qualquer país, dando às empresas uma salvaguarda legal para atuarem e removendo a incerteza jurídica, explica o mesmo responsável. Há outros modelos que podem entrar na equação para ajudar a equilibrar os dois pratos da balança, como a utilização de repositórios com licenças creative commons, como usa a Wikipedia, lembra também Magrani.

AI Act vai apertar o cerco às violações de direitos de autor

Entretanto na Europa, o AI Act continua em marcha e vai trazer para o mercado europeu uma série de disposições legais para enquadrar o desenvolvimento e uso de sistemas baseados em IA. Os requisitos de transparência são um dos pilares do regulamento e vão obrigar as empresas a fazer prova de que o treino dos modelos de IA está alinhado com a legislação da região nas suas diversas áreas, incluindo direitos de autor.

“Ao exigir maior transparência e níveis de compliance mínimos aos modelos de IA generativa com o AI Act, a Europa está também a passar um recado a este nível e a indicar que terá de haver maior clareza sobre o tipo de material que é usado no treino dos modelos”, lembra Eduardo Magrani.

O impacto real da medida só será atestado quando a nova legislação estiver em vigor. Acredita-se que venha dar um contributo fundamental para “limpar” o mercado e começar a balizar um conjunto de áreas que hoje são cinzentas. Ainda assim, mantém-se a expectativa para perceber em que medidas as empresas mais pequenas terão capacidade para inovar e cumprir todos os requisitos, mesmo considerando que o pacote foi sofrendo alguns ajustes para acautelar a disparidade de recursos e meios entre uma Microsoft e uma startup acaba de nascer, por exemplo. “Temos vários clientes [que trabalham com IA] preocupados com as exigências de compliance que aí vêm e se isso pode prejudicar o seu negócio e inovação”, admite Eduardo Magrani.

Obras criadas por IA devem (ou vão poder) ser protegidas por direitos de autor?

Em paralelo a esta questão, os desenvolvimentos mais recentes da IA trouxeram para o debate outro tema de fundo: a quem devem ser atribuídos os resultados dos sistemas de inteligência artificial, quem deve ter direitos?

O direito não foi pensado para a era da inteligência artificial. Não foi pensado para regular obras criadas por robots, mas obras criadas por humanos e como tal o fator criatividade é determinante nesse processo. “O princípio está a ser desafiado porque a tecnologia evoluiu ao ponto dos humanos estarem a produzir em conjunto com as máquinas obras muito criativas em todos os ramos do entretenimento”, destaca o consultor da CCA Law, chamando a atenção para as novas interpretações que começam a surgir sobre este ponto.

Alguns especialistas defendem que se existe um mínimo componente humano na criação do software, ou na organização das informações geradas pela máquina, faz sentido que as obras sejam protegidas por copyright, até por uma questão de valor patrimonial. “Existe um interesse muito grande que essas obras tenham essa proteção, para que permitam a exploração económica e os mais diversos contratos a partir dessa proteção”. Mas o tema é, mais uma vez, polémico.

“Os direitos de propriedade intelectual, como é o caso dos direitos de autor, são concedidos a humanos devido ou ao seu trabalho, à sua personalidade ou ao seu contributo para enriquecer a sociedade. Não havendo envolvimento humano em termos de esforço intelectual, em princípio, não deverão ser atribuídos direitos de autor. A criação gerada por inteligência artificial deverá, assim, permanecer no domínio público”, defende Vítor Fidalgo.

O mesmo responsável questiona o sentido de atribuir direitos a entidades que não têm qualquer incentivo para gerar obras criativas, se a atribuição destes direitos está relacionada com determinados objetivos e não “existem nestes casos quaisquer razões para retribuir um sistema de inteligência artificial, já que este não responde a quaisquer incentivos”.

Nesta perspetiva, qualquer personalidade jurídica atribuída a sistemas de inteligência artificial será sempre meramente jurídica, “porque se as pessoas são o princípio e o fim do Direito, o Direito limita-se a constatar a existência de personalidade jurídica no ser humano”. “Mesmo que haja um nível elevado de autonomia dos sistemas de inteligência artificial, nunca poderemos considerar existir um direito de personalidade inerente a estes”, frisa ainda Vítor Fidalgo, distinguindo autonomia de liberdade. “Ao contrário dos outros seres, ao ser humano foi dada a possibilidade de conformar a sua própria natureza, dentro do âmbito da sua liberdade. Um ser a quem foi dada autonomia, nunca será livre, e, não sendo livre, nunca poderá ser titular de direitos, como é o caso dos direitos de autor”.

Este artigo integra um Especial que o SAPO TEK está a publicar ao longo desta semana sobre O lado "menos bonito" da inteligência artificial.

Em destaque

Últimas

Casa dos Bits · Opinião · 4 mar 2026 19:17

2% do capital, o dobro da performance: O paradoxo das fundadoras em tech
Casa dos Bits · How To Tek · 4 mar 2026 18:35

Como identificar óculos inteligentes à sua volta para proteger a privacidade

por Gustavo Dias
Casa dos Bits · Telecomunicações · 4 mar 2026 17:59

Telecomunicações: Medidas para proteger consumidores afetados pelas tempestades já estão em vigor
Casa dos Bits · Computadores · 4 mar 2026 16:15

Modulares, com imagens 3D e mais inteligentes: assim são os portáteis e consolas que a Lenovo mostra no MWC26

por Fátima Caçador
Casa dos Bits · Negócios · 4 mar 2026 15:51

Europa foi o segundo maior mercado em volume de vendas de televisores nos últimos três meses de 2025

por Cristina A. Ferreira
Casa dos Bits · Computadores · 4 mar 2026 14:48

MacBook Neo: Apple apresenta o primeiro Mac abaixo de 700 euros

por Gustavo Dias

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Se não é possível treinar inteligência artificial sem violar direitos de autor, qual é o caminho?

Europa vs Estados Unidos

AI Act vai apertar o cerco às violações de direitos de autor

Obras criadas por IA devem (ou vão poder) ser protegidas por direitos de autor?

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Se não é possível treinar inteligência artificial sem violar direitos de autor, qual é o caminho?

Deepfakes com imagens sexuais alastram em Portugal. Autores são muitas vezes conhecidos

Europa vs Estados Unidos

Europa avança com pacote para acelerar inteligência artificial na região e preparar chegada do AI Act

AI Act vai apertar o cerco às violações de direitos de autor

Regulação para a IA na Europa: entre elogios ao equilíbrio da proposta e preocupações com a aplicação e falta de profundidade

Obras criadas por IA devem (ou vão poder) ser protegidas por direitos de autor?

“Vamos ter cada vez mais obras de arte feitas com IA e vamos gostar muito"

Veja mais sobre

O lado "menos bonito" da inteligência artificial: Como estamos a lidar com os desafios (ainda) sem resposta que a tecnologia trouxe?

Veja também

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Comentários

Veja também