Foi disponibilizado no repositório da infraestrutura PORTULAN CLARIN a Coleção de Documentos Literários em Língua Portuguesa, um corpus de textos literários escritos em língua portuguesa que, na sua versão original, incluem perto quatro milhões de palavras de um total de mais de 200 documentos integrais pertencentes a 83 autores de 14 géneros diferentes, abrangendo um período temporal que vai desde o séc. XVI e se estende até ao séc. XXI.
Muitos dos textos que integram este corpus foram analisados automaticamente com recurso a avançadas ferramentas de processamento da linguagem, constituindo um subcorpus da Biblioteca Digital do Camões, I.P. de inestimável valor para a investigação em tecnologia da linguagem (como deteção de direitos de autor, classificação de género, etc.) e em ciência da linguagem e Humanidades digitais (como a Literatura Comparada, Linguística Diacrónica, etc.)
A investigação que teve por base a construção do presente corpus teve o apoio do Camões, I.P. e da PORTULAN CLARIN— Infraestrutura para a Ciência e Tecnologia da Linguagem, financiada pelo Lisboa 2020, Alentejo 2020 e FCT— Fundação para a Ciência e Tecnologia, subvencionada através do PINFRA/22117/2016.
O corpus encontra-se disponibilizado no repositório da infraestrutura PORTULAN CLARIN, podendo ser acedido aqui