01 setembro 2008

Jornal "The Times" lança Arquivo Digital

"O site do jornal inglês "The Times" digitalizou 200 anos de seu acervo - de 1785, quando começou a circular, até 1985. O melhor de tudo é que todo o material está online, com exceção do período entre 1º de dezembro de 1978 e 12 de novembro de 1979, quando o jornal não foi publicado. É uma tremenda viagem no tempo, absolutamente viciante.
O acervo digital (anote logo: http://archive.timesonline.co.uk/tol/archive/) já contém cerca de 20 milhões de artigos, num total de 7,8 milhões de documentos únicos e mais de 35 milhões de imagens. Algumas das edições cujos originais em papel estavam danificados, mas que já estão em processo de restauração, ainda serão digitalizadas e incorporadas ao conteúdo online.

Tecnologia usada permite que conteúdo seja copiado
O plano é expandir o projeto, digitalizando também as edições de 1985 a 2005 do "Times" e as edições de 1822 a 2000 do "The Sunday Times", outro periódico da mesma empresa, a News International - que faz parte da gigante de mídia News Corp.

Nesta fase inicial, a oferta online está sendo gratuita, mas é preciso registrar-se. Embora o processo de registro no "Times" seja um tanto chato (é preciso fornecer dados como endereço, telefone etc, esperar a confirmação no email e completar mais um questionário), vale a pena adentrar o arquivo.
As páginas são vistas em sua tipografia original, há possibilidade de zoom, e o leitor pode salvar os artigos que forem de seu interesse.

Para que tudo desse certo, cada página do "Times" foi escaneada, passando depois por um processo de reconhecimento ótico de caracteres, vulgo OCR (Optical Character Recognition), que interpreta cada letra na versão impressa convertendo-a para um caractere codificado, transformando a imagem original de uma página impressa em um arquivo-texto convencional.
As páginas, escaneadas na íntegra, foram divididas em artigos, fotos, anúncios, cartas para o editor, além de registros de nascimentos, casamentos e óbitos. A parte textual dos artigos é indexada, permitindo que o arquivo inteiro seja encontrado por data e por palavra-chave. O texto pode ser aproveitado pelo usuário selecionando-o com o mouse e usando o velho copiar/colar (Ctrl C/Ctrl V).

A finalização do projeto promete ser uma tarefa bastante difícil em termos de volume de dados, pois as edições digitalizadas dos períodos mais recentes do "Times" vão consumir muito mais espaço em disco do que as mais antigas. Só os últimos 20 anos representam um conteúdo maior do que o dos 200 anos entre 1785 e 1985.

Segundo Anne Spackman, editora-chefe do Times Online (...) [esta] reconhece que haveria soluções mais baratas, mas afirma que a empresa queria o melhor resultado possível. O sistema utiliza um sofware para visualização de imagens, desenvolvido especialmente para a aplicação.
No processo de digitalização, os pontos críticos foram a qualidade e a consistência dos dados. Foram também criados scripts automatizados para verificação das imagens, utilizando a fina flor dos algoritmos de checagem. Apesar de inteiramente automatizados, esses scripts levaram quase um mês para checar todas as imagens.

Escanear documentos antigos exigiu muito cuidado
Alguns dos documentos originais são muito velhos, frágeis e valiosos. Foram necessários muito cuidado e experiência para escaneá-los e etiquetá-los, num processo que durou quase seis meses, com recursos técnicos baseados em Londres, Índia e Israel, para coordenar a digitalização e o reforço de qualidade final do processo de OCR.

No que tange ao armazenamento das imagens, os requisitos de espaço eram tão imensos que os ambientes de testes e implementação se tornaram altamente complexos. Mas o desafio foi vencido pela divisão de TI da News International. O site alocou servidores de imagens inteiramente dedicados à publicação online das fotos e bitmaps do arquivo. Além disso, foram usados os mais modernos algoritmos de compressão de imagens. Coisa finíssima.
Boa parte do arquivo online se baseia em registro e restrições de acesso, de modo a garantir os direitos de propriedade intelectual. Foi desenvolvida internamente toda a tecnologia de personalização que permitiu acesso controlado ao acervo. Afinal, cada documento da base de dados exige autenticação individual para determinar se um usuário pode ou não ter acesso a determinado conteúdo.

Para professor internet é ferramenta fundamental de pesquisa
Para Marcello Rangel, professor de História e coordenador setorial do Instituto Gay-Lussac, a iniciativa do britânico "Times" é fantástica. Ela mostra como a internet se tornou uma ferramenta de pesquisa fundamental para cientistas e historiadores.
" A historiografia avançou muito, e a academia já aceita tais fontes digitais "
- Já não é mais necessária a atitude positivista de ter que segurar nas mãos o original do documento histórico - diz Marcello. - A historiografia (a maneira como se compreende e escreve a História) avançou muito, e a academia já aceita tais fontes digitais. Naturalmente, pesquisar em jornais é uma parte do trabalho. O ofício do historiador é verificar a alteridade dos fatos (por exemplo, como o português vê o índio e como o índio vê o português), estudar diversos tipos de documentos e assim fazer a reconstituição da História.
Marcello cita outros arquivos presentes na internet, que a gente aqui consultou e ficou absolutamente surpreso. São ótimas fontes, como o Rare Maps ( raremaps.com ), o sistema de bibliotecas da Unicamp ( http://www.uni%20camp.br/bc/ ), a Biblioteca Virtual do Estudante Brasileiro ( bibvirt.futuro.usp.br/textos ), o Projeto Gutenberg ( gutenberg.org ) e o Archive Org, de páginas web ( .archive.org , que guardaria inclusive versões antigas de sites - 85 bilhões deles).

Entre os jornais, o "New York Times" tem uma seção livre de busca entre 1851 e 1890 e entre 1981 e 1987 (depois, é paga), em tinyurl.com/avxq6 . O "Los Angeles Times" parte de 1881 (em tinyurl.com/alvaa ). Já o francês "Le Figaro" tem as edições de 1826 a 1942 listadas em tinyurl.com/6kek82 e se dá ao luxo de ter um arquivo separado para o seu suplemento literário, em http://tinyurl.com/6sxetp , entre 1876 e 1929.

Embora a iniciativa do "The Times" seja a mais abrangente de um jornalão de renome internacional, arquivos ainda mais antigos estão disponíveis online. É o caso do jornal local "Hartford Courant", do estado americano de Connecticut, que regride até o longínquo ano de 1764 ( tinyurl.com/pmknk ). Não tem nada de muito interessante para o pesquisador brasileiro, mas não deixa de ser um prato cheio para os curiosos de plantão (categoria de que fazemos parte).

No caso do grandioso trabalho de digitalização e oferta online do acervo do "Times", uma das mais difíceis decisões estratégicas do projeto foi quanto ao modelo de negócio, mais especificamente na escolha de como o serviço seria cobrado - ou, mesmo, se não seria - já desde o início da operação. Uma opção seria um serviço grátis para o usuário e patrocinado por anúncios, a outra seria funcionar por assinatura paga.
Essa questão foi fundamental na arquitetura do projeto e na implementação da solução, já que o modelo de preço afeta a popularidade do site. E isso tem decisivo impacto nas exigências tecnológicas e arquiteturais do sistema.
Esse debate também levou em conta o valor dos mecanismos de busca, os métodos de proteção da propriedade intelectual, o potencial de captar e remunerar anunciantes e patrocinadores, a possibilidade de capturar mais ou menos dados dos internautas visitantes e, por fim, o próprio preço da assinatura, caso fosse essa a opção escolhida. (...)"

Fonte: O Globo Online 11/08/2008
A título de curiosidade, fiz uma pesquisa utilizando ´Portugal´e o período de tempo mínimo e máximo permitido para a mesma (1785-1985). Os resultados? Fascinantes para quem gosta de história, da nossa história! Experimentem....

Sem comentários: