A Biblioteca Nacional da Noruega conta, neste momento, com mais de 540 mil livros e mais de 2 milhões de jornais no seu arquivo. Estes conteúdos foram digitalizados em massa e processados para que seja possível o reconhecimento de caracteres, permitindo a pesquisa de termos. Nos últimos 12 anos, os responsáveis têm em mãos a tarefa de digitalizar tudo o que já tenha sido publicado no país, desde jornais, revistas, livros, posters, fotografias, filmes, transmissões de rádio e TV e até os sites registados no domínio nacional .no. Ao ritmo atual, os mentores prevêem terminar de digitalizar tudo em 30 anos.
Segundo a ZDNet, no início de setembro, a coleção contava com 8,1 petabytes de dados e crescia a um ritmo de 5 a 10 terabytes por dia.
A escolha por manter estes conteúdos online prende-se também com a necessidade de se adequar aos formatos. Neste momento, já teve de ser colocada em prática uma conversão em massa de 50 milhões de imagens, num processo que envolveu 10 servidores a operar 24 horas, sete dias por semana, durante três meses.
Todos os conteúdos são guardados em triplicado: uma versão num disco rígido e outras duas em fita, num sistema baseado em Oracle SAM-FS. A recuperação de um petabyte em tape demoraria semanas, segundo os responsáveis.
O próximo passo envolve digitalizar mais de cem mil emissões de rádio disponíveis em cassete, antes que os leitores necessários desapareçam do mercado.
A ZDNet lista a coleção completa de conteúdos digitalizados até agora:
- 2.000.000 newspapers, cerca de 40.000.000 páginas
- 540.000 livros, cerca de 80.000.000 páginas
- 700.000 páginas manuscritas
- 1.300.000 fotos
- 1.400.000 horas de transmissão de rádio
- 950.000 horas de transmissão de TV
- 55.000 músicas
- 16.000 filmes ou vídeos
- 24.800.000.000 páginas web