5.3 EXTRACCIÓN DE META-DATOS
5.3.1 Antiword
Microsoft Word solamente existe en plataformas soportadas por el mismo Microsoft. En otras plataformas, leer un archivo Word es normalmente difícil, algunas veces caro y a menudo imposible.
Antiword [34] es un lector gratuito de MS Word para Linux y RISCOS. Hay otras versiones para FreeBSD, BeOS, OS/2, Mac OS X, Amiga, VMS, NetWare, Plan9, EPOC, Zaurus PDA, MorphOS, Tru64/OSF y DOS. Antiword convierte archivos binarios de Word 2, 7, 97, 2000, 2002 y 2003 a texto plano y a PostScript.
El nombre viene de:“ANTIdoto contra las personas que envían ficheros Word a todo el mundo, ya que ellos creen que todo el mundo usa Windows y por tanto utiliza
WORD”
5.3.2 Catdoc y XLS2CSV
Catdoc[35] es un programa que lee uno mas ficheros Word y muestra el texto que contiene en la salida estándar. Por tanto, hace el mismo trabajo con los ficheros .doc como el comandocatpara los ficheros de texto plano ASCII.
Se acompaña dexls2csv,programaque convierte hojas de cálculo Excel en ficheros con valores separados por comas y la herramientacatppt,utilidad para extraer el texto de ficheros PowerPoint.
xls2csvno extrae ningún formato ni fórmulas. El concepto es que podamos ver los datos y no laforma en que fueron creados.
•Plataformas Soportadas
Unix. Catdoc se desarrolló inicialmente para Linux y Sparc Solaris.
MS-DOS. Catdoc también funciona sobre MS-DOS, incluso en máquinas XT. Para MS-DOS se proporcionan ejecutables compilados en modo 16 bits. No existe soporte para Windows.
5.3.3 Jhead
Este programa [36] muestra o modifica datos Exif en ficheros JPEG.
Cosas que jhead puede extraer del Exif:
Fecha y hora en la que se creó la fotografía
Marca y modelo de la cámara
Thumbnails integradas de baja resolución
Velocidad de disparo de fotos
Flash usado (si/no)
Distancia a la que se enfocó la cámara
Longitud focal y calcula la longitud focal equivalente en 35mm.
Resolución de la imagen
Información GPS, si está almacenada en la imagen.
Cosas que jhead puede modificar del Exif:
Establecimiento de marcas de tiempo
Trasferir cabeceras Exif entre imágenes
Reemplazar los thumbnails dentro de las cabeceras Exif
Editar comentarios jpegs (pero no los comentarios Exif)
Borrar la información Exif
Crear una nueva cabecera Exif que contenga fechas y thumbnails
5.3.4 VINETTO
Esta herramienta [37] examina los ficheros Thumbs.db. Consiste en un script en Python para línea de comandos que trabaja en Linux, Mac OS X y Cygwin(win32).
•Un intento de tipología
Esta tipología constituye un intento de clasificar los thumbnails de acuerdo a la forma en que los sistemas operativos Microsoft los almacenan en ficheros Thumbs.db.
Formato de Thumbnails dentro del fichero | _Observaciones_y | Thumbnail | _Thumbnail recuperado_por |
---|---|---|---|
Tipo 2 | Estos thumbnails de Tipo 2 se almacenan como fichero estándar | ![]() |
![]() |
Tipo 1b | Los thumbnails de Tipo 1b consisten en un stream de datos en bruto RGBA JPEG: no tienen cabecera estándar, ni tabla Huffman ni tabla de cuantización. | ![]() |
![]() |
Tipo 1a | Los thumbnails de Tipo 1b consisten en un stream de datos en bruto RGBA JPEG: no tienen cabecera estándar, ni tabla Huffman ni tabla de cuantización. Sin embargo, los tipos 1a y 1b no son idénticos. | ![]() |
![]() |
Nota : (*) Un fichero estándar JFIF comenzará siempre con los cuatro bytes hexadecimales FF D8 FF E0, seguidos de dos bytes variables (a menudo 00 10), seguidos de 'JFIF'.
5.3.5 Word2x
Word2x [38] es un programa con licencia pública y gratuito para convertir documentos Word en texto sin usar software Microsoft. Actualmente soporta los formatos de salida: texto plano, LaTeX y HTML. El programa convierte Word a un formato central y posteriormente se pasa al formato deseado.
Los entornos en los que trabaja incluyen:
RS6000 con el sistema AIX (Unix)
cygwin32 (Plataformas win 32 de Microsoft)
DEC Alpha AXP bajo OSF/1 (Unix)
IBM SP2 (Unix)
Linux (Unix)
SunOS (Unix)
gcc sobre Solaris (unix)
FreeBSD (Unix)
SGI (Unix)
OS/2 y EMX.
Los entornos en los que NO trabaja incluyen:
acc sobre Solaris
Microsoft Visual C++
Borland C++
5.3.6 WvWare
Este software [39] extrae metadatos de varios ficheros Microsoft Word (.doc) a otros formatos como texto plano o HTML.
Consiste en una librería que permite el acceso a ficheros con formato Word 2000,
97, 95, 9, 8, 7 y 6. Compila en la mayoría de los sistemas operativos, incluyendo Linux, BSD, Solarios OS/2, AIX, OSF1 y en Amiga VMS. También hay soporte para Windows en 32 bits.
Podemos convertir un fichero Word a los formatos: HTML 4.0, LaTeX, DVI, PS, PDF, texto plano, WML, RTF, e incluso podemos ver un resumen de los metadatos incluidos en documento.
5.3.7 XPDF
Xpdf [40] es un visor de código abierto para ficheros PDF (Portable Document
Format), también llamados documentos “Acrobat” por el nombre del software PDF de
Adobe. El proyecto Xpdf también incluye un extractor de texto PDF, un conversor de
PDF a PS (PostScript) y otras utilidades comopdfinfoque muestra los metadatos de un fichero PDF.
Xpdf funciona bajo el Sistema Windows X sobre UNIX, VMS, y OS/2. Xpdf está diseñado para ser pequeño y eficiente y puede usar fuentes Tipo 1, TrueType o fuentes estándar X.
5.3.8 Metadata Assistant
[41] Extrae metadatos de ficheros Word/Excel/PowerPoint (97 y mayor). Se integra con Outlook 2000, GroupWise y Lotus Notes así como con sistemas de gestión de documentos. Además limpia y convierte los ficheros a formato PDF para una protección adicional.