SER Blog  Casos de éxito y Soluciones

Sanitización de PDF

Algunos documentos contienen información confidencial que no está destinada a todo el mundo. En los documentos en papel, puedes utilizar un rotulador negro para eliminar esta información y, de la misma manera, en el caso de los documentos digitales existen funciones de software que te permiten sanitizar textos y pasajes concretos.  

En este artículo, te mostraremos cómo sanitizar documentos digitalmente y proteger la información confidencial que contienen.

¿Qué es la sanitización de documentos?

Cuando hablamos de sanitizar un documento, nos referimos a hacer indetectable la información confidencial. Normalmente, en los documentos físicos, los textos, imágenes o información afectados se cubren con un campo negro para que dejen de ser visibles. En el caso de los documentos digitales, también es importante eliminar la capa de texto subyacente.  

Una alternativa a la sanitización es la seudonimización del contenido. De este modo, los nombres personales, por ejemplo, se sustituyen por nombres de marcador de posición. Pero este artículo no trata ese tema.

¿Por qué se sanitizan los documentos?

La finalidad de sanitizar un documento es mantener la información en secreto, porque puede que no todo el mundo esté autorizado a leer todo el contenido. Sanitizar un documento garantiza que solo sean legibles las partes que no contienen datos confidenciales.  

En este sentido, los datos secretos son información que debe tratarse de forma confidencial y a la que solo puede acceder un grupo específico de personas. Los acuerdos de confidencialidad, por ejemplo, indican qué información de los documentos debe ocultarse.  

Otros ejemplos son:  

  • Los secretos comerciales  
  • Los datos personales confidenciales, como los datos sanitarios  
  • Los derechos personales, por ejemplo, para víctimas y victimarios

Sanitizar documentos: así se hace

Existen tres formas de sanitizar documentos:  

1. Papel y rotulador  

Puedes sanitizar documentos en papel utilizando un rotulador, un permanente o cualquier otro instrumento de escritura que tenga un color opaco. A continuación, se suele escanear el documento sanitizado para poder digitalizarlo. A veces, sin embargo, algunas zonas siguen siendo legibles porque la opacidad es demasiado baja y el texto se transparenta. Puedes solucionar este problema imprimiendo de nuevo el documento y volviendo a tacharlo y escanearlo.  

2. Sanitizar PDF de imagen  

Puedes sanitizar archivos de imagen, como un documento escaneado, mediante un programa de edición de imágenes. Es importante que el archivo sea un formato exclusivamente de imagen, sin ninguna capa de texto. En este caso, la barra negra del programa de edición de imágenes es suficiente para ocultar las secciones deseadas de la imagen. Finalmente, no olvides guardar tu archivo sanitizado.

3. Sanitizar PDF de texto  

Sanitizar archivos PDF de texto no es tan fácil: necesitas un programa especial para ello, como Adobe Acrobat. Sin embargo, y esto es importante, si solo sobrescribes el texto del documento PDF con un campo negro utilizando la versión gratuita del software, estarás compartiendo datos confidenciales, ya que el texto que queda debajo del campo negro se puede seguir copiando, lo que lo hace visible para todo el mundo con solo unos clics.  

La versión de pago de Adobe Acrobat sí que sanitiza los textos y elimina la capa situada detrás del campo negro mencionado, lo que garantiza que el contenido no pueda ser detectado.

Sanitizar documentos en el DMS

Además de Adobe Acrobat, hay muchas otras soluciones de software que permiten sanitizar documentos, como, por ejemplo, un sistema de gestión documental (DMS).  

En el DMS puedes gestionar todos tus documentos de forma centralizada, desde su creación hasta su archivado a largo plazo. Asimismo, el DMS también ofrece un archivo digital que, idealmente, facilita el archivado a prueba de auditorías. Las empresas que utilizan un DMS de última generación como Doxis también pueden sanitizar sus documentos directamente en el sistema antes de compartirlos.

Sanitización en Doxis: un secreto al alcance de tu mano

Supón que quieres anonimizar un documento. Para ello, Doxis te permite utilizar la funcionalidad «Sanitizar». De esta manera, puedes sanitizar el texto manualmente, basándote en búsquedas o mediante IA.

Hola, Doxi, ¿cómo funciona la sanitización en Doxis?

  • Manualmente: arrastra un campo negro sobre el área que quieras sanitizar.  
  • Basándote en búsquedas: combina la función de búsqueda con la de sanitización buscando una ocurrencia concreta, como todas las de «Fernando Fernández», y haciendo luego clic en «Sanitizar ocurrencias encontradas».  
  • Mediante IA: el reconocimiento de nombres te proporciona una visión general agrupada de, por ejemplo, todos los nombres, números y organizaciones. Con un simple clic puedes empezar a sanitizar elementos.

En los casos más complejos, la opción más recomendada es la de utilizar la búsqueda asistida mediante inteligencia artificial. Esta sería la opción de preferencia cuando necesitas sanitizar todas las personas o todas las cantidades de dinero de un documento, ya que la sanitización manual o basada en búsquedas llevaría demasiado tiempo.  

¿Quién ve las versiones sanitizadas o no sanitizadas?

En Doxis, que veas un documento en versión sanitizada u original depende de tus derechos de acceso. Doxis trabaja con representaciones de documentos, es decir, documentos que, como podrían ser los contratos, se encuentran en diferentes versiones en un objeto de contenido.  

  1. Representación: el contrato como documento Word  
  2. Representación: el contrato como archivo PDF  

La versión PDF se utiliza, por ejemplo, para compartir el documento con terceros. De este modo, para sanitizar la información de cara a partes externas, Doxis crea una tercera representación. Ahora, dispondrías de tres versiones del mismo documento de contrato:  

  1. Representación: el documento Word, aún modificable  
  2. Representación: la versión en PDF no sanitizada del documento Word  
  3. Representación: el archivo PDF sanitizado  

En teoría, es posible ir cambiando entre las tres representaciones, pero esta función solo está disponible para los empleados autorizados, ya que las representaciones individuales están vinculadas a autorizaciones que se almacenan en Doxis. De este modo, el departamento de RR. HH. puede acceder a las tres representaciones, los empleados propios solo pueden ver la versión en PDF no sanitizada y los empleados de terceros solo pueden acceder a la versión sanitizada.  

¿Se borran solamente los datos bajo el campo negro, o todos ellos?

Desde fuera, todos los contenidos sanitizados parecen iguales. Sin embargo, desde dentro, hay dos maneras de ocultar el contenido en Doxis:  

  • Doxis solo elimina del documento el texto sanitizado. El resto de la capa de texto permanece intacta y las personas con las que compartas el documento podrán seguir buscándolo en el texto completo.  
  • Doxis transforma el documento en una imagen, página por página, superponiendo campos negros a la información confidencial (100 % de opacidad). Tras esta transformación, ya no quedará ninguna capa de texto en el documento.

Guía de gestión documental

Esta guía práctica te ayudará a encontrar e implementar el DMS que mejor se adapte a ti. Además, incluye checklists, casos reales y más.

Leer ahora

Sanitiza documentos por lotes

Lo más cómodo es utilizar la función para sanitizar documentos por lotes. Esto evita que tengas que revisar manualmente un documento tras otro. En lugar de eso, solo tienes que marcar los documentos que quieres sanitizar y Doxis inicia el proceso. El sistema se encarga de sanitizar automáticamente las partes relevantes del documento, sin necesidad de que hagas nada más. Esta opción está disponible para puntos de datos seleccionados, como nombres, lugares, números, direcciones de correo electrónico, etc., y se basa en la IA.  

Sin embargo, como aquí también pueden colarse errores, te aconsejamos que compruebes los resultados antes de enviarlos a terceros cuando se trate de documentos especialmente críticos.  

La sanitización protege el contenido confidencial

Para sanitizar pasajes de un documento, utiliza un rotulador permanente o herramientas digitales como Doxis que cuentan con esta función. Esto te ayuda a que los fragmentos de texto secretos sean indetectables para terceros no autorizados. Asimismo, es muy importante que el contenido sanitizado ya no pueda copiarse. De lo contrario, este contenido seguirá siendo legible. Con Doxis puedes gestionar archivos de forma segura, tanto si están sanitizados como si están en su forma original. Los usuarios solo ven la representación de un archivo a la que tiene acceso.

Sanitizar documentos: preguntas frecuentes

¿Para qué sirve sanitizar documentos?
El objetivo de sanitizar documentos es proteger la información confidencial ante accesos no autorizados. Las áreas sanitizadas aseguran que los lectores solo ven la información del documento que se comparte con ellos.
¿Cómo puedo sanitizar un documento?
Puedes sanitizar documentos en papel utilizando un rotulador opaco que no se pueda borrar. Digitalmente, los documentos pueden sanitizarse utilizando programas que eliminan la capa de texto y dibujan una barra negra sobre este.
¿Se pueden restaurar los PDF?
El contenido sanitizado no suele ser recuperable. Algunos programas tienen una función de eliminación de la sanitización. De todos modos, esto debe tratarse con precaución, ya que el contenido puede ser leído por terceros si el documento se ha compartido directamente.