Comment convertir un PDF en CSV

Équipe de marketing discutant du nouveau plan de travail

Crédit d'image : littlehenrabi/iStock/GettyImages

Des fichiers au format de document portable (PDF) peuvent être trouvés partout sur Internet, utilisés pour tout distribuer, des rapports d'entreprise aux formulaires fiscaux. Ils sont faciles à afficher et à imprimer sur toutes sortes d'appareils et à transférer par le Web ou par courrier électronique. Mais lorsqu'il s'agit de certaines opérations, en particulier les opérations sur les feuilles de calcul, les fichiers PDF peuvent être difficiles à utiliser. Heureusement, il existe des outils pour convertir les données des fichiers PDF au format de valeurs séparées par des virgules utilisable par de nombreux tableurs, connu sous le nom de CSV, ou en fichiers Microsoft Excel.

Convertir un PDF en CSV

Si vous recevez un PDF contenant des données sous forme de tableau, vous souhaiterez souvent exécuter divers types d'analyses sur ces données. Vous souhaiterez peut-être additionner certaines des colonnes d'une feuille de calcul, comparer les informations à d'autres données dont vous disposez ou les tracer sur un graphique à barres ou un graphique linéaire.

Vidéo du jour

Malheureusement, il n'est pas facile de le faire directement à partir d'un fichier PDF. Mais si vous convertissez le PDF en fichier CSV, vous pouvez l'importer dans un tableur, un programme de base de données ou de nombreux autres outils d'analyse. Il existe un certain nombre d'outils gratuits et payants disponibles en ligne et hors ligne à utiliser pour la conversion de PDF en CSV.

Considérez la reconnaissance optique de caractères

Dans certains cas, en particulier si le PDF est créé à partir d'un document numérisé, il peut n'inclure qu'une image du texte, et non les caractères bruts eux-mêmes d'une manière qu'un ordinateur peut comprendre. Dans ce cas, vous devrez peut-être exécuter le programme via un programme de reconnaissance optique de caractères (OCR) qui peut traiter le texte sous forme de mots ou de nombres individuels.

Les programmes OCR ne sont pas parfaits, c'est donc une bonne idée de revérifier tout texte ou nombre que vous extrayez d'un PDF de cette façon.

Utiliser Adobe Acrobat

Un outil qui peut convertir des fichiers PDF en feuilles de calcul est Adobe Acrobat. Adobe est la société qui a développé une grande partie du format PDF. Vous pouvez ouvrir un fichier PDF dans la version payante d'Acrobat et l'exporter vers une feuille de calcul Microsoft Excel. Si vous préférez un fichier CSV, Excel ou la plupart des autres tableurs peuvent ouvrir le fichier et l'enregistrer au format CSV.

Pour convertir un fichier, ouvrez-le dans Acrobat et cliquez sur "Exporter le PDF". Choisissez une feuille de calcul et "Microsoft Excel Workbook" comme format de sortie. Cliquez sur "Exporter" et choisissez où enregistrer le fichier. Si le PDF est numérisé, Acrobat exécutera la technologie OCR pour extraire le texte.

Vous devez payer pour utiliser Acrobat, bien qu'un essai gratuit soit disponible.

Il existe un certain nombre d'outils en ligne gratuits qui peuvent convertir des fichiers PDF en fichiers CSV ou en feuilles de calcul, y compris en exécutant un logiciel OCR si nécessaire.

Un programme appelé Convertio convertira les PDF en fichiers CSV. De nombreuses conversions sont gratuites, mais vous devrez peut-être payer pour des services tels que l'OCR ou le traitement de fichiers volumineux.

Une autre option est SodaPDF, qui est disponible gratuitement et peut convertir des fichiers PDF en fichiers Excel, au format Microsoft Word ou en documents Microsoft PowerPoint. Il est disponible gratuitement en ligne et vous pouvez télécharger un fichier PDF et télécharger le fichier qu'il génère après avoir exécuté le processus de conversion.

L'un des inconvénients de l'utilisation d'un outil en ligne est que vous devez partager le fichier que vous convertissez avec la personne qui utilise l'outil. Vous ne voudrez peut-être pas le faire si le document est confidentiel.

Il existe également des outils que vous pouvez utiliser hors ligne pour convertir un PDF en fichier CSV ou en d'autres formats potentiellement pratiques.

L'un s'appelle Tabula, et il est disponible gratuitement pour Windows, Mac ou Linux. Il n'inclut pas la capacité OCR, il ne peut donc pas fonctionner avec les PDF numérisés qui ne contiennent pas de texte incorporé.

Il existe également un outil open source appelé pdf2csv qui fonctionne avec le langage de programmation Python. Il est disponible gratuitement sur le référentiel de programmes open source GitHub.

Vous pouvez également utiliser un outil gratuit appelé PDFMiner qui peut convertir des PDF en texte ou un outil appelé PDF2HTML qui convertira les fichiers PDF en fichiers de page Web en langage de balisage hypertexte que vous pouvez modifier sous forme de texte ou afficher dans un site Web navigateur.