Extraire texte ou image d’un PDF avec Google Docs

Extraire texte ou image d'un PDF avec Google Docs

Comment utiliser la reconnaissance OCR et rendre les fichiers PDF et les images modifiables pour copier le texte à l’intérieur

Extraire texte ou image d'un PDF avec Google Docs
Google Docs continue d’ajouter de nouvelles fonctionnalités à son application en ligne. Ainsi, avec la possibilité de télécharger des fichiers de tout type et de toute taille (dans Google Drive ), l’ajout désormais une nouveauté très intéressante, la fonction OCR , qui vous permet d’ extraire du texte d’un PDF ou d’une l’image .

Le devient donc clair à ce moment-là le peut être utile, tant sur le lieu de travail que dans la vie de tous les jours, de pouvoir capturer du texte à partir d’une image numérisée et d’un document PDF protégé.

Par exemple, vous pourriez, en théorie, utiliser le scanner pour enregistrer un livre sur votre ordinateur, extraire le texte et le modifier ou vous pouvez prendre une documentation déjà réalisée, la modifier et la recycler (attention cependant à copier et coller à partir de documents protégés par le droit d’auteur).

Voyons ensemble comment extraire du texte d’un PDF ou d’une image avec Google Docs ; pour l’exhaustivité des informations, nous vous montrerons également quelques alternatives valables pour pouvoir extraire du texte via OCR.

Comment extraire du texte avec Google Docs

Pour activer la fonction OCR sur Docs, mettre à jour la page Google Drive , appliquer sur l’engrenage en haut à droite, puis sur Paramètres ; dans la fenêtre qui s’ouvre, cochez la case Convertissez les fichiers téléchargés au format de l’éditeur Google Docs .

Il n’y a qu’un seul PDF ou une seule image avec texte dans Google Drive, il suffit de cliquer avec le bouton droit sur le fichier que vous souhaitez télécharger et d’utiliser l’option Ouvrir avec – Google Docs . Le PDF ou l’image du soir pas chargé dans son format d’origine, mais nous obtiendrons une feuille de texte directement modifiable avec les outils Google Docs. Le fichier texte peut ensuite être enregistré au format PDF sur l’ordinateur ou dans un fichier Word, au format TXT, au format RTF ou dans un format compatible avec Libreoffice ( ODT ).

De toute évidence, si vous téléchargez un PDF et extrayez le texte, vous perdrez la mise en forme des paragraphes même si les paramètres de police, les italiques et les gras doivent rester (tout dépend de la qualité des images qui composent le PDF d ‘ source ). Cela reste un moyen rapide et facile à réaliser des livres papier sur votre ordinateur sans avoir à les réécrire à partir de zéro.

Commentaire extraire du texte sur Windows 10

Oui l’OCR de Google Docs ne nous a pas complètement convaincus, nous pouvons également utiliser l’outil PDF24 , disponible gratuitement pour toutes les versions de Windows.

Après avoir installé l’application, démarrez-la, cliquez sur sélectionner le texte Reconnaître et, dans la fenêtre suivante, cliquez sur Ajouter un fichier puis sur Démarrer . Le programme commence automatiquement à capturer du texte à partir d’images dans le PDF; à la fin du travail, nous cliquons sur Enregistrer le fichier , afin de pouvoir créer un nouveau PDF avec le texte extrait des images (beaucoup plus lisible et précis).

 

Une fois le programme ouvert, ouvrez sur Ouvrir PDF et choisissez le PDF à charger, afin de pouvoir extraire le texte qu’il contenu, et appuyez sur OCR en haut. À la fin du processus, nous choisissons d’enregistrer le texte récupéré sur un nouveau fichier PDF (recommandé) ou dans tout autre format de texte pris en charge.

 

Comment extraire du texte d’un PDF sur Mac

Oui nous recherchons quelque chose de similaire aux programmes vus ci-dessus pour Mac, nous pouvons essayer OCRKit , disponible sous forme d’essai gratuit pendant 14 jours.

Une fois ce petit outil ouvert, il suffit de charger le PDF avec les images et de lancer la conversion: dans quelques minutes nous aurons la lecture de toutes les images et un fichier avec tout le texte extrait sera généré, prêt à être copié, modifié ou partagé.

Commentaire extraire du texte d’un PDF en ligne

Oui nous ne pouvons installer aucun programme sur le PC de notre entreprise ou si nous travaillons sur un PC avec un utilisateur aux autorisations limitées, nous pouvons toujours extraire du texte d’un PDF composé d’images ou de numérisations à l’aide du service en ligne onlineocr.net .

Une fois le site ouvert, appuyez sur le bouton sélectionner un fichier , chargez le fichier PDF avec le texte à extraire, sélectionnez ITALIEN et Microsoft Word (docx) dans le menu déroulant à côté et enfin appuyez sur Convertir .

La soirée PDF lu et converti en un document Word facilement modifiable et diffusé depuis le navigateur comme n’importe quel fichier, prêt à être édité avec Word ou avec LibreOffice Writer (la version gratuite accessible à tous).

 

Pour utiliser le site, appuyer sur le bouton Choisir les fichiers , charger le PDF à numériser, vérifier si toutes les options correspondant à nos besoins, puis appuyer sur Reconnaître en bas . Le site lira immédiatement toutes les images et générera un fichier Word modifiable, prêt à l’emploi.

Dans la version gratuite, nous ne pouvons pas convertir en 10 pages; si vous avez besoin de plus de pages, nous devrons faire un enregistrement en l’air sur le haut à droite: Inscrivez-vous avant de faire quoi que ce soit.

Conclusions

Comme nous avons vu, les méthodes pour extraire du texte d’un PDF ou d’une image sont vraiment nombreuses: nous sommes partis de Google Docs (outil le plus simple et le plus immédiat) pour vous montrer par la suite d’autres outils et programmes utiles à cet effet.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *