• Accueil
  • Mes publications
    • Interview de Yannick Le Briquer, DG d'Anakeen
  • Success Story
    • Virtualbox 4.1 + Bodhilinux 1.2.0 + kernel 3.0, le trio gagnant
    • Passer de Debian Lenny-Postgresql 8.3 à Debian Squeeze-Postgresql 8.4 sans douleurs
    • Sauvegarde des bases Mysql/MariaDB avec Xtrabackup
  • A propos...
  • Me contacter...
OCRFeeder, l’OCR facile …

OCRFeeder, l’OCR facile …

19 juin 2012 10:12 0 commentaires
Ayant eu récemment besoin d’un logiciel d’OCR, entendez par là Reconnaissance Optique de Caractères en langue de Molière. Il s’agit de faire reconnaître via une image un texte sur celle-ci. Par exemple, vous n’avez qu’une version papier d’un rapport, lettre ou autre et vous devez retoucher le texte, il vous faudra passer par un logiciel d’OCR.



Après quelques recherches, je tombe sur un projet Gnome appelé OCRFeeder. Ma distribution actuelle au niveau professionnelle étant Bodhi Linux, je cherche le logiciel et rien. Je lance mon Y PPA manager afin de trouver un dépôt PPA (Bodhi Linux est basée sur Ubuntu Lucid LTS dans sa version 1.4.0) :

sudo add-apt-repository ppa:lion-simba/tesseract


On réactualise la liste des paquets et on lance l’installation :

$ sudo apt-get update && sudo apt-get upgrade
$ sudo apt-get install ocrfeeder


L’installation s’effectue ainsi que toutes les dépendances et notamment tesseract sur lequel s’appuie OCRFeeder pour la reconnaissance ce caractère. OCRFeeder est développé en python. Au lancement sur Bodhi Linux, le logiciel crash méchamment. Le lancement du programme en ligne de commande indique qu’il manque une bibliothèque python nécessaire à OCRFeeder. Corrigeons le problème en installant le package manquant :

$ sudo apt-get install python-reportlab


Voilà, la phase la plus pénible étant passée, voyons un peu le fonctionnement du logiciel. Vous avez plusieurs possibilités d’importation de documents à traiter :

  • en pilotant directement le scanner
  • en important une image
  • en important un dossier
  • en important un pdf


Pour ma part, j’ai choisi cette dernière solution. On clique donc sur File puis Import pdf et on choisit le document à traiter.

Interface OCRFeeder

Voilà donc mon fichier pdf reconnu par le logiciel et qui du coup me permet d’en extraire le texte en cliquant sur le bouton Recognize Document. Dans la partie de droite, vous voyez le texte qui est reconnu mais brut de fonderie, la mise en forme n’est pas respectée, vous avez donc la possibilité de changer celle-ci ainsi que de corriger les fautes d’orthographe présentes. Si vous souhaitez enregistrer le tout au format LibreOffice, il suffit de cliquer sur le bouton Regenerate ODT.

Voilà donc un rapide tour du propriétaire mais vous l’aurez compris, OCRFeeder est un logiciel qui vous permettra de faire de l’OCR facilement et sa prise en main est rapide. Je vous laisse donc l’installer et vous en servir :) Si vous voulez avoir une meilleure idée du logiciel, il y a un screencast disponible sur le site.

Bon OCR !



Tags :  correction, cuneiform, dictionnaire, image, libreoffice, ocr, odt, office, pdf, python, reconnaissance caractère, saisie, scanner, tessaract
Ce sujet a été posté le 19 juin 2012 à 10:12 et est classé dans Graphisme, Optimisation, Organisation. Vous pouvez suivre les réponses à ce sujet via RSS 2.0 fil. Vous pouvez laisser une réponse, ou trackback depuis votre propre site.

Laisser un commentaire

Cliquez ici pour annuler la réponse.


Image CAPTCHA
Rafraîchir l'image
*

Recherche

Taille de la police
Promouvoir et soutenir le <a href=
Suivre le blog au fil des jours

Blogroll

  • Blog d'iMil
  • Blog de Bapt
  • Blog de Nicolargo
  • EzUnix
  • FJob
  • Le blog de Maester
  • NetBSDfr

Archives

Catégories

Sponsors

Haut de page

Mots-clefs

administration backup bash blog cms code css debian design développement facebook firefox framework free games git github GNU/Linux google google code graphisme html javascript jeux linux monitoring mysql opensource pdf php réseau security server shell ssh sysadmin sécurité thèmes tutorial tutoriel twitter ubuntu web webdev wordpress

Mes twitts…

Derniers articles

  • Ifixit, le wikipedia des manuels de réparations !
  • La mise en place d’un ERP, une réorganisation implicite mais …
  • L’hygiène informatique en entreprise – règles de base pour bien commencer
  • Le quotidien des informaticiens en BD… et sur le Web, c’est par ici les webcomics !
  • CSS Junction, des tutoriels à gogo par et pour les Webdesigners !

Derniers commentaires

  • Ça m'a l'air vraiment sympa mais le gros...
    By Dimitri
  • Après une recherche rapide sur le net, j'ai...
    By zatmania
  • Merci de ta réponse j'ai pu m'ensortir un...
    By Anonyme
  • Bonjour, as tu regardé du côté de la doc...
    By zatmania

Licence

Contrat Creative Commons
Ce(tte) oeuvre est mise à disposition selon les termes de la Licence Creative Commons Paternité 3.0 non transcrit.