[màj] Interface graphique pour Tesseract : gscan2pdf

ROC en français et autres langues... merci Sorbus ;)
samedi 19 janvier 2008
par  zarer (Christophe Gallaire)
popularité : 7%

Article mis à jour pour la ROC en français et autres langues.

Nécessité fait loi...

Il y a peu, je me suis mis à la recherche d’un bon programme d’OCR (ou ROC en français) : un logiciel de Reconnaissance Optique de Caractères afin de ne pas avoir à recopier plusieurs dizaines de pages pour le boulot. Du texte et rien que du texte, et en français, s’il vous plaît ! avec accents et signes de ponctuation.

Tournant à 100 % sous Linux, il s’agissait donc de trouver une solution native et libre ! 100 % Linux et 100 % libre !

Après avoir scanné mes belles petites feuilles, ni une ni deux, j’ai lancé kooka. Résulat : une vraie calamité ! Des signes cabalistiques en guise de texte !

Les accents sont-ils des agents perturbateurs, du fait que nombre de logiciels d’OCR sont programmés par des anglophones ? Certainement...

Toujours est-il que la solution OCR (ou ROC) pour du texte en français, traité sous Linux, semble être ailleurs. Les résultats obtenus par Tesseract 2.01 sont exemplaires !

Seulement, Tesseract en lignes de commandes n’est certainement pas la solution la plus attrayante !

La bonne surprise vient de gscan2pdf qui offre à Tesseract 2.01 sa belle interface ! Bon, tout n’est pas rose dans cette affaire mais le couple fait des merveilles !

Sous Debian Lenny (testing), Tesseract et gscan2pdf s’installent et cohabitent sans problème, nous le verrons.

Sous Ubuntu 7.10 et Debian Etch, les paquets disponibles dans les dépôts sont obsolètes. Pour obtenir ce que l’on cherche, il est nécessaire de passer aux versions supérieures. L’installation de notre couple Tesseract/gscan2pdf se complique alors quelque peu.

Grâce à la mobilisation des membres de mailing-list de Linux On The Root (b52, Dom, Dzef, Leonux... Merci à tous !), autour de ce qu’il est convenu d’appeler L’affaire OCR, une solution, à grands renforts de paquets .deb et de scripts, a été trouvée. En voici la procédure...

Quelques mots sur Tesseract, le meilleur moteur OCR Libre

Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Tesseract était pourtant l’un des meilleurs logiciels de Reconnaissance Optique de Caractères.

Resté longtemps sans évolution, Tesseract a été rendu public l’année dernière (licence Apache 2.0), après quelques débuggages de la part de Google qui s’occupe dorénavant de son développement.

Pour beaucoup, Tesseract représente une avancée majeure pour le libre dans le domaine de la Reconnaissance Optique de Caractères.

Certains tests ont montré une reconnaissance à 97,74% ! Tesseract-OCR devient donc de fait le meilleur moteur de reconnaissance de caractères libre.

Tesseract est un moteur de reconnaissance simple : il ne fournit pas d’interface graphique utilisateur (GUI), n’effectue pas d’analyse de la mise en page et ne formate pas les résultats qu’il produit.

OCRopus : l’avenir de Tesseract

Tesseract est un projet très prometteur. L’un de ses développements les plus en vue est le projet OCRopus : système d’analyse de document comprenant l’analyse de la mise en page modulaire et la reconnaissance optique de caractères modulaire, le tout en tenant compte de la langue.

Actuellement, le projet OCRopus se base sur le moteur Tesseract, sur RAST pour l’analyse de mise-en-page et sur aspell (ainsi que des outils de tests). Le format de sortie est en HTML. Son installation et son utilisation sont encore un peu "rudes" pour être présentées dans le cours de cet article mais les résultats sont très encourageants.

Sous peu, OCRopus sera en mesure d’apprendre à la volée, depuis une interface web comme celle que connaît déjà Tesseract, et la reconnaissance pourra se faire depuis le format PDF.

La Reconnaissance Optique de Caractères sous Linux semble devenir un domaine majeur de recherche. Les avancées pourraient bien projeter le Libre sur le devant de la scène.

Installation de tesseract-2.01 (Ubuntu 7.10 / Debian Etch)

Les sources

Il est possible d’installer de la version actuelle de Tesseract en récupérant les sources sur la page du projet tesseract-ocr.

La Mailing-List de Linux On The Root a beaucoup échangé au sujet de Tesseract et b52, développeur de XCFA, nous a été d’un très grand secours. Sur une idée de Leonux, b52 nous a fait un joli p’tit paquet qui facilite grandement son installation.

La paquet a été fait à partir des trois archives nécessaires à la version 2.01 disponible sur la page de téléchargement du projet :

a) la version tesseract-2.01.tar.gz  ;

b) l’archive des fichiers de langue française : tesseract-2.00.fra.tar.gz ;

c) l’archive des fichiers de langue anglaise : tesseract-2.00.eng.tar.gz.

Installation du paquet .deb de tesseract_2.01

1. Installation par GDebi. Après récupération sur le bureau du paquet tesseract_2.02-1_i386.deb (version b52 pour linonroot-dev), il est naturellement possible de l’installer avec GDebi par un simple clic droit.

2. Installation via le Terminal.

a) Pour cette installation, ouvrez un Terminal (Applications —> Accessoires —> Terminal).

b) Récupération et installation du paquet tesseract_2.02-1_i386.deb (version b52). Dans le Terminal, tapez les commandes suivantes :

Ubuntu 7.10

wget http://download.tuxfamily.org/xcfau...
dpkg --unpack tesseract_2.02-1_i386.deb
sudo apt-get install -f
[sudo] password for user :

Debian Etch

wget http://download.tuxfamily.org/xcfau...
dpkg --unpack tesseract_2.02-1_i386.deb
su
Mot de passe :
apt-get install -f
exit

Si tout s’est déroulé correctement, tesseract-2.01 est installé sur votre machine avec la reconnaissance des langues de Molière et de Shakespear !

Test de Tesseract 2.01

Bien qu’il soit parfaitement possible de faire une reconnaissance de caractères sur une image aux formats .png, .jpg, .pnm, .gif, .tif et .tiff graphiquement avec gscan2pdf ― en installant une dépendance omise par le développeur et en copiant par ailleurs certains fichiers, nous y reviendrons ―, en lignes de commandes, Tesseract n’accepte que les formats .tiff et .mdi.

Attention ! Dans la commande ci-dessous, il n’y a pas deux lignes mais une seule : les "arguments" sont juste séparés d’un espace.

tesseract chemin/de/votre/image.tif nom_du_fichier_de_sortie_sans_extension -l fra

Conversion et optimisation d’une image

Pour la conversion et l’optimisation des images à traiter en ROC par Tesseract, The Gimp (qu’on ne présente plus !) et ImageMagick font très bien l’affaire !

Reportez-vous à cet excellent howto "ocr with tesseract" (en anglais), aux parties 4 "Prepare Images" & 5 "Convert To Tiff".

Pour comprendre la syntaxe des commandes d’ImageMagick, reportez-vous au manuel (en anglais...très clair !).

Installation de gscan2pdf 0.9.19 (Ubuntu 7.10 / Debian Etch)

gscan2pdf, dans sa version actuelle (0.9.19), offre une belle interface à Tesseract 2.0.1 (version multilingue), bien plus conviviale que la ligne de commandes et extrêmement efficace. Voyez plutôt :

JPEG - 39.4 ko

Jeffrey Ratcliffe, le développeur de gscan2pdf a prévu un paquet .deb pour les version 0.9.19.

L’installation du paquet gscan2pdf_0.9.19_all.deb, sur Ubuntu 7.10 et Debian Etch peut se faire avec l’une ou l’autre des méthodes utilisées pour Tesseract ci-dessus.

Installation de Tessreract et gscan2pdf : le script de Leonux

Leonux, par paresse dit-il (je le crois plutôt plongé à corps perdu dans le bash), a proposé ce petit script d’installation de gscan2pdf 0.9.19 et Tesseract 2.01 pour Ubuntu 7.10 :

# !/bin/sh
## Script d’installation pour la M.-L. linonroot-dev ## par Leonux
## Téléchargement des paquets
wget http://download.tuxfamily.org/xcfau...
wget http://downloads.sourceforge.net/gs...
## Installation de tesseract_2.02-1_i386.deb (b52) et de gscan2pdf
sudo dpkg --unpack tesseract_2.02-1_i386.deb
sudo apt-get install -f
sudo dpkg --unpack gscan2pdf_0.9.19_all.deb
sudo apt-get install -f

Il suffit de copier ce script dans un fichier texte (clic droit sur le bureau : Créer un document —> Fichier vierge) et de le rendre exécutable par un clic droit sur le nouveau fichier (Permissions —> Autoriser l’exécution du fichier comme un programme).

Bugs rencontrés

Après installation des deux programmes, Tesseract et gscan2pdf, faites des tests de ROC avec des images dans différents formats en lançant gscan2pdf depuis le Terminal, en tapant tout simplement : gscan2pdf.

Vous obtiendrez de cette manière de précieuses informations pour la résolution des erreurs.

Images .png, .jpg, ... non traitées en ROC : format invalide

1. Passez un traitement "unpaper" sur l’image et relancez la ROC. unpaper doit certainement repasser l’image au format .tif... Merci Dzef pour cette astuce !

2. Installez toute la série de libtiff depuis Synaptic (Système —> Administration —> Gestionnaire de paquets Synaptic).

Jeffrey Ratcliffe (nous ne lui en tenons aucunement rigueur) a oublié de mettre, parmi les dépendances, libtiff :

I forgot to add the libtiff dependency. That means that if you do not have libtiff installed, you will get garbage. I will fix this soon.

Image non traitée ou seulement en anglais :

Le sujet ouvert sur le forum Ubuntu-FR à propos de l’OCR a permis de régler le bug concernant la reconnaisance du français (et autres langues).

En effet, Sorbus et moi-même avons fait des tests (voir les tests en commentaire) qui ont abouti aux mêmes résultats : en l’état, l’installation ne reconnaît pas réellement le français.

Sorbus a su lire correctement la réponse que Jeffrey Ratcliffe m’avait adressée et a trouvé la parade qui permet de rendre le couple Tesseract/gscan2pdf pleinement efficace en français.

Merci grandement Sorbus !

If tesseract 2.01 is compiled from source, it puts the language files by default in /usr/share/tessdata. When I did the Debian/Ubuntu packaging, I put them in /usr/share/tesseract-ocr/tessdata, and that is where gscan2pdf v0.9.19 looks to see which languages are installed. In the upcoming release, gscan2pdf will look in both paths.

Voici la traduction de Sorbus :

Si tesseract 2.01 est compilé de la source, il met les fichiers de langue par défaut dans /usr/share/tessdata. Quand j’ai fait l’emballage Debian/Ubuntu, je les ai mis dans /usr/share/tesseract-ocr/tessdata et c’est où gscan2pdf v0.9.19 regarde pour voir quelles langues sont installées. Dans la sortie prochaine, gscan2pdf regardera dans les deux chemins.

Autrement dit, si vous obtenez le message d’erreur suivant :

Unable to load unicharset file /usr/share/tessdata/fra.unicharset

Unable to load unicharset file /usr/share/tessdata/eng.unicharset

ou le message d’erreur suivant :

Unable to load unicharset file /usr/local/share/tessdata/eng.unicharset

Unable to load unicharset file /usr/local/share/tessdata/fra.unicharset

A. Vous n’avez pas installé Tesseract avec le paquet de b52 (proposé ici)

Alors, dans ce cas, il suffit de télécharger les fichiers de langue et de les placer dans /usr/share/tessdata comme suit :

wget http://tesseract-ocr.googlecode.com...
tar -zxvf tesseract-2.00.eng.tar.gz
cd tessdata
sudo cp * /usr/share/tessdata (ou /usr/local/share/tessdata selon l’erreur)
sudo rm -r tessdata
sudo rm tesseract-2.00.eng.tar.gz

Répétez la même procédure avec tesseract-2.00.fra.tar.gz

wget http://tesseract-ocr.googlecode.com...
...

Pour Debian Etch : Après la commande ’cd’ identifiez-vous en tant que ’root’ avec ’su’ puis enchaîner les commandes sans ’sudo’.

Merci Dom !

B. Vous avez installé Tesseract avec le paquet de b52 (proposé ici)

Si vous avez installé Tesseract avec le paquet de b52, il suffit de créer deux liens symboliques [solution très élégante suggérée par gldx] pour résoudre le problème de la reconnaissance de la langue française :

1. le premier avec les fichiers du répertoire /usr/local/share/tessdata vers /usr/share ou inversement selon le message d’erreur que vous obtenez ;

2. le deuxième vers le répertoire /usr/share/tesseract-ocr (qu’il faut créer) dans lequel gscan2pdf cherche les fichiers de langue :

Pour Ubuntu

sudo ln -s /usr/share/tessdata /usr/local/share (ou inversement)
sudo mkdir /usr/share/tesseract-ocr
sudo ln -s /usr/share/tessdata /usr/share/tesseract-ocr

Pour Debian Etch

su
Mot de passe :
ln -s /usr/share/tessdata /usr/local/share (ou inversement)
mkdir /usr/share/tesseract-ocr
ln -s /usr/share/tessdata /usr/share/tesseract-ocr
exit

Normalement, la création de ces deux liens symboliques avec le répertoire /tessdata contenant les fichiers de langue devrait régler les problèmes de ROC.

Et voilà le résultat :

PNG - 16.4 ko

Merci Sorbus !

Bug d’affichage : langue anglaise séléctionnée

Contrairement à ce que nous pensions, sur Ubuntu 7.10 et Debian Etch, la reconnaissance de la langue française n’est pas active s’il ne vous est pas possible de la sélectionner.

Autrement dit, si la seule langue disponible est l’anglais, comme sur la capture ci-dessous, cela signifie tout bonnement que la ROC en français ou dans d’autres langues que l’anglais n’est pas active !

PNG - 16.5 ko

Installation sous Debian Lenny

Ben... il n’y a rien à faire ! Pour l’installation, utilisez vos outils habituels, apt-get, Synaptic, ... Et admirez le résultat :

JPEG - 42.9 ko

Certains tests (en anglais) ont montré qu’une image de 400 dpi donnait des résultats plus que décents !

Installation & ROC sous ArchLinux

Frédéric Bezies a adapté l’article ci-dessus pour installer le duo de choc gscan2pdf+Tesseract sous ArchLinux. Reportez-vous à son billet pour plus de précisions.

Pour la reconnaissance du français (et autres langues) sous ArchLinux, voir le commentaire de FredBezies ci-dessous ou son billet sur la gestion des langues.

Merci Fred pour les tests et les infos !

Installation & ROC sous Fedora Core 8

C’est à Leonux que l’on doit cette installation et les tests.

Installez les paquets suivants

  • tesseract 2.01-1.fc8
  • tesseract-langpack-fr.noarch 2.00-2.fc8
  • gscan2pdf.noarch 0.9.19-1.fc8

Gestion des langues

Il faut créer le répertoire /usr/share/tesseract-ocr puis le lien symbolique :

# mkdir /usr/share/tesseract-ocr
# ln -s /usr/share/tesseract/tessdata /usr/share/tesseract-ocr/

Installation & ROC sous Mandriva 2008

L’installation et les tests effectués par Ulhume sont tout aussi concluants.

L’installation est assez simple :

# urpmi tesseract gscan2pdf

Pour les détails de l’installation et des tests reportez-vous à l’excellent billet d’Ulhume.

Merci Ulhume pour ce retour et pour ces tests rondement menés.

En conclusion...

Comme l’indique le premier message d’erreur, les fichiers du répertoire /tessdata devraient se trouver dans /usr/local/share.

Basiquement, si l’on reprend ce que dit Jeffrey Ratcliffe, les fichiers du répertoire /tessdata sont bien là où ils devraient être (lol) :

If tesseract 2.01 is compiled from source, it puts the language files by default in /usr/share/tessdata.

Pourtant, ils sont réclamés en /usr/local/share... Et c’est de là que vient tout le problème.

Le développeur de gscan2pdf les a placés quant à lui dans /usr/share/tesseract-ocr...

En résumé, trois localisations différentes de /tessdata :

1. par défaut : /usr/share.

2. celle que l’on trouve sur Ubuntu (voir les commentaires de Sorbus, entre autres) : /usr/local/share.

3. celle de gscan2pdf développée par Jeffrey Ratcliffe : /usr/share/tesseract-ocr.

Pour simplifier l’installation, c’est cela qu’il faudrait changer, unifier.

Merci à tous pour vos commentaires, vos tests, vos suggestions...


Edit : Un sujet est ouvert à propos de l’OCR sous Linux sur le forum Ubuntu-Fr.

De nombreuses solutions ont été testées et les résultats obtenus vont dans le même sens : Tesseract !

Sorbus a rencontré quelques difficultés avec son scanner. L’installation de certaines dépendances (djvulibre-bin, unpaper, ...) semble les avoir toutes réglées.

Comme le dit très justement Sorbus : "il reste à trouver quelles sont les meilleurs options pour une reconnaissance optimale. Puis à travailler sur l’amélioration/l’apprentissage..."


Commentaires  forum ferme

Logo de FredBezies
dimanche 20 janvier 2008 à 07h57 - par  FredBezies

Quelques infos.

Je n’utilise pas ubuntu, mais archlinux.

Et le lien symbolique de fin est à modifier :

ln -s /usr/local/share/tessdata/ /usr/share/tesseract-ocr/

par

ln -s /usr/share/tessdata/ /usr/share/tesseract-ocr/

Et on a toutes les langues voulues ;)

Sinon, ton tutoriel est excellent, et j’avoue apprécier tesseract !

Logo de gldx
dimanche 20 janvier 2008 à 04h25 - par  gldx

Effectivement, au temps pour moi, je me suis embrouillé. Donc ma première remarque sur cp est à oublier.

Logo de zarer (Christophe Gallaire)
dimanche 20 janvier 2008 à 02h27 - par  zarer (Christophe Gallaire)

Bonsoir gldx,

Merci pour le retour.

Pour la commande cp, j’ai eu un doute, mais non, cp ne crée pas le répertoire. J’ai essayé, rien.

Pour les liens symboliques, par contre, je n’y avais pas pensé. C’est une solution plus élégante. Je vais modifier ça de suite.

Tu m’as permis aussi de ressortir deux trois bouquins pour revoir la création des liens symboliques/physiques...

@+

Logo de gldx
dimanche 20 janvier 2008 à 01h33 - par  gldx

Bravo pour cet article bien détaillé.

J’ai deux petites remarques concernant le répertoire /usr/share/tesseract-ocr :
- il est inutile d’utiliser "mkdir" avant d’utiliser "cp" puisque ce dernier va créer le répertoire de destination de la copie s’il n’existe pas ;
- il serait plus simple de créer un lien symbolique sur /usr/local/share/tessdata plutôt que d’effectuer une copie de ce répertoire.

Logo de leonux
samedi 19 janvier 2008 à 23h19 - par  leonux

Salut Sorbus,

Merci pour tes contributions, grâce à ce travail d’équipe, nous avons, aujourd’hui, le plaisir de mettre à jour ce didacticiel :)

ça te dirait de nous rejoindre dans la M-L linonroot-dev ? prévoir un grand nombre de courriels à réceptionner ;)

Logo de Sorbus
samedi 19 janvier 2008 à 20h31 - par  Sorbus

Voilà donc, avec une petite manip simple, la question est résolue pour les langues pour Ubuntu 7.10 (et probablement pour Debian Etch).

En fait, le dossier /tessdata contenant les fichiers de langue est par défaut dans :
/usr/local/share/
Mais gscan2pdf le cherche dans
/usr/share/tesseract-ocr/

Il suffit donc de créer le dossier /tesseract-ocr dans /usr/share/
et de copier le dossier
/usr/local/share/tessdata/
dans
/usr/share/tesseract-ocr/

Autrement dit :

J’ai créé :

sudo mkdir /usr/share/tesseract-ocr

et j’ai copié :

sudo cp -R /usr/local/share/tessdata/ /usr/share/tesseract-ocr/

et c’est tout bon.

Logo de zarer (Christophe Gallaire)
samedi 19 janvier 2008 à 15h23 - par  zarer (Christophe Gallaire)

Salut Sorbus,

Je viens de faire les mêmes tests que toi ; voici les résultats bruts :

1. Tesseract + gscan2pdf sous Ubuntu 7.10 (impossible de choisir la reconnaissance en français) :

aussi. Dcvant, sur les cotés, derriére, toujours l’éternellc muraillc
lugubre, au pied de laquelle le fleuve tourbillonnant précipite en
incessants remous son eau fangeuse. Sur le paysage agressif régne
un silence dc mort. A la tombée du jour, cependant, sa bcauté
sombre et calme acquiert une majesté unique.
Le soleil s’était déj5 couché quand l’h0mme, 5 demi étcndu au
fond dc sa barque, eut un violent frisson. Et soudain, étonné, il
rclcva lourdcmcnt la téte : il sc sentait mieux. Sa jambe le faisait 5
peine souffrir, sa soif climinuait, et sa poitrine, libérée, s’ouvrait
cn une lente inspiration.

2. Tesseract en ligne de commandes avec la reconnaissance en français :

aussi. Devant, sur les côtés, derrière, toujours l’éternelle muraille
lugubre, au pied de laquelle le fleuve tourbillonnant précipite en
incessants remous son eau fangeuse. Sur le paysage agressif règne
un silence de mort. A la tombée du jour, cependant, sa beauté
sombre et calme acquiert une majesté unique.
Le soleil s’était déjà couché quand l’homme, à demi étendu au
fond de sa barque, eut un violent frisson. Et soudain, étonné, il
releva lourdement la tête : il se sentait mieux. Sa jambe le faisait à
peine souffrir, sa soif diminuait, et sa poitrine, libérée, s’ouvrait
en une lente inspiration.

3. Tesseract en ligne de commandes sans la reconnaissance en français :

aussi. Dcvant, sur les cotés, derriére, toujours l’éternellc muraillc
lugubre, au pied de laquelle le fleuve tourbillonnant précipite en
incessants remous son eau fangeuse. Sur le paysage agressif regne
un silence dc mort. A la tombée du jour, cependant, sa bcauté
sombre et calme acquiert une majesté unique.
Le soleil s’était déia couché quand l’homme, at demi étcndu au
fond dc sa barquc, eut un violent frisson. Et soudain, étonné, il
rclcva lourdcment la téte : il sc sentait mieux. Sa jambc lc faisait ai
peine souffrir, sa soif diminuait, et sa poitrine, libérée, s’ouvrait
cn une lente inspiration.

4. Sous Debian Lenny, Tesseract + gscan2pdf avec reconnaissance en français :

aussi. Devant, sur les côtés, derrière, toujours l’éternelle muraille lugubre, au pied de laquelle le fleuve tourbillonnant précipite en incessants remous son eau fangeuse. Sur le paysage agressif règne un silence de mort. A la tombée du jour, cependant, sa beauté sombre et calme acquiert une majesté unique. Le soleil s’était déjà couché quand l’homme, à demi étendu au fond de sa barque, eut un violent frisson. Et soudain, étonné, il releva lourdement la tête : il se sentait mieux. Sa jambe le faisait à peine souffrir, sa soif diminuait, et sa poitrine, libérée, s’ouvrait en une lente inspiration.

Effectivement, quand on voit la différence de résultat, il n’ y a aucun doute : la reconnaissance du français via gscan2pdf sous Ubuntu 7.10 + Tesseract 2.01 n’est pas active ! Je pense que les tests seront les mêmes sous Debian Etch.

Bon bon bon... y a du boulot pour le dev de gscan2pdf.

@+ Sorbus et merci pour tes tests !

Logo de Sorbus
samedi 19 janvier 2008 à 14h51 - par  Sorbus

Salut zarer,

J’ai quelques interrogations concernant la sélection de la langue utilisée pour le post-traitement de la ROC avec gscan2pdf.

Comme indiqué plus haut :

sur Ubuntu 7.10 et Debian Etch, bien que la reconnaissance de la langue française soit active, seul l’anglais est affiché.

... mais je doute un peu de ça :

Ce petit bug d’affichage ne semble pas avoir d’incidence sur la qualité du rendu de la ROC.

Puisqu’on ne peut pas sélectionner le français, je pense que le post-traitement français n’est pas actif. J’ai réalisé quelques tests ce matin dont je fais écho sur le fil de discussion dédié du forum Ubuntu, et de fait, la ROC tesseract en ligne de commande avec en fin de ligne "-l fra" me donne un résultat meilleur que la ROC tesseract via gscan2pdf.

Logo de zarer
dimanche 13 janvier 2008 à 05h06 - par  zarer

Salut ced668,

Content que tu y sois arrivé... Au vu des difficultés ce serait pas mal de rendre compte de ton installation à ceux, qui comme toi, tournent en 64 bits... Quand penses-tu ced668 ? Ça peut être utile, non ?

Logo de ced668
dimanche 13 janvier 2008 à 02h03 - par  ced668

c’est bon j’ai reussi a tout installer corectement en compilant le tout a partir des source, mais c’est vrai qu’il a un manque de paquet pour 64bit (je voulai WinFF mais que 32bit aussi)

Logo de zarer (Christophe Gallaire)
mardi 8 janvier 2008 à 16h20 - par  zarer (Christophe Gallaire)

Salut ced668,

Désolé mais personne dans l’équipe ne tourne sur 64bits ! Le problème s’est déjà posé avec Phatch... Regarde vers la solution de topgun (en commentaire). P’têt que c’est transposable... Je ne peux pas m’engager à ce sujet.

@+

Logo de ced668
mardi 8 janvier 2008 à 03h27 - par  ced668

Super mais vous n’auriez pas prevue de creer un .deb pour les 64bits par hasard ?

lundi 7 janvier 2008 à 10h50

Effectivement c’est un scanner Agfa Snapscan 1212, j’ai eu les mêmes problèmes en passant de 98 à Xp mais j’ai réussi à trouver les pilotes à ce moment.
Maintenant, je veux complètement linuxifier ma station de travail.
Malheureusement mon logiciel professionnel ne fonctionne que sous Windows, mal sous Wine, et je suis obligé de passer par une virtualisation de XP, ce qui fonctionne parfaitement bien (Virtualbox)
Je scanne quotidiennement une demi-douzaine de courriers de correspondants pour les inclure en mode texte (le mode image pdf prend trop de place et est lours à gérer).
Ce vieux scanner Agfa marche très bien sous ubuntu, et est même plus rapide que sous Windows !!!
Mais le problème jusqu’alors était l’OCR

Logo de dom
lundi 7 janvier 2008 à 08h57 - par  dom

yogadoo

c’est quoi ton scanner

moi j’ai eu un souci avec un vieux scanner agfa snapscan E5O
il vient d’un utilisateur de windaube qui en passant de 98 à XP s’est trouvé fort dépourvu , ce scanner n’étant plus supporté par Agfa depuis fort longtemps

mais y’a moyen de se débrouiller ,il est possible que ton scanner soir piloté par un twain générique faute de mieux dans mon cas y’avait moyen de prendre en compte le driver windaube 98

sacré linux

Logo de zarer (Christophe Gallaire)
dimanche 6 janvier 2008 à 23h18 - par  zarer (Christophe Gallaire)

Super yodagoo ! Nickel ! Tu confirmes que c’est un beau couple que ces deux-là !

Merci pour tes retours. C’est très utile pour tout le monde.

Qui a dit : "Linux... il y a moins bien mais c’est plus cher !"

@+

Logo de yodagoo
dimanche 6 janvier 2008 à 23h11 - par  yodagoo

merci c’est sympa !
cela fonctionne en effet, mis à part quelques fautes dues à des lettres mal formées
Ex e > c

mais c’est inespéré par rapport à tous les résultas OCR que j’ai eu jusqu’alors avec les autres logiciels OCR type kooka ou autre

un grand merci !

Logo de zarer (Christophe Gallaire)
dimanche 6 janvier 2008 à 20h28 - par  zarer (Christophe Gallaire)

yodagoo,

Je vais t’envoyer une image qui m’a servi pour les tests...

Logo de yodagoo
dimanche 6 janvier 2008 à 20h25 - par  yodagoo

non je n’ai pas essayé avec une autre image
je me demande si mon scanner n’est pas trop vieux, et la résolution trop faible, d’où des difficultés de reconnaissance.
Il faudrait que je trouve une image "standard" avec laquelle cela fonctionnerait à cou sûr...

Logo de zarer (Christophe Gallaire)
dimanche 6 janvier 2008 à 19h17 - par  zarer (Christophe Gallaire)

Re yodagoo,

Tu as essayé avec une autre image ? Puisque l’OCR semble opérer, certes d’une manière douteuse... Mais la reconnaissance se fait...

Logo de yodagoo
dimanche 6 janvier 2008 à 18h29 - par  yodagoo

distrib = ubuntu 7.1

en console gscan2pdf lancé donne :
« :Legal US :
:Letter US :
:A4 :»

et lance l’interface graphique
pas de message d’erreur

j’ouvre alors une image de lettre format A4 image au format .tif

message en console :
« Process 16285 exited. »

puis je lance l’OCR
reconnaissance "anglais" mais bug connu et à priori pas gênant

voilà le résultat de mon OCR :
« mw Mu Hwy. wc lx ! ,., A
( 4
LIM/’Y, »

cela pour une lettre avec entete et 8 lignes de texte

message console :

« Tesseract Open Source OCR Engine
Image has 8 bits per pixel and size (607,832)
Resolution=72 »
voilà !

Navigation

Articles de la rubrique