La reconnaissance optique de caractères (OCR) est un processus de conversion des documents imprimés en fichiers de traitement texte ou un mot qui peut être facilement éditées et stockées. La technologie a permis à ces documents soient entreposés en utilisant beaucoup moins d'espace de stockage que les matériaux imprimés. La technologie OCR a eu un impact énorme sur la façon dont l'information est stockée, partagée et édité. Avant de reconnaissance optique de caractères, si quelqu'un voulait faire un livre dans un fichier de traitement de texte, chaque page devrait être dactylographié mot pour mot.
La technologie OCR nécessite à la fois matériel et logiciel. En outre, les systèmes OCR sophistiqués exigent un circuit supplémentaire dans l'ordinateur lui-même pour terminer le processus. Un scanner optique scanne le texte sur une page, puis rompt les polices en une série de points appelée bitmap. Le logiciel peut lire la plupart des polices communes et de distinguer où les lignes commencent et s'arrêtent. Ce bitmap est ensuite traduite en texte informatique.
Bien que la reconnaissance optique de caractères a fait d'énormes progrès au cours des dernières années, il n'a toujours pas toujours de bons résultats dans la reconnaissance de l'écriture manuscrite ou les polices qui ressemblent à l'écriture. Il existe des systèmes dans le secteur bancaire qui utilisent la technologie OCR pour essayer de lire les montants des chèques manuscrites, pour aller de pair avec la capacité de l'ordinateur pour lire le routage et les numéros de compte.
Pour donner une idée de la puissance de l'OCR, il peut aider à jeter un œil à un exemple réel. Imaginez un service de police qui a tous ses dossiers criminels stockées dans de vastes classeurs. Bien que des millions de pages de numérisation seraient une entreprise coûteuse et chronophage, les avantages sont énormes.
Une fois le système OCR a converti les pages en texte lisible par un ordinateur, un détective, par exemple, pourrait rechercher à travers toute l'histoire en quelques secondes. Trouver manuellement un enregistrement particulier pourrait ne pas être trop difficile, mais imaginez un détective à tenter de rechercher tous les crimes commis sur une certaine intersection 8 heures 00-8h30. Cet exemple ne fait qu'effleurer la surface de la puissance de recherche de texte, et il n'y a qu'une seule raison que de nombreuses entreprises et institutions dépensent des millions de dollars pour l'OCR leurs données existantes.