PDA

Ver la Versión Completa : Ayuda ofimaticos y estudiosos del pdf



dansan32
09/02/2009, 16:11
Hola a todos, necesito de vuestra ayuda, en el curro quiero ahorrarme trabajo y hoy he probado a escanear 20 facturas en un archivo pdf unico, hasta ahi bien, una vez creado le doy a buscar por ejemplo Emilio y me lo encuentra, despues le doy a buscar Sanchez y no me lo encuentra, le doy a buscar el numero de una factura y nada no me lo encuentra y si le doy 3 numeros solos y si son del principio si me los encuentran.

Pregunta como puedo hacerlo para que siempre me busque lo que escaneo, si se puede y si no se puede configurar mejor, si sabeis si hay algun programa valido para este menester

Un saludo y gracias

jurjito
09/02/2009, 17:22
Al escanear cosas, se escanean como una imagen, por lo que el ordenador no puede encontrar cosa en el texto que haya en esas imagenes.
Para eso se crearon los programas de OCR de reconocimiento de caracteres para que el ordenador pudiera "entender" el texto que hay en las imagenes.
Si dices que los numeros te los reconoce, es posible que el programa que tengas si te haya reconocido algunas cosas, pero el resto no, por eso no te lo encuentra.
Asi que lo que te tocara hacer es buscar un programa que tenga mas calidad y pueda reconocer bien el texto, aunque a lo mejor, ni aun asi consigues que reconozca el texto y te toque finalmente pasarlo a mano.
Salu2

dansan32
09/02/2009, 22:00
Entonces dices que necesito un buen programa de OCR

un saludo

jurjito
09/02/2009, 22:40
Entonces dices que necesito un buen programa de OCR

un saludo

Si, en un principio si lo que quieres escanear tiene buena calidad, con un buen programa a lo mejor consigues obtener mejores resultados.
Salu2

m0nch0
10/02/2009, 09:47
Lo tienes mas facil todavia.

Con PDFCreator imprimes el pdf en caso de que tenga inhabilitado el copiar y pegar. al imprimirlo que queda exactamente igual que el original pero con posibilidad de seleccionar todo el texto, copiar y pegar por ejemplo en un word. Ahora ya puedes hacer todas las busquedas que quieras.

jurjito
10/02/2009, 14:51
Lo tienes mas facil todavia.

Con PDFCreator imprimes el pdf en caso de que tenga inavilitado el copiar y pegar. al imprimirlo que queda exactamente igual que el original pero con posibilidad de seleccionar todo el texto, copiar y pegar por ejemplo en un word. Ahora ya puedes hacer todas las busquedas que quieras.
Pero eso que dices seria en caso de tener un documento pdf de origien en el cual no se pudiera utilizar el texto no? y en cambio en este caso es un pdf creado a partir de una hoja escaneada en la cual el ordenador no ha podido interpretar lo que pone y por eso no se puede seleccionar.
A lo mejor me equivoco, pero creo que es a lo que se refiere dansan.
Salu2

dansan32
10/02/2009, 15:35
Esactamente lo que quiero hacer es:
- cojer una factura
- escanearla y guardarla en un documento el que sea dentro de una carpeta que corresponda con el dia de la fecha
- el dia que necesite buscar algun producto o factura deterninada ir al dia en cuestion y hacer una busqueda en el pdf creado en su dia ( que tendra varias paginas por el volumen de trabajo ) y encontrar facilmente lo que busco y no tener que ir pagina por pagina buscando como hasta ahora en el archivador.

con el ocr no consigo nada


un saludo

pas-pas
10/02/2009, 16:00
Aparte de tener un buen programa de gestión OCR, necesitarás 2 cosas más y que son fundamentales:
- calidad del documento: si el documento está escrito a mano, olvídate. Si está "mecanografiado" cuanto más diferente sea el texto respecto al resto de documento, más fácil será reconocerlo
- calidad del scanner: si el scanner no es capaz de escanear con buena resolución, no habrá nada que hacer.

Yo probaría a escanear la factura a la máxima resolución que permita el scanner (aunque se tirará lo suyo e intentar pasar de nuevo el OCR para ver qué saca). También asegurate que el documento está bien nivelado para que el texto esté paralelo/vertical a la zona de escaneo. Quieras que no, esto también afecta a buen reconocimiento de caracteres.

jurjito
10/02/2009, 16:30
Aparte de tener un buen programa de gestión OCR, necesitarás 2 cosas más y que son fundamentales:
- calidad del documento: si el documento está escrito a mano, olvídate. Si está "mecanografiado" cuanto más diferente sea el texto respecto al resto de documento, más fácil será reconocerlo
- calidad del scanner: si el scanner no es capaz de escanear con buena resolución, no habrá nada que hacer.

Yo probaría a escanear la factura a la máxima resolución que permita el scanner (aunque se tirará lo suyo e intentar pasar de nuevo el OCR para ver qué saca). También asegurate que el documento está bien nivelado para que el texto esté paralelo/vertical a la zona de escaneo. Quieras que no, esto también afecta a buen reconocimiento de caracteres.
Exacto, eso es lo que yo dije, pero mucho mejor explicado y ampliado. :helado:
Si de esta manera sigues sin conseguir buenos resultados, te tocara pasarlo a mano.
Salu2

dansan32
10/02/2009, 23:12
Pues me parece que va ser que no funciona tampoco asi.

Gracias a todos por la molestia, un saludo

Mag
11/02/2009, 00:22
Para hacer búsquedas de texto en pdf no hace falta usar un OCR, tan solo escanear utilizando la función de escanear documentos en lugar de usar escanear fotos, pero como bien ha dicho Pablo la calidad del original y la resolución del escaneado deben ser muy buenas de lo contrario habrá dígitos o palabras que no reconocerá.

Estaba haciendo la prueba con un documento escaneado en pdf y al igual que a Dansan32 algunos dígitos los encuentra y otros solo parcialmente. Hay una palabra que se repite varias veces y encuentra todas menos una, porque esa tiene un pequeño rayón de boli sobre una de las letras.

Por otra parte, mirando por ahi he encontrado una función que no conocía y puede ser muy útil para buscar en todos los pdfs contenidos en un directorio sin tener que abrirlos uno por uno. En este enlace explican como hacerlo (la traducción al castellano deja mucho que desear pero se entiende): [Only registered and activated users can see links] ... t-once/es/ ([Only registered and activated users can see links])

Fran
11/02/2009, 08:40
Con tener una última versión de adobe reader o adobe acrobat sería suficiente para encontrar cualquier palabra en el pdf escaneado, siempre y cuando se haya escaneado como texto y con calidad.

kakatua2004
11/02/2009, 11:09
Después de todo lo que te han dicho, necesitas rezar lo que sepas.

En mi trabajo llevamos muchos años tratando de escanear listados de código fuente con escáneres y OCR siempre de última generación y nanay. Como haya una letra que se le resista, los programas ya no se ejecutan y pasas más tiempo depurando que si lo tuvieras que volver a teclear.

Aunque tu aplicación no es tan crítica, como busques "Sánchez" y en tu documento pdf ponga otra cosa, te vas a desesperar, porque tu estás seguro que tiene que haber un Sánchez. Y eso que son facturas, figúrate que son libros con tropecientas palabras por hoja. No se qué porcentaje de éxito pueden tener los OCR actuales (incluyendo el interno del programa de escanear documentos), porque ya hace tiempo que desistimos, pero supongo que del 95% no suben.

No me preguntes por qué, pero parece ser que los números se detectan mejor que las letras.

Que tengas suerte.

Un saludo.

dansan32
11/02/2009, 22:32
No ya he probado mil y una forma y nada, los resultados son nefastos para trabajar

Gracias a todos