如何把一本书扫描入库?

it2024-08-20  36

@原文地址请关注私人博客: http://www.lotushy.com/?p=100

先谈方法

切书打印机托盘入纸自动扫描成pdf导出图片ocr识别文字校对

再谈下成本

打印社扫描的成本是一面5毛我扫的书比较多,不舍得花钱,让小助手用公司打印机扫描的 人力成本一天大概2小时(不经常卡纸的话,含导出pdf并转图片的时间)识别成本:使用服务器,一页识别大概在13秒钟,定时批量处理即可

扫描时的注意事项

分辨率不低于300dpi,我用的是400dpi黑白双面拼接

OCR识别方法

使用tesseract工具识别,命令行用法如下:

#!/bin/bash # linux操作系统下运行哦 page='page_1.jpg' # 页码 page_name='page_1' # 输出文件名称,后辍固定为txt tesseract ${page} ${page_name} -l chi_sim -c chop_enable=0 -c tessedit_write_images=1

如果不是技术人员,可以联系我(liangtaohy@gmail.com)。我可以帮提取文字,但要是需要校对的话,那要给小助理工时费了,哈哈。

转载于:https://www.cnblogs.com/lotushy/p/8341807.html

相关资源:5行代码实现微信网页中扫一扫,域名无须备案就能在自己网页中实现扫描二维码,绝对物有所值
最新回复(0)