图书数字化加工流程方案
1、 图书的主要类型为地方志和地名志,图书的出版日期跨度比较大,有70、80年代的图书,以90年代以后的图书为主。也有比较古老的书籍,这些古老的书籍数字化是非常要注意的,需要用到专业的古籍数字化设备。

3、图书内容的分类一本书分为四个部分正文、前言、图片和后记四个部分。1)正文从正文的第一页到正文的最后一页的所有图书页。2)前言正文第一页之前的所有文字页。3)图片书中不算页码的所有图片。4)后记正文最后一页到图书结束的所有文字页。

5、扫描时注意阀值,对比度,亮度这三个方面值的调整。这三个值的设置关系到扫描图像的质量和对后期OCR文字处理环节有较大的影响。同时要注意图书页码的顺序,不要缺页,没有重复页码的出现
6、图像处理及质检1、图像处理 使用专业的书刊扫描仪图像可以自动处理,图像处理环节主要是对扫描的兔脒巛钒图像进行去黑边、去杂点、校正的处理,保证阅读,同是也是为下一环节OCR文字处理做准备,提高文字识别的正确率。2、图像质检 本环节是对图像处理环节的结果进行质检,进一步保证图像的质量和页码的正确性和对应关系,同时也是进一步提高OCR文字处理环节的文字的识别率。注:如图像处理环节对图像的处理达到标准,此环节可以省略。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:89
阅读量:59
阅读量:70
阅读量:24
阅读量:76