|
不知道OCR的好处?老觉得辨识率不尽人意
白纸黑字扫进e时代
利用OCR,你可以轻易地做出在网络上流传的电子书、歌词等文件,节省你敲键盘的时间;如果平常有剪报的习惯,也不妨借助OCR把内容数字化后,再进行整理……
当我们把文件借助扫描仪转成电脑里的文件时,它是以一张张图片的格式来存放的。如果你想就文字本身的内容来做进一步搜寻或管理,那么首先得把图片转换成一般的文本文件才能遂愿。
所谓的OCR(Optical character recognition,光学文字识别)便提供了这样的功能;把平面文字转换成电子文档。借助这样的特性,我们可以把长篇文件轻易地进行数字化工作而无须重新输入,诸如书籍、报刊杂志等内容都能够更有效率地加以管理。
这两年来在CPU的竞速下,系统的整体效率快速提升,人工智能也被应用到OCR软件中,如自动分析、词库校稿等功能让这类软件的辨识率有了很长足的进步,可以算是当前非常便利的输入方式。
OCR的常见应用
电子书 利用OCR,可以轻松地做出在网络上流传的电子书、歌词等文件,有效地省下敲键盘的精力与时间。
资料库 如果平常有剪报的习惯,不妨先借助OCR把内容数字化,再利用电脑来进行搜寻、整理工作。
原稿翻译 在翻译外语文件的场合,采用OCR再搭配翻译软件都是不错的主意。
文件管理 把重要的公文、传真等扫描归档,让你不会再有文件遗失之虞。
名片分类 苦恼名片太多无法整理?搭配专门软件可以更有效率地把它们一一纳入电脑管辖。
网页制作 想做出图文并茂的个人网页?善用OCR工具让你事半功倍。
OCR的辨识流程
在中文辨识方面,目前市场上有好多种类,它们也常随着扫描仪一块搭售,无论中英文字体,都有不错的辨识率。下面我们以Canon酷系列扫描仪和它所搭配的RosettaStone识别软件来示范OCR辨识的流程。
原稿影像撷取
1 这个系列的扫描仪上有一个扫描按键,按下它就可以打开扫描工具栏。
按一下这里。

2 工具栏中自定义2是RosettaStone识别软件的快捷方式,可以参考下面设置调整各项扫描参数。
按一下这里就开始扫描。

设定选项
1 工具栏中的各项功能都有需要设置的选项,它们都在"设置"按钮中进行设置。
按一下这里。

2 自定义2选项卡就是设置RosettaStone识别软件扫描参数的地方。
按一下"自定义2"选项卡。 在"简易获取的设置"栏内可以设置扫描的简单参数。

注意:一般情况下,识别软件通常建议以300dpi的分辨率来进行稿件扫描,但在某些识别软件中若以600dpi进行识别时,原先无法正确显示的k、r字母就能被辨识出来了,只是在中文段落的区域分割上会出现一点问题。倘若你的文件内以英文字体为主,不妨采用600dpi试试看。
3 扫描结束后会自动打开RosettaStone识别软件,由于只使用了黑白两色,所以扫描后的图像看起来非常粗糙。

辨识区域的划分
1 在进行文字识别之前,要先进行辨识区域的划分,以便识别软件更好地识别。这里有两种划分方式,通常使用"自动区域划分"的方式。
按一下这个向下的箭头。 选择"自动区域划分"。

2 选择好后按下区域划分的按钮开始区域划分。

3 自动区域划分会将一些不需要辨识的图形也划为一个区域,所以需要自己手动做一些区域划分的修正,最常做的动作就是将不需要辨识的区域删除。
用鼠标右键点一下需要删除区域的标识。在出现的菜单中选择删除。

4 经过整理后的区域显得很明确,下一步就可以开始进行识别了。

文字识别
1 在进行文字识别时有两个优先级,分别是速度优先和精度优先,为了能有较好的识别率,一般采用精度优先。
按一下这个向下的箭头。 选择"精度优先识别"。

2 按下识别按钮开始识别文字。

3 识别出的文字会在一个文本框中显示。

校稿
1 识别出的文字当中会有一些错字,你可以在左边的图像和右边的文字间做一些对比,修改其中的错字。
在选择有错误的文字时,左边图像中的相应部分也会作出标示,方便你的校对。

存为文本文件
1 修改完毕后,把辨识结果存为文本文件。
按一下这个向下的箭头。 选择"保存到文件"。

2 按下保存,在出现的对话框中填写文件名进行保存。
按一下这里进行保存。 在这里填写要保存的文件名,这里就存为"速度的还原"。 按下[保存]保存文件。

3 这个文本文件就是数字文稿了,不过这里还是会有一些校稿时遗漏的错误,需要作一些修正。

提升识别率的小秘诀
1 不对原稿进行"去网纹"动作。有利于OCR软件辨识的原稿是锐利度高且黑白对比分明。虽然杂志之类的印刷品在扫描时会有网纹产生,但"去网纹"会使原稿变的模糊,反而不利于OCR辨识,因此不去网纹才是上策。
2 重新扫描节省时间。有时因为原稿影像的浓淡度不均、角度不正或是不够清晰,使得识别率下降,使用者得花更多的时间来进行校正。这时不如试着重新扫描一次,调校一下各项参数,说不定反而更能节省时间哩!
3 多花心思在识别区域的划分上。虽然软件内提供有自动区域划分的功能,但如果原稿的版式设计较为复杂,不如再以手动的方式来仔细调整一番。只要各段落泾渭分明、文字与图案不要夹杂不清、横书直书加以分离,都可以有效地节省你校稿的精力。
4 原稿品质须留意。如果原稿本身的图像杂讯多、字体也不分明,那么再聪明的OCR软件也是力不从心的。如传真文件的分辨率较差,热感应纸上也常会有黑色斑点,如果非得用来进行识别的话,最好能先用识别软件内附"橡皮擦"之类的工具来修正背景杂点。
插文:常见的"特殊"情况

各家安全锁定装置的位置都不一样,你得细心地找找。
扫描仪内的感光元件是活动式的构造,如果受到外力撞击的话很可能会导致元件位移,扫出奇怪的图片,整台扫描仪也就报销了,因此有的机型会加上"安全锁定装置",将感光组固定起来。所以若是需要搬动扫描仪的话,请切记先把安全装置切换到上锁位置。不过并不是每台扫描仪都会有这种装置,通常在中高档的扫描仪机型中才会搭附。
新手最常犯的错误就是开始扫描时忘了解除锁定装置,这时机件摩擦所发出的杂音,可能会把你吓一大跳喔!
报纸识别堪称是难度最高的OCR识别操作了。它的段落区域变化极多,边缘处的黑白区段又会被当做图形来处理,辨认结果往往不尽人意。这时最好能剪裁成一区一区的方式个别辨认,或是以手动的方式自行进行区域划分。

图像处理小常识
滤镜(Filter)
套用粗粉蜡笔的滤镜后,普通的照片看来就像是一幅蜡笔画。
 
在进行图像处理的时候,滤镜效果是不可或缺的一环。在Photoshop 5.0中,提供有100个滤镜可供使用者选用,比方说浮雕、炭笔或是光源等效果,随意套用一下就会为你的作品带来迥然不同的特殊风貌。
其实,说穿了所谓的"滤镜"不过是借助数学的"矩阵"运算来改变原先的像素资料罢了。每个"滤镜"都有其特定的矩阵参数,当它们套用到
图片上的时候,电脑便会把像素的资料跟矩阵参数进行运算,由此得出一些特殊效果。
|