搜索
您的当前位置:首页正文

OCR汉字识别系统获取纸质图片资料文字信息技巧

2021-06-19 来源:汇意旅游网
OCR汉字识别系统获取纸质图片资料文字信息技巧 19l OCR汉字识别系统获取纸质图片资料文字信息技巧 钟子结韦军 朱凤印 (吉林大学教育技术中心吉林长春130012) 摘要:OCR汉字识别系统通过扫描仪扫描,能快速将纸质文本信息转换成word可编辑文本,极大地提高了 工作效率。因此汉字OCR识别技术有着广泛的发展前途及实际应用价值,文章提到的具体操作方法可以有效地 应用于实际工作当中 供同行参考。 关键词:OCR汉字识别系统原理方法技巧 中图分类号:TP391文献标识码:A文章编号:1009-5349(2017)16-0191-03 一、什么是OCR? 纸质资料。 OCR是(Optical Character Recognition)的缩写,即光 予处理器是指对印刷的纸质资料文稿页.进行成分分 学字符识别.也可简称文字识别。它的工作原理就是通过 电子设备检查纸质资料上打印的字符.采用光电转换装置 将汉字或字符转换成电信号。并由计算机进行检测暗、亮 的模式确定其形状.然后用字符识别方法将形状翻译成计 算机文字的过程。… 衡量OCR系统性能优劣主要指标有:拒识率、误识 析、字符的分割、去干扰等。 后处理器是对识别后的词组、词条和上下文关系进行 后期纠错、输出。 三、OCR适合对象_4] (1)印刷行业、文印店经常会遇到客户只给你一本厚 厚的宣传册,要明天之前必须把那本宣传册上的文字原原 本本打出来。OCR能极大地减轻录入工作强度、提高录入 速度,是非常快捷、省力的好帮手。 (2)办公室工作人员经常会遇到要马上把纸质文本打 印成Word文档的工作,对于打字慢或是懒得打字的人,为 了完成工作任务。OCR是非常好的选择。 (3)其他对象:广泛应用于网上资源数据库、数字化 图书馆、档案部门,尤其是对于原始纸质文件、档案、书 稿等的引用、检索数字化工作,OCR能轻松提高效率。 率、识别速度、用户界面的友好性,产品的稳定性.易用 性及可行性等。_2 早期的OCR软件在识别率等方面不是很 理想。文字识别的工作只能由简单的识别软件逐字进行, 无法分辨不同的字体,对于手写体或是印刷效果不清晰的 印刷品,在识别上有一定的难度。有人做过实验,对于印 刷品模糊或是手写体过于潦草的汉字,识别后的修改时间 与正常打字的速度相差不多,有时甚至还赶不上人工打字 的速度。但是随着这项技术的日趋成熟,识别软件已经进 入了人工智能阶段,它不仅能识别黑白印刷体汉字,还能 识别灰度和彩色印刷体汉字.识别正确率能达到99%.对 四、OCR系统识别汉字的方法 文字识别模块是OCR软件的核心部分.它主要对输入 的汉字进行“阅读”,但不能一目多行,必须逐行切割. 一于手写汉字识别率已达到70%以上,对于大批量的印刷文 字向电子文档的输入,OCR汉字识别效率与识别率都能让 用户十分满意。[3-12 3 个个字的辨认,即单字识别,再进行归一化。文字识别 模块通过对不同样本汉字的特征进行提取.完成识别。自 动查找可疑字,具有前后联想等功能。[4 (一)汉字识别所需硬件、软件 一二、原理与功能模块f4] OCR的功能是将各种录入汉字、印刷体或手写体中每 个汉字的图形或图像通过计算机辨认出来.并标出汉字类 别代码,从而获取文字及版面信息的过程。l2]因此,汉字识 别归根结底是一个图像识别问题。由于汉字信息量很大. 般来说进行汉字识别只需要一台计算机、扫描仪即 可。OCR汉字识别软件在购买扫描仪时会自带.安装在本 机上运行即可。不同的扫描仪所附带的OCR汉字识别软件 是不一样的。目前,市面上的OCR软件有丹青、汉王、蒙 具有不同的字形、字体,而且结构复杂,因此汉字识别的 过程极其复杂。汉字识别系统可由汉字图形输入装置、予 处理器、识别器、后处理器几部分组成。如图l所示。 恬OCR、清华紫光、尚书等。OCR软件的种类虽然很多, 但其使用方法大同小异。现以清华紫光0CR2003专业版为 例,介绍其具体操作过程和使用技巧。【5 清华紫光 OCR2003专业版具有识别率高、支持表格识别等特点,流 国一因一目一因 图1 程分为四步:获取识别图像;图像版面处理;识别及修改; 结果输出。l6 (二)设置扫描模式及扫描 汉字图形输入装置主要功能是通过光、电输入设备, 将原稿转换成二维点阵图形。所谓的原稿指的就是印刷的 在本机上安装好清华紫光OCR2003千禧版之后双击桌 作者简介:钟子酷,吉林大学教育技术中心高级工程师,硕士,研究方向:教育技术;通讯作者:韦军,吉林大学教育技术中心,硕 士,研究方向:教育技术;朱凤印,吉林大学教育技术中心工程师,本科,研究方向:教育技术。 ,92 现代交际・2017年l6期 面图标,打开扫捕仪对扫描参数进行设置。如果选择“直 接终扫”.系统只进行一次扫描。“直接终扫”能节约时 间,但是前提是要把需识别的纸质文本在扫描仪中放好, 扫描时尽量不要出现歪斜现象。 ・手写体——要求笔记规范、不潦草 (2)在展开的左侧面板下扣列表中选择“TMP0000. TXT”,同时。软件右侧会自动 示需识别的扫描文字.如 图3所示 扫描时采用的分辨率是识别过程的关键。一般杂志或 报纸需300dpi的分辨率就能足够供OCR产生良好的识别效 果,以激光打印机输出设备的纸质文件在300dpi的扫描品 质下,识别率可以达到99% 扫描完成后.利用紫光 图3 OCR2003千禧版对该纸质文件进行识别。拖动中间或是右 侧丁作区域内的蓝色线框,可调整识别范围,框选部分颜 色会以黄色 示.如罔2所示。、 (3)点击OCR系统工具条中的【全部识别】_礴按钮 之后,面板被分为上下两部分,如图4所示,其中上部分 示已经识别H{来的字符,下半部分是扫描原稿 识别体 现OCR的核心技术。从扫描文本中分检fII的文字图像,计 算机根据方案的笔面、特征点、投影信息、点的区域分布 等进行分析,并将其转变成文字的标准代码的过程。ll 闸略识州范嘲 调整后散 图2 黧糍 一: : 论文投稿要求 吉韩省{I物院掌术讨论套参会八员忸限奉单位在职职工【 “ 工).‘吉抖省博袖院文集’收录参台人盟握交始学术讨论袅 e_, (三)倾斜矫正和版面分析 OCR系统有自动倾斜矫正和手动倾斜矫正两种方式, 建议使用自动倾斜矫正。由于印刷和用户多方面操作的原 因,扫描得到的图像可能有一定的倾斜角度.尤其是小的 倾斜角度,在扫描中难以避免,倾斜角度小OCR系统可以 自动适应,无须任何处理就可识别:倾斜角度小于1o__l5 度时可以先进行倾斜矫正,然后再进行识别处理:如果倾 斜角度大于I5度的图像,建议重新扫描。 。 图4 罔中醒目的红色汉字,表示系统识别认为有误,需要 版面分析是指将扫描得到的图像.划分}}{每一个[x二域 块,目的是告诉OCR软件将同一版面的文章、表格等分 开,以便于分别处理,并按照一定的顺序进行识别。对于 进一步识别和确认 同时,系统还提供了相似的文字供选 择。因为大部分汉字已经被识别,红颜色显示的只有小部 分,需要使朋者逐个比对。如果想要对于识别过的罔像进 行再次识别,系统会出现对}舌框,提示是否覆盖已有的识 别结果 划分出的区域范围。简单的图像版式笔者建议使用自动分 析,报刊等复杂版式建议采用手动分析.以免遗漏所要识 别的文字 、 (四)进行文字识别 (4)对已识别的文字进行保存。点击【导出】按钮 一【保存类型】一】,或Word的RTF文件,文件名 为“扫描l”。用记事本打开识圳“扫描1”文件并将其拷 贝/粘贴在word中,对其进行编辑和格式调整即可。 扫描后的图像文件,经过倾斜矫正、版面分析等处理 后,即可进入识别阶段。识别窗口菜单栏上有“横排正 文”按钮匿和“竖排文字”按钮 ,如果没有其他的 五、结语 使 }{==l OCR软件时要保证E;PB0品的清晰度.是真正提高 复杂的内容,一般默认用匮就可以,不用进行版面分析 就能识别。识别是OCR系统的核心.为了保证正确地识 别,应按以下的步骤进行。 ]二作效率的关键,如何除错或利用辅助信息提高识别正确 率,仍是OCR最重要的课题.. 参考文献: (1)选择正确地识别字体。 选择丁具面板上的 而蓐 ・按钮旁边的小黑i角,根据识别网像的 具体情况选择字体。 简体多体(印刷体)——常见的宋体、仿宋体、黑 繁体多体(印刷体)——常见的宋体、仿宋体、黑 纯英文(印刷体)——常见的英文多种字体 体、楷体、圆体 ・[1]徐永芳.OCR技术在档案数字化过程中的应用 [J].艺术科技,201l(2). [2]OCR文字识别系统[EB/OL].http://zhidao. baidu.corn/question/277594055.html,201 1-06-09. 体、楷体、圆体 ・(下转第190页) 9O 现代交际・2017年16期 实施人才强国战略的根本。管理的核心实质上就是人才的 管理,人才管理的目的是最大限度地发挥每个人才的作用, 人才管理的作用是最大限度发挥国家管理系统的整体功能。 3.做到人才这种重要资源的优化配置 清代思想家魏源说过:不知人之短,不知人之长,不 知人长中之短,不知人短中之长,则不可以用人。如果可 理,使唐朝初期能够广纳天下的贤才,并充分发挥他们治 国理政的才能,开创了一代盛世。在当今世界,人才的培 养、人才的素质、人才的使用,决定了一个国家的发展潜 力,我们必须建立和完善科学人才管理体系.我国社会主 义建设事业才能始终充满生机和活力,不断增强我国的综 合竞争力。 以发挥每位人才的特长。并使之组成结构合理的一个群体, 就能放大每位人才的作用,倍数提升其整体的作用能效。 而对每位人才个体而言,其术业有专攻,有的善于带军打 仗,有的长于经济建设,有的精于社会治理。领导者应综 参考文献: [1]魏晓彤.唐太宗的人才思想与现代人才管理[J]. 科学与管理,2004(5):47—49. 合考虑他们的才能特长,优化组合,使他们能够作为一个 整体,形成人才的聚集效应,放大人才的个人能力及作用 的发挥。树立起人才是社会、科技、军事、经济发展最重 [2]熊苹.唐太宗的用人思想及其影响[J].船山学 刊,2003(2):88—89. [3]张东光.唐代担保文书在科举和铨选考试中的作 用,山西档案,2013(6):78—80. [4]马永忠.唐太宗的人才观及其启示[J].甘肃高 师学报,2007(4):128—130. 要资源的理念,积极为人才干事、创业营造良好外部环境, 为他们提供创业的机会、施展才能的舞台、个人发展的空 间,做到人才这种重要资源的优化配置。 总的看来,唐太宗对人才的管理,能够坚持客观标准, 明察得失,综合考虑.提倡人才的实际工作能力,根据品 德行为.舍人所短,用人所长,并能新旧亲疏并举.广开 [5]曹华.唐太宗李世民用人思想浅析[J].新乡教 育学院学报,2004(6):l9—2O. 责任编辑:孙瑶 才路,正是这种在当时来看是科学、适当的人才使用与管 (上接第192页) [3]白桦.提高OCR识别率[J].电脑知识与技术, 2004(34):4. [12]深入探究光学字符识别软件——0cR[EB/OL] 2004—05—13[2012—03—08].http://info.printing.hc360 corn/HTML/001/010/001/29952.htm. [4]丁龙,陆俞,颜世崇.汉字OCR的原理、方法与 应用[J].高师理科学刊,1998,18(6):19-21. [5]王桂敏,齐凤河.OCR软件使用经验浅谈[J].科 技信息,2006(6):18. OCR Chinese character recognition system to obtain paper picture information text information skills [6]詹庄影.OCR文字识别系统使用技巧[J].华南 金融电脑,2002(11):81. ZHONG Zizhe, WEIJUN,ZHU fengyin Educational Technology Center,Jilin University,Chang・ chun 130012,China Abstract:OCR Chinese characters recognition system is scanned by a scanner,can quickly be paper text information into [7]印刷体OCR识别技术[J].企业标准化,2004 (5):44. [8]蓝色理想.OCR图片文字识别图解教程[EB/ OL].2006-11-20[20012-03-08].http://www.blueidea. corn/computer/soft/2006/4278.asp. Word editable text,improved work efficiency greatly,SO the Chinese characters OCR recognition technology has a broad de— velopment prospects and practical value,this article refers to the [9]可可豆.自己动手提高OCR识别率[J].广东电 脑与电讯,2003(3):81. specific operation method can be effectively applied in practical work,for reference. [10]OCR文字识别技术[EB/OL].2006—03—07 [20012—03—08].http://news.pack.cn/packteehnology/ bzxjs/2006—03/2006030714050309.shtm1. Key words:OCR Chinese characters recognition system, Principle,Method,Skill, [11]浅谈文字识别软件OCR[EB/OL].http://wen- kll haidl】. nm/v iew/5961 el68af1 f 4ffe47ae58.htm1. 责任编辑:孙瑶 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top