文粹OCR

类型：办公软件
大小：18.67M
平台：WinAll
语言：简体中文
版本：v1.0
时间：2022-09-06 21:58

立即下载

软件简介

基本简介

1．系统概述
a. OCR专业版，OCR全称是光学字符识别技术（Optical Character Recognition，简称OCR）。我公司的印刷体文字识别系统识别率达到或超过99.5%。
这是针对机关单位、企业及有文字录入需求的个人用户，在日常的工作中，快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。
b. OCR SDK版，OCR SDK是光学字符识别二次开发包（Optical Character Recognition Software Develop Kit，简称OCR SDK）。OCR SDK为其它程序使用汉字识别提供了编程的接口。它提供了Windows标准的Dll方式调用，用户可以通过Dll中的函数调用SDK中的汉字识别功能，实现系统集成。
注意：市场上出售的手写板等是“动态”（联机）手写汉字识别，我们现在开发的OCR是“静态”（脱机）印刷体、手写体汉字识别。“静态”手写汉字识别在文字识别领域公认是最高峰、最难克服点，而且“动态”识别与“静态”识别的应用范围完全不同。“动态”识别只相当于一种输入法，“静态”识别不仅仅是一种输入法，它还应用于更广的范围。

2．系统特色
a. 本识别技术的特色是“不采用行扫描，历遍位图中的所有点”。采用汉字结构分拆假设法、抽取线条整形法等算法，计算原始点阵的笔画穿透数目，从而确定方向线素特征，从汉字笔画描述库中检索出汉字。为提高识别准确性，还采用了周边四角特征、任意连续三点特征抽取、轮廓描述等辅助算法来进行检验。
b. 使用流线式扫描并识别，扫描识别一键OK。

3．运行环境
运行环境 Windows 9x/Me/NT/2000/XP
最低配置 CPU 300 MHZ以上，64M内存以上(建议128M以上)

4．技术、质量概述
识别速度：在PIII 1.2G处理器256M内存的PC机上，4至6秒/A4页。
识别字体：全自动识别宋、仿宋、楷、黑、圆、隶书等百余种中文简体，英文、数字、图片混排的稿件。
识别语言：简体中文
单字识别准确率：印刷体汉字≥99%
联想识别准确率：印刷体汉字≥99.5%
支持文件格式：BMP、TIF、TIFF、JPG、JPEG、PCX、TGA、DIB、EMF、WMF。
输出格式：TXT、RTF。
识别要求：5号字体以上的印刷材料，可选择扫描分辨率为300dpi以上，字体越小要求分辨率越高。
其它功能：自动倾斜更正、去除指定颜色、保留指定颜色、灰度处理等。
支持硬件：普通扫描仪、名片扫描仪、逐行扫描笔、数码相机、带数码相机功能的手机等。

5．技术应用：
1) 办公自动化中汉字文件资料自动输入，汉字图像文本的压缩存储、传输。
2) 书刊自动阅读器，盲人阅读器。
3) 数字图书馆的建设，档案资料数字化，建立汉字文献档案库。报刊﹑杂志﹑书籍等黑白彩色印刷品的数字化及电子出版，书刊、资料的再版输入。
4) 车牌辨识系统。分别应用于：交警对超速和闯红灯的车牌识别、高速公路收费。
5) 身份证识别，这是一种采用高效识别算法将身份证各部分进行识别且将识别结果按特定应用进行管理的系统，可用于行政单位、工厂企业、银行等，如：考勤管理(代替考勤卡)、身份快速确认(门禁系统)、银行等单位的身份证号码快速录入。
6) 邮政编码识别与分拣。在这之前，由于手写文字识别率不高，因此邮政编码识别与分拣还没有得到广泛的应用。
7) 考卷评改系统。在这之前，由于手写文字识别率不高，因此考卷评改也没有得到广泛的应用。
8) 中文古籍数字化。过去从事一项课题研究，常常要花上三、四个月时间搜集资料，而且尚无查全把握。古籍数字化后，利用数字化的古籍检索可在瞬间完成，再花一点时间确认、拷贝，马上就可投入新的研究及其论文撰写，科研工作效率显著提高，而且对古籍内容挖掘的深度和广度也是过去手工办法无法比拟。
9) 智能全文信息管理系统、多媒体应用系统、自动翻译系统。