1、方案概述
近年来全球化进程日益加深,人员货物出入境总量越来越多,流通速度越来越快,来自世界各地的人们携带了大量的形形色色的商品出入境,商品标签语种也不尽相同,海关关员检查违禁品的工作强度和难度也越来越大。
针对行业存在的课题,为了提高查验效率,降低劳动强度和难度,鲁朗软件深入研究OCR技术在商品标签识别领域的应用特点,有针对性地进行升级优化。OCR主要包括两个环节,一是文字检测,二是文本识别。文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。到目前为止,印刷文本的OCR技术已经比较成熟了,也得到了广泛的应用。但是标签粘贴于商品上面,受包装物的影响,就容易发生形变,再加上内容欠缺上下文关系,识别精度大大降低。
随着人工智能的快速发展,鲁朗软件利用深度学习框架和算法,基于海量标注数据进行对象检测模型训练,将传统OCR技术和新型人工智能技术相结合,获得了较高的文本识别精度。同时结合敏感词搜索和智能翻译能力,开发了面向一线海关关员的智能终端效率工具,可大大提高通关效率,提升监管质量。
2、技术创新
本系统将商品标签预处理算法部署在APP端,将智能OCR能力、敏感词库及智能检索功能部署在云端,将敏感词库从关系数据库加载到内存中,可根据业务运营情况及时升级OCR智能算法,提高印刷标签的识别精度;快速调整敏感词库;升级敏感词检索算法,充分发挥云端系统的优势,保证前端业务顺利进行。
(1)识别算法
本项目基于CNN的神经网络作为特征提取手段,配合大量的商品标签标注数据,增强了特征提取的健壮性。对于商品标签可能出现的模糊、扭曲、畸变、复杂背景和光线不清等图像问题不断进行算法优化,得到了较高的识别精确度。对于海关面对的多语种场景,对常见的数十种语种进行了支持,均可得到较好的识别结果。
(2)多语种敏感词库
从海关关检的角度,商品中含有违禁成分是风险要素的一种。在商品印刷标签的智能识别之后,还需要进行敏感词库的检索查询,以判断商品标签中是否含有违禁成分,因此,多语种敏感词库建设非常重要。针对海关面对的多语种的复杂环境,我们建立了可扩展的多语种敏感词库,可持续在线升级优化。对相同成分的不同名称(别名、缩写等),都纳入敏感词库。本项目敏感词库来源于:
麻醉药品和精神药品品种目录
关于加强麻醉药品精神药品增补目录
中国严格限制进出口的有毒化学品目录(2014年)
两用物项和技术进出口许可证管理目录
进出口野生动植物种商品目录
国家体育总局2020年兴奋剂目录
禁止进口废物管理目录
(3)敏感词库智能匹配算法
根据商品标签文本识别中,由于受商品外形、环境光线等因素的影响,会出现大量文本的弯曲、变形、不完整等问题,不可避免地出现文字识别错误、文本遗漏等问题。为提高系统的整体可用性,在敏感词库的智能搜索算法上,我们对以下三个主要问题进行了专门优化:
大小写敏感的问题
OCR相似易错字符问题
字符匹配容错问题
对上述优化策略,设置了可以在管理平台端进行配置的功能,根据试用过程中的效果不断优化调整,逐渐获得最佳应用效果。
3、系统组成
(1)手机App
以手机App为载体,支持市场常见的Android和Ios智能手机,方便一线人员安装使用。
海关人员进行进出口商品检查时,启动鉴识APP并登录后,对准商品标签进行拍照,也可从相册选择照片,然后进行图片裁剪保留识别主体,即可将商品标签内容转化为文本,并智能检测是否含有风险因素。发现违禁成分时会给出明显的告警提示,并提供一键复制去翻译的功能,方便海关人员进一步确认。
(2)云平台
本系统将智能OCR能力、敏感词库及智能检索功能部署在云端,将敏感词库从关系数据库加载到内存中,可根据业务运营情况及时升级OCR智能算法,提高印刷标签的识别精度;快速调整敏感词库;升级敏感词检索算法,充分发挥云端系统的优势,保证前端业务顺利进行。
4、应用测试效果
使用日常商品标签图库、互联网搜索引擎等获取商品标签图22张。其中含有违限成分10张。此外,为进行多语种识别测试,选择一段比较典型的文字:“三唑仑是一种镇静催眠药,因半衰期超短,只有1到2个小时,临床上多用于以入睡困难为主的失眠病人,但因其成瘾性极强,在中国已归入精神药品一类管制”,将上述文字做成各种语言版本的商品标签,形成56张测试图集。
上述照片都已做好记录,人工获得每张图片内的文字、字符个数和单词个数,并检查里面包含的违限成分情况。将上述测试图片集逐个输入应用软件系统,记录识别和违限成分检测结果,并按以下方法评价识别精度和性能:
1、字符识别准确率TP1,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况。
2、字符识别召回率TP2,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用。
3、违限成分检出率TP3
TP3 = 检出数量/含有违限成分图片总量*100%
4、检测性能
利用耗时检测性能,以ms为单位。
5、支持语言一览表
语种 | 缩写 | 说明 |
Afrikaans | af | 南非语 |
Arabic | ar | 阿拉伯 |
Assamese | as | 阿萨姆语 |
Azerbaijani | az | 阿塞拜疆 |
Belarusian | be | 白俄罗斯语 |
Bengali | bn | 孟加拉 |
Bulgarian | bg | 保加利亚 |
Catalan | ca | 加泰罗尼亚 |
Chinese | zh | 中文 |
Croatian | hr | 克罗地亚语 |
Czech | cs | 捷克语 |
Danish | da | 丹麦语 |
Dutch | nl | 荷兰语 |
English | en | 英语 |
Estonian | et | 爱沙尼亚语 |
Filipino | fil | 菲律宾语 |
Finnish | fi | 芬兰语 |
French | fr | 法语 |
German | de | 德语 |
Greek | el | 希腊语 |
Hebrew | he | 希伯来语 |
Hindi | hi | 印地语 |
Hungarian | hu | 匈牙利语 |
Icelandic | is | 冰岛语 |
Indonesian | id | 印尼语 |
Italian | it | 意大利语 |
Japanese | ja | 日语 |
Kazakh | kk | 哈萨克语 |
Korean | ko | 韩语 |
Kyrgyz | ky | 吉尔吉斯斯坦语 |
Latvian | lv | 拉脱维亚语 |
Lithuanian | lt | 立陶宛语 |
Macedonian | mk | 马其顿语 |
Marathi | mr | 马拉语 |
Mongolian | mn | 蒙古语 |
Nepali | ne | 尼泊尔语 |
Norwegian | no | 挪威语 |
Pashtu | ps | 普什图语 |
Persian | fa | 波斯语 |
Polish | pl | 波兰语 |
Portuguese | pt | 葡萄牙语 |
Romanian | ro | 罗马尼亚语 |
Russian | ru | 俄语 |
Sanskrit | sa | 梵文 |
Serbian | sr | 塞尔维亚语 |
Slovak | sk | 斯洛伐克语 |
Slovenian | sl | 斯洛文尼亚语 |
Spanish | es | 西班牙语 |
Swedish | sv | 瑞典语 |
Tamil | ta | 泰米尔语 |
Thai | th | 泰语 |
Turkish | tr | 土耳其语 |
Ukrainian | uk | 乌克兰语 |
Urdu | ur | 乌尔都语 |
Uzbek | uz | 乌兹别克语 |
Vietnamese | vi | 越语 |