鲁朗软件(北京)有限公司

搜索

智慧海关-多语种商品标签识别

副标题

1、方案概述

近年来全球化进程日益加深，人员货物出入境总量越来越多，流通速度越来越快，来自世界各地的人们携带了大量的形形色色的商品出入境，商品标签语种也不尽相同，海关关员检查违禁品的工作强度和难度也越来越大。

针对行业存在的课题，为了提高查验效率，降低劳动强度和难度，鲁朗软件深入研究OCR技术在商品标签识别领域的应用特点，有针对性地进行升级优化。OCR主要包括两个环节，一是文字检测，二是文本识别。文字检测主要解决的问题是哪里有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息。到目前为止，印刷文本的OCR技术已经比较成熟了，也得到了广泛的应用。但是标签粘贴于商品上面，受包装物的影响，就容易发生形变，再加上内容欠缺上下文关系，识别精度大大降低。

随着人工智能的快速发展，鲁朗软件利用深度学习框架和算法，基于海量标注数据进行对象检测模型训练，将传统OCR技术和新型人工智能技术相结合，获得了较高的文本识别精度。同时结合敏感词搜索和智能翻译能力，开发了面向一线海关关员的智能终端效率工具，可大大提高通关效率，提升监管质量。

2、技术创新

本系统将商品标签预处理算法部署在APP端，将智能OCR能力、敏感词库及智能检索功能部署在云端，将敏感词库从关系数据库加载到内存中，可根据业务运营情况及时升级OCR智能算法，提高印刷标签的识别精度；快速调整敏感词库；升级敏感词检索算法，充分发挥云端系统的优势，保证前端业务顺利进行。

（1）识别算法

本项目基于CNN的神经网络作为特征提取手段，配合大量的商品标签标注数据，增强了特征提取的健壮性。对于商品标签可能出现的模糊、扭曲、畸变、复杂背景和光线不清等图像问题不断进行算法优化，得到了较高的识别精确度。对于海关面对的多语种场景，对常见的数十种语种进行了支持，均可得到较好的识别结果。

（2）多语种敏感词库

从海关关检的角度，商品中含有违禁成分是风险要素的一种。在商品印刷标签的智能识别之后，还需要进行敏感词库的检索查询，以判断商品标签中是否含有违禁成分，因此，多语种敏感词库建设非常重要。针对海关面对的多语种的复杂环境，我们建立了可扩展的多语种敏感词库，可持续在线升级优化。对相同成分的不同名称（别名、缩写等），都纳入敏感词库。本项目敏感词库来源于：

麻醉药品和精神药品品种目录
关于加强麻醉药品精神药品增补目录
中国严格限制进出口的有毒化学品目录（2014年）
两用物项和技术进出口许可证管理目录
进出口野生动植物种商品目录
国家体育总局2020年兴奋剂目录
禁止进口废物管理目录

（3）敏感词库智能匹配算法

根据商品标签文本识别中，由于受商品外形、环境光线等因素的影响，会出现大量文本的弯曲、变形、不完整等问题，不可避免地出现文字识别错误、文本遗漏等问题。为提高系统的整体可用性，在敏感词库的智能搜索算法上，我们对以下三个主要问题进行了专门优化：

大小写敏感的问题

OCR相似易错字符问题

字符匹配容错问题

对上述优化策略，设置了可以在管理平台端进行配置的功能，根据试用过程中的效果不断优化调整，逐渐获得最佳应用效果。

3、系统组成

（1）手机App

以手机App为载体，支持市场常见的Android和Ios智能手机，方便一线人员安装使用。

海关人员进行进出口商品检查时，启动鉴识APP并登录后，对准商品标签进行拍照，也可从相册选择照片，然后进行图片裁剪保留识别主体，即可将商品标签内容转化为文本，并智能检测是否含有风险因素。发现违禁成分时会给出明显的告警提示，并提供一键复制去翻译的功能，方便海关人员进一步确认。

（2）云平台

本系统将智能OCR能力、敏感词库及智能检索功能部署在云端，将敏感词库从关系数据库加载到内存中，可根据业务运营情况及时升级OCR智能算法，提高印刷标签的识别精度；快速调整敏感词库；升级敏感词检索算法，充分发挥云端系统的优势，保证前端业务顺利进行。

4、应用测试效果

使用日常商品标签图库、互联网搜索引擎等获取商品标签图22张。其中含有违限成分10张。此外，为进行多语种识别测试，选择一段比较典型的文字：“三唑仑是一种镇静催眠药，因半衰期超短，只有1到2个小时，临床上多用于以入睡困难为主的失眠病人，但因其成瘾性极强，在中国已归入精神药品一类管制”，将上述文字做成各种语言版本的商品标签，形成56张测试图集。

上述照片都已做好记录，人工获得每张图片内的文字、字符个数和单词个数，并检查里面包含的违限成分情况。将上述测试图片集逐个输入应用软件系统，记录识别和违限成分检测结果，并按以下方法评价识别精度和性能：

1、字符识别准确率TP1，即识别对的字符数占总识别出来字符数的比例，可以反应识别错和多识别的情况，但无法反应漏识别的情况。

2、字符识别召回率TP2，即识别对的字符数占实际字符数的比例，可以反应识别错和漏识别的情况，但是没办法反应多识别的情况，可以配套字符识别准确率一起使用。

3、违限成分检出率TP3

TP3 = 检出数量/含有违限成分图片总量*100%

4、检测性能

利用耗时检测性能，以ms为单位。

5、支持语言一览表

语种	缩写	说明
Afrikaans	af	南非语
Arabic	ar	阿拉伯
Assamese	as	阿萨姆语
Azerbaijani	az	阿塞拜疆
Belarusian	be	白俄罗斯语
Bengali	bn	孟加拉
Bulgarian	bg	保加利亚
Catalan	ca	加泰罗尼亚
Chinese	zh	中文
Croatian	hr	克罗地亚语
Czech	cs	捷克语
Danish	da	丹麦语
Dutch	nl	荷兰语
English	en	英语
Estonian	et	爱沙尼亚语
Filipino	fil	菲律宾语
Finnish	fi	芬兰语
French	fr	法语
German	de	德语
Greek	el	希腊语
Hebrew	he	希伯来语
Hindi	hi	印地语
Hungarian	hu	匈牙利语
Icelandic	is	冰岛语
Indonesian	id	印尼语
Italian	it	意大利语
Japanese	ja	日语
Kazakh	kk	哈萨克语
Korean	ko	韩语
Kyrgyz	ky	吉尔吉斯斯坦语
Latvian	lv	拉脱维亚语
Lithuanian	lt	立陶宛语
Macedonian	mk	马其顿语
Marathi	mr	马拉语
Mongolian	mn	蒙古语
Nepali	ne	尼泊尔语
Norwegian	no	挪威语
Pashtu	ps	普什图语
Persian	fa	波斯语
Polish	pl	波兰语
Portuguese	pt	葡萄牙语
Romanian	ro	罗马尼亚语
Russian	ru	俄语
Sanskrit	sa	梵文
Serbian	sr	塞尔维亚语
Slovak	sk	斯洛伐克语
Slovenian	sl	斯洛文尼亚语
Spanish	es	西班牙语
Swedish	sv	瑞典语
Tamil	ta	泰米尔语
Thai	th	泰语
Turkish	tr	土耳其语
Ukrainian	uk	乌克兰语
Urdu	ur	乌尔都语
Uzbek	uz	乌兹别克语
Vietnamese	vi	越语

首页

公司位置

技术咨询