智慧海关-多语种商品标签识别
副标题

1、方案概述

近年来全球化进程日益加深,人员货物出入境总量越来越多,流通速度越来越快,来自世界各地的人们携带了大量的形形色色的商品出入境,商品标签语种也不尽相同,海关关员检查违禁品的工作强度和难度也越来越大。


针对行业存在的课题,为了提高查验效率,降低劳动强度和难度,鲁朗软件深入研究OCR技术在商品标签识别领域的应用特点,有针对性地进行升级优化。OCR主要包括两个环节,一是文字检测,二是文本识别。文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。到目前为止,印刷文本的OCR技术已经比较成熟了,也得到了广泛的应用。但是标签粘贴于商品上面,受包装物的影响,就容易发生形变,再加上内容欠缺上下文关系,识别精度大大降低。


随着人工智能的快速发展,鲁朗软件利用深度学习框架和算法,基于海量标注数据进行对象检测模型训练,将传统OCR技术和新型人工智能技术相结合,获得了较高的文本识别精度。同时结合敏感词搜索和智能翻译能力,开发了面向一线海关关员的智能终端效率工具,可大大提高通关效率,提升监管质量。



2技术创新

本系统将商品标签预处理算法部署在APP端,将智能OCR能力、敏感词库及智能检索功能部署在云端,将敏感词库从关系数据库加载到内存中,可根据业务运营情况及时升级OCR智能算法,提高印刷标签的识别精度;快速调整敏感词库;升级敏感词检索算法,充分发挥云端系统的优势,保证前端业务顺利进行。

(1)识别算法

本项目基于CNN的神经网络作为特征提取手段,配合大量的商品标签标注数据,增强了特征提取的健壮性。对于商品标签可能出现的模糊、扭曲、畸变、复杂背景和光线不清等图像问题不断进行算法优化,得到了较高的识别精确度。对于海关面对的多语种场景,对常见的数十种语种进行了支持,均可得到较好的识别结果。

(2)多语种敏感词库

从海关关检的角度,商品中含有违禁成分是风险要素的一种。在商品印刷标签的智能识别之后,还需要进行敏感词库的检索查询,以判断商品标签中是否含有违禁成分,因此,多语种敏感词库建设非常重要。针对海关面对的多语种的复杂环境,我们建立了可扩展的多语种敏感词库,可持续在线升级优化。对相同成分的不同名称(别名、缩写等),都纳入敏感词库。本项目敏感词库来源于:

  • 麻醉药品和精神药品品种目录

  • 关于加强麻醉药品精神药品增补目录

  • 中国严格限制进出口的有毒化学品目录(2014年)

  • 两用物项和技术进出口许可证管理目录

  • 进出口野生动植物种商品目录

  • 国家体育总局2020年兴奋剂目录

  • 禁止进口废物管理目录

(3)敏感词库智能匹配算法

根据商品标签文本识别中,由于受商品外形、环境光线等因素的影响,会出现大量文本的弯曲、变形、不完整等问题,不可避免地出现文字识别错误、文本遗漏等问题。为提高系统的整体可用性,在敏感词库的智能搜索算法上,我们对以下三个主要问题进行了专门优化:

  • 大小写敏感的问题

  • OCR相似易错字符问题

  • 字符匹配容错问题

对上述优化策略,设置了可以在管理平台端进行配置的功能,根据试用过程中的效果不断优化调整,逐渐获得最佳应用效果。


3、系统组成

(1)手机App

以手机App为载体,支持市场常见的Android和Ios智能手机,方便一线人员安装使用。

海关人员进行进出口商品检查时,启动鉴识APP并登录后,对准商品标签进行拍照,也可从相册选择照片,然后进行图片裁剪保留识别主体,即可将商品标签内容转化为文本,并智能检测是否含有风险因素。发现违禁成分时会给出明显的告警提示,并提供一键复制去翻译的功能,方便海关人员进一步确认。

(2)云平台

本系统将智能OCR能力、敏感词库及智能检索功能部署在云端,将敏感词库从关系数据库加载到内存中,可根据业务运营情况及时升级OCR智能算法,提高印刷标签的识别精度;快速调整敏感词库;升级敏感词检索算法,充分发挥云端系统的优势,保证前端业务顺利进行。


4、应用测试效果

使用日常商品标签图库、互联网搜索引擎等获取商品标签图22张。其中含有违限成分10张。此外,为进行多语种识别测试,选择一段比较典型的文字:“三唑仑是一种镇静催眠药,因半衰期超短,只有1到2个小时,临床上多用于以入睡困难为主的失眠病人,但因其成瘾性极强,在中国已归入精神药品一类管制”,将上述文字做成各种语言版本的商品标签,形成56张测试图集。

上述照片都已做好记录,人工获得每张图片内的文字、字符个数和单词个数,并检查里面包含的违限成分情况。将上述测试图片集逐个输入应用软件系统,记录识别和违限成分检测结果,并按以下方法评价识别精度和性能:

1、字符识别准确率TP1,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况。

2、字符识别召回率TP2,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用。

3、违限成分检出率TP3

TP3 = 检出数量/含有违限成分图片总量*100%

4、检测性能

利用耗时检测性能,以ms为单位。



5、支持语言一览表

语种

缩写

说明

Afrikaans

af

南非语

Arabic

ar

阿拉伯

Assamese   

as

阿萨姆语

Azerbaijani

az

阿塞拜疆

Belarusian

be

白俄罗斯语

Bengali   

bn

孟加拉

Bulgarian

bg

保加利亚

Catalan   

ca

加泰罗尼亚

Chinese   

zh

中文

Croatian   

hr

克罗地亚语

Czech     

cs

捷克语

Danish   

da

丹麦语

Dutch     

nl

荷兰语

English   

en

英语

Estonian   

et

爱沙尼亚语

Filipino   

fil

菲律宾语

Finnish   

fi

芬兰语

French   

fr

法语

German   

de

德语

Greek     

el

希腊语

Hebrew   

he

希伯来语

Hindi     

hi

印地语

Hungarian

hu

匈牙利语

Icelandic

is

冰岛语

Indonesian

id

印尼语

Italian   

it

意大利语

Japanese

ja

日语

Kazakh   

kk

哈萨克语

Korean   

ko

韩语

Kyrgyz   

ky

吉尔吉斯斯坦语

Latvian

lv

拉脱维亚语

Lithuanian

lt

立陶宛语

Macedonian

mk

马其顿语

Marathi   

mr

马拉语

Mongolian

mn

蒙古语

Nepali   

ne

尼泊尔语

Norwegian

no

挪威语

Pashtu   

ps

普什图语

Persian   

fa

波斯语

Polish   

pl

波兰语

Portuguese

pt

葡萄牙语

Romanian   

ro

罗马尼亚语

Russian   

ru

俄语

Sanskrit   

sa

梵文

Serbian   

sr

塞尔维亚语

Slovak   

sk

斯洛伐克语

Slovenian

sl

斯洛文尼亚语

Spanish   

es

西班牙语

Swedish   

sv

瑞典语

Tamil     

ta

泰米尔语

Thai

th

泰语

Turkish   

tr

土耳其语

Ukrainian

uk

乌克兰语

Urdu     

ur

乌尔都语

Uzbek     

uz

乌兹别克语

Vietnamese

vi

越语