来源:搜狐科技
近日,百度视觉技术团队凭借领先的图像识别和视频理解技术在全球两大视觉竞赛WebVision和ActivityNet中分别击败100多家参赛单位和队伍,获得多项世界第一,并受邀在全球视觉技术领域顶级学术会议CVPR(IEEE国际计算机视觉与模式识别会议)上做报告分享。继百度人脸检测深度学习算法PyramidBox在世界最权威人脸检测公开评测集WIDER FACE中刷新业内最好成绩后,百度视觉技术团队又在国际知名奖项中折桂。
WebVision是2017年以来新的大规模图像识别任务权威挑战赛事,其数据量超过ImageNet。相较于ImageNet竞赛数据,WebVision竞赛的数据集直接从互联网爬取,未经人工标注或筛选,识别难度大,但同时也更贴近实际场景。
本次竞赛中,主办方将数据集合由1000类扩大到5000类,训练数据量由240万张图片扩大到1600万张图片,数据量更庞大,识别难度大幅提高。WebVision今年共吸引了全球100多支团队参加,涵盖众多顶尖科技公司和知名高校,百度以领先第二名3.95个绝对百分点的优异成绩获得WebVision竞赛冠军。
图像识别是计算机视觉重要的基础问题之一。据悉,百度视觉团队从2013年起开始构建超大规模的图像分类系统,其中大部分训练数据均通过互联网搜索引擎获取,目前已构建起包含10万类Tag(标签),近亿图片的训练系统。据悉,该系统已经为百度Feed流等众多百度核心产品线赋能,并为华为、小米等国内一流手机厂商提供精准的物体识别。
在视频理解领域,百度视觉技术团队在ActivityNet 2018中击败众多参赛单位和队伍,获两项任务冠军,相关技术论文已发表于CVPR、AAAI等顶级学术会议。
ActivityNet是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议CVPR一起召开,今年共举办6项比赛。其中,Kinetics视频动作识别任务是业界最权威的视频分类数据集,百度连续两年斩获该项任务冠军,并将平均错误率由12.4%降至10.9%。Kinetics数据集包含40万训练短视频语料,400个类别,今年主办方将数据集由400类扩大到600类,训练数据从40万增加到50万,包含的标签均为人类日常行为,更贴近实际。此外,百度在动作片段判断Proposal任务中获第一名,AUC领先第二名1.6个绝对百分点。
视频理解技术作为重要的计算机视觉技术之一,可以深度解析视频语义内容,进而输出视频相应元素,辅助人工审核编辑,提升精准用户推荐,丰富视频内容生产。百度此次获奖的技术已应用于百度线上Feed视频自动分类系统,提供视频语义化解析,在视频打标签、视频比对和视频推荐等业务上均发挥了重要作用。
去年,百度OCR(文字识别)技术在ICDAR竞赛数据集最具挑战的竞赛任务“Incidental Scene Text(自然场景随拍文字识别)”中,检测、识别和端到端三个核心技术领域近两年来多次排名世界第一,具备明显领先优势。
据悉,百度视觉识别技术不仅为百度内部产品带来颠覆性的改变,也持续对外输出技术实力。百度计算机视觉技术也已全线开放,包括人脸识别、文字识别(OCR)、图像审核、图像识别&图像搜索5大类别、58项基础能力,已服务于几十万开发者,它将持续为各行各业赋能,推动百度人工智能技术产品的快速落地。