历经 7 个月,由高通公司(Qualcomm)、中国智谷·重庆经开区、CSDN、Testin云测、OPPO、极视角、中科创达、创业邦联合主办,重庆经开区·高通中国·中科创达联合创新中心协办,TensorFlow Lite 作为开源技术合作伙伴的行业内专业性质的“高通人工智能应用创新大赛”顺利收官!
经过严酷的初赛和决赛两轮 PK,最终由评委从参赛者提交的110 个优秀作品中甄选出优胜获奖作品,由 9 支参赛团队/个人分别斩获白金奖、商业模式创新奖、重庆创新中心特别奖、AI 视觉计算创新应用奖、算法创新奖、AI 应用场景创新奖、终端侧人工智能创新奖、5G 边缘应用技术奖与 AIOT DSP 应用创新奖!
究竟是哪些牛人摘得了今年的奖项呢?获奖的作品有哪些独特之处?话不多说,下面我们来一一揭晓。
各大奖项花落谁家?
获奖者:赵天奇
参赛作品名称:人工智能动画系统:赛博化身Cybatar
团队成员与分工:赵天奇,聚力维度创始人CTO,项目方向与科研;王远,聚力维度软件开发组长,项目实施。
作品介绍:
赛博化身Cybatar是一款人工智能动画制作应用,包括实拍级面部捕捉、智能动捕、智能面捕、智能生成、智能声捕等数字人技术,让每个人都可以每天制作几分钟专业动画作品。当前版本内置若干个自有或合作IP的CG角色、场景道具、以及合成模板,可以根据不同设定和权限使用生产内容,素材库多样。仅利用普通摄像头就可以精准捕捉用户的面部表情,喜怒哀乐甚至各种微表情的变化都能精准展示,还能对不同控制者和使用场景进行精准面部调节,例如眼睛大小,脖子高低等。
这款应用未来可实现的功能包括三维场景转换、多人多来源控制系统、游戏分时组合控制机制、网络同步更新机制、网络直录播合作机制、人工智能捏脸系统、换装系统以及动作捕捉,手势捕捉,声音捕捉等AI算法。
效果展示:
聚力维度研制了新型面捕网络结构模型,克服了传统面捕算法受限于建模精度,拍摄角度和环境光照的缺点。模型可分为通用ID提取模型、表情提取模型、表情优化模型、姿态提取模型以及时空融合模型。
通过这种分任务网络和多级结构,达到了表情和姿态的精确提取和转换,同时保证了模型在进行面捕头捕时的一致性和实时性。
然后,将此模型顺利移植到搭载高通骁龙865的安卓手机上,与UE4三维引擎相结合实现了虚拟数字人的实时面部表情重现。最后,针对移动端平台进行了场景的优化,包括光照、材质、模型等,使得运行效率超过24fps。
获奖者:袁博及优学猫研发团队
参赛作品名称:优学猫AI系统
团队成员与分工:袁博 优学猫技术合伙人;孙博 优学猫CEO;潘志刚 产品运营。
作品及开发过程介绍:
优学猫儿童AI互动学习平台包含学前儿童多科启蒙AI智能硬件和AI课程,连接各种智能屏幕,把AI芯片嵌入传统玩教具升级为智能教具,使用多种教育场景和AI互动技术激发儿童兴趣,用视觉、听觉、触觉等多感官刺激感知,帮助儿童探究学习,“授之以渔而非鱼”。
优学猫主要涉及的AI技术:
第一是语音识别,主要用于优学猫英语APP中,用户会跟游戏以及真人录播老师的音频进行跟读,由系统评判跟读结果并反馈。具体的通过对采集声音完成预处理,并使用CMUSphinx的语言模型及概率学统计进行语音识别的功能。
第二是使用了人体关键点识别及人体语义分割完成复杂场景的人物抠图,并改进CocosNet网络完成人体姿态重定向的部分,将小朋友放置到APP的场景内实现交互及动画;同时也使用了传统CV的方式完成了对一些物体的边缘检测和滤波功能,使得小朋友可以自己进行DIY创作。
参考CocosNet,跨域实现人体姿态迁移:
基于人体关键点配合Spine骨骼动画实现任务场景交互融合,同时通过人体语义分割实现Mesh权重绑定,最终作用于APP场景内,让小朋友看到自己虚拟进入课堂。
第三优学猫课程通过视频自动切片技术根据不同的错误反馈操作,计算出不同的反馈的无缝连接视频,模拟真人老师直播过程。
第四优学猫实现了AI教具智能陪练,记录孩子学习数据智能,分析测评,智能点评等不同的功能。
获奖者:蒋琦及律动团队
参赛作品名称:律动(心肺疾病辅助诊断终端和服务)
团队成员与分工:蒋琦 戴维森开普兰顾问,盼达用车CIO,负责整体产品和后端实现;王守崑 原豆瓣首席科学家,作为顾问提供算法调优指导等;于子豪,负责前端交互。
作品及开发过程介绍:
律动提供心肺疾病辅助诊断、定位于家用预诊断市场的终端和服务。近二十年来,电子听诊和心肺辅助诊断领域虽有成果但存在着很多待突破的困境,比如数据库缺乏、采样终端成本昂贵、反馈系统迭代慢、量产规模较小等。律动通过高性价比的电子听诊器采集心肺音数据,再利用人工智能算法对比潜在的疾病种类,从而解决上述问题。律动做到极致的成本控制、易用、准确,硬件方案控制在200元人民币内,单病例采样规模做到10000例,商业化做到100类型心肺相关病例覆盖,并建立快速的反馈系统优化诊断模型。
该项目补全了国内对心肺音疾病数据库的空白,只需要简单几步操作,在安静环境中将电子听诊器插入手机耳机插孔,采集心音或肺音数据,经Tensorflow Lite等推测疾病种类。当前阶段识别准确率已达到82%,随着样本的补充,识别的病症宽度和准确度都会继续提高。
获奖者:王师广
团队成员与分工:个人
参赛作品名称:基于移动端的农作物病虫害识别系统
作品及开发过程介绍:
“三农”问题是当前我国密切关注的社会问题,基于图像处理技术的农作物病虫害识别具有快速、精确、实时等特点,能够协助农耕人员及时采取有效的防治措施。该系统采用大规模专业图像数据来训练深度学习模型,现已支持近15种农作物、80种常见病虫害种类的识别,识别准确率大于90%,单张图片的识别时间小于200ms。
利用该系统,农耕人员只需要下载一个App,拿出手机拍照圈定要识别的区域,该系统就能够自动的识别农作物的发病状态和种类。
上图为基于移动端的农作物病虫害识别项目系统概述图。首先,在服务端采用大规模专业图像数据来训练深度学习模型,并使用AutoML和知识迁移等技术使得在有限时延的限制下搜索出更高精度的模型,再将训练好的模型部署到搭载高通骁龙865 5G移动平台的OPPO Ace2手机上,利用高通第五代 AIEngine加速整个模型部署的性能,得到整个项目的原型。最后利用云端大数据为每个农户提供精准个性化的综合解决方案。
在开发过程中,作者遇到的主要问题是如何用较少的数据训练出较高精度和泛化性的模型,以及需要准备一个适当的环境。由于作者本身没有App设计和开发的经验,对Android开发不熟练,需要边学习边开发,过程虽略微坎坷,不过问题总算被一一解决,感谢在项目过程中给与帮助的朋友。
获奖者:晏青
参赛作品名称:基于颜色补偿的图像增强
团队成员与分工:个人
作品及开发过程介绍:
近年来,尽管水下图像处理领域取得了相对不错的效果,但仍存在很多痛点。为此,本项目针对水下图像颜色复原提出了一种实现成本低且复原效果好的的复原方法,期望矫正水下图像的色偏同时去除水下成像后向散射的干扰。
实现水下图像颜色复原以及清晰度恢复的主要步骤如下:
原图通过WCID估计出水下图像不同波段光线的全局衰减率以及局部衰减率
根据第一步计算的衰减率对衰减较多的颜色通道进行色彩补偿
对补偿后图像进行白平衡去除过度补偿的负面效应
根据图像的蓝绿通道采用去雾的方式估计水体图像的透射率
采用大气散射模型去除水体图像的后向散射得到清晰的图像
实验结果展示:
获奖者:谢永明 (香港光云科技团队)
参赛作品名称:TrueToF—主动式AI ToF成像及应用
团队成员与分工:谢永明,香港光云科技创始人,项目统筹;周经伟,3D成像算法研发;李建英,工程管理与实施;王兴鹤,产品设计。
作品及开发过程介绍:
伴随ToF产品的发展,再加上ToF输出深度信息,不会有色彩图像信息输出,保证了个人隐私。基于此方面考虑,香港光云科技推出了TrueToF人像应用,通TrueToF提供的三维图像信息非常有利于做图像分割与3D识别,可以快速定位感兴趣区域,从而降低后期AI算法的数据处理复杂度,简化用户的人脸ID注册流程并提升3D人脸识别系统的精准度。
TrueToF ToF成像AI优化
相较于传统ToF成像,TrueToF利用机器学习,通过对环境的机器学习,正确识别与提升黑色物体、强光环境下的ToF成像精度和准度,并进行动态成像以保证移动设备的节电需求。
TrueToF ToF人像抠图
基于快速的人脸识别机器学习模型,可实现毫秒级的人脸检测、人像提取,同时保证3D人像与物体的抠图在复杂背景的边缘准度。
TrueToF ToF人脸识别
本系统可一次性提取超过400个3D特征点作为特征比对点,并通过高通第五代 AI Engine加速,具备毫秒级采集,有效简化用户人脸ID的注册流程,通过毫秒级的人脸识别模块,可根据3D特征快速定位人脸并进行实时的人脸跟踪及识别。
TrueToF ToF表情映射
通过400多个特征点的实时匹配,可获取实时面部信息,保障了人脸的“任意角度”跟踪,通过利用高通第五代 AI Engine加速,可实现实时面部表情的获取,可用于3D表情的实时映射等。
获奖者:丛晓峰
参赛作品名称:基于安卓的photo2cartoon应用
团队成员与分工:队长:丛晓峰(研二学生),负责Android studio开发APP,采用深度学习框架进行模型训练和端侧部署。
作品及开发过程介绍:
目前,手机APP已经成为儿童学习的重要入口。本项目旨在提高儿童绘画学习的趣味性,利用深度学习图图转换(Image-to-Image Translation)技术,将用户手工绘制的“简笔画”转为“真实图像”。
该App提供了四个面板,分别用于记录用户在绘制草图过程中,不同阶段对应生成的图像。用户可以通过选择显示器标号(1,2,3,4),将生成的图像指定到任意画板上,如下:
系统使用当前学界普遍认可的image2image转换方法,根据端侧的实时性要求进行模型设计。采用Conv/DeConv + InstanceNorm + ReLU作为基本模块设计编码解码网络(Conv表示卷积,Deconv表示反卷积)。模型采用深度学习领域的生成对抗网络思想,对生成器和判别器进行联合训练,确保生成网络和判别网络的同步优化。
生成器网络作为移动端部署的核心网络,负责将用户绘制的草图转换为真实图像。生成器由多个卷积模块和反卷积模块构成,整体结构为编码-解码思想,如下图:
获奖者:陈鹏
参赛作品名称:AI智能图鉴
团队成员与分工:陈鹏 博特智能VP 世界100强IT企业高级研发工程师+后台算法和业务逻辑开发;张静 具设计部管理经验,擅长支持企业CIS系统设计服务VIS视觉设计,企业品牌视觉设计、企宣相关设计等;徐苑资深市场营销专家,创意和传播,产品和交互设计。
作品介绍:
AI智能图鉴基于谛听AI智能平台,该平台采用全流水线深度学习算法,以GPU/CPU为核心的服务器集群并行分布式架构,通过大量模型训练,利用算法实现了对违规图片内容的自动过滤,包括涉黄、低俗、涉政、涉暴恐、违禁广告等多维度多分类的内容审核过滤机制,以及场景、人物、动作、物体等各类情景标签的识别。
本系统分为前端业务系统以及后端算法服务两个主要部分,采用了微服务架构设计思想并结合开源的spring框架设计而成。
本系统图片内容审核是基于深度神经网络模型实现,采用像素集分类计数和网络再生技术进行图片内容审核。此外,本系统采用了分布式架构部署,最新版本的图像模型训练集样本库已经达到了25万张,图像算法目前的平均识别准确率达92%,特别是在涉黄图片方面的识别率,模型的识别准确率达95.6%。
产品工作流程展示:从左到右依次初始界面、上传审核、结果展示
获奖者::白文波等(江西沃可视发展有限公司)
参赛作品名称:AI智能后视镜
团队成员与分工:团队
作品及开发过程介绍:
业界首款采用高通骁龙8核的智能后视镜产品,整体方案以高通MSM8953芯片为主控,整合定位、摄像头、安卓系统、算法、车载应用等软硬件资源。本地支持多路视频显示和录像,前后ADAS预警、DMS预警、智能导航、语音交互、行车轨迹回放、蓝牙电话、倒车后视影像、多媒体影音娱乐(QQ音乐和听伴)等功能;在线支持视频直播、行车轨迹、文件调取、电子围栏、导航寻车、微信互联、消息提醒、语音对讲、在线升级等功能。
系统框架图
值得注意的是,以上获奖者是众多参赛作品中的佼佼者,大赛进行过程中还涌现出一批优秀的人才和AI解决方案,涉及工业、农业、交通、电商、游戏、慈善、智能家居、健康、民政服务等多个领域,为AI应用创新增加了新的血液!
相约“高通人工智能应用创新大赛”颁奖典礼
最终决赛获奖作品将于9月底在线上举行的 “高通人工智能应用创新大赛”颁奖典礼上进行奖项授予,并有来自高通公司、重庆经开区、极视角、中科创达、清华大学、OPPO、Google TensorFlow 等公司的高管及技术主管也将出席此次活动,与大家分享各自对AI 领域的独特见解,以及对未来的展望。
据大会官网介绍,本次大赛为唯一一名白金奖获得者准备了搭载高通骁龙820A汽车平台的领克05 SUV 一辆(仅承担裸车价格部分),名分项赛道金奖获奖者也将分别获得价值30,000元人民币的奖品。
创新永不止步,高通人工智能应用创新大赛不断为业界应用带来更多优秀人才与实用的解决方案,期待颁奖典礼带给大家更多惊喜!