11月8日,以“MORE,近你所想”为主题的2022 vivo开发者大会正式开幕,在次日举办的人工智能专场上,vivo AI团队通过计算摄影、文档图像处置、语音手艺、语义手艺、机器翻译、计算加速平台、开放平台AI专区等多方面详细案例,介绍了vivo近两年来在人工智能范畴所做的摸索和理论。
在人工智能范畴,vivo从用户需求动身,不竭立异,努力于实现“1001个便当”。生活中,当你沉浸于一首动听的音乐却苦于不晓得歌曲名称时,AI能够帮你听歌识曲;当你看英文视频却发现听不懂时,AI能够给你供给字幕翻译;当你想拍出好的照片却看不懂相机的一堆参数时,AI计算摄影能够主动帮你把场风光彩复原的更准确,把食物的色泽拍得更鲜艳;工做中,当你需要扫描文件并停止修改发送时,AI能够帮你往除灯光下的手指暗影和屏幕上的摩尔纹,并能够将拍下来的图片转化成可编纂的电子文档,让你信息处置更高效;我们期看继续通过AI才能为用户带来无处不在的欣喜和冲动人心的体验。
vivo AI算法中心高级总监 陈晓昕演讲-1001个便当
此外在人文关心方面,颠末不懈的研发立异,实现了手语到文本再到语音的顺畅互译,推出了手机行业首个具备手语识别才能的虚拟人。目前的算法已经能够识别1200个手语词汇,准确率在80%以上,已经到达汉语四级的理解程度,同时在手语表达方面,目前笼盖了国度手语通用词典超越8000个词汇。AI手语虚拟人既能顺畅的通过手语停止表达,还能快速识别手语看懂手语,搀扶帮助听障人士更便当地获取信息,更高效地与人沟通。
AI计算摄影,为用户带来天然色彩极致复原的欣喜
在2020岁尾,vivo就与蔡司开启了全球影像战术协做。本年,vivo结合蔡司团队进一步切磋和造定忠于人眼所见的天然色彩理念。 在本年发布的X80系列上,vivo推出了全新晋级的蔡司天然色彩2.0,能够更准确的复原实在天然色彩,提拔大面积深色和淡色等困难场景下曝光和白平衡准确率。蔡司天然色彩2.0底层利用了最新的两项AI计算摄影手艺打破:智能白加黑减和智能白平衡手艺。
vivo AI视觉利用组总监 冉龙金演讲——AI计算摄影
通过智能白加黑减手艺,vivo在行业内初次处理了大面积深色和淡色场景下曝光不准确的问题。在拍服饰、宠物、雪景等困难场景下,曝光准确率相关于原有办法,提拔了16%。
而智能白平衡手艺则次要处理拍美食、拍花、拍宠物等场景下偏色的问题。vivo根据亚洲人色彩恒常性的视觉特征,以及拍摄场景的特征构建了丰富的色彩数据集。再通过人工智能模子现实进修人眼看到的色彩,从而获得更准确的白平衡参数。相关于原有办法,在拍美食、拍花、拍宠物等场景下,色彩精准度提拔13%。
AI文档图像处置与识别,让办公进修愈加高效
为了搀扶帮助用户更清晰的笔录好文档,同时更灵敏的提取文档内容,vivo基于AI文档图像处置与识别手艺,打造了包罗文档扫描、证件扫描、文字提取、表格识别、口算修改、往手写等一些列处理计划,并将陆续在相机、相册、伶俐视觉、琥珀扫描等产物中停止落地,为用户在办公和进修等相关场景供给一个个小便当。
vivo AI视觉理解组总监 文亚飞演讲——琥珀扫描
来自vivo AI 团队的文亚飞在演讲中表达:“vivo的AI文档图像处置与识别处理计划源自两个核默算法引擎——文档图像处置引擎和OCR文字识别引擎。”此中文档图像处置引擎能够对文档主体停止精准的主动裁剪和矫正,同时通过超清修复算法对文档的暗影、折痕、摩尔纹等停止主动往除,一键将纸量文档复原成高清文档图片。而最新的OCR文字识别引擎则在视觉模子的根底上叠加语言模子合成识别,同时通过一系列模子压缩和计算加速手段,不只让文字识别更快更准,同时实现算法运行在当地,更好的保障了用户的数据隐私平安。
AI语音手艺,架起感情交换的桥梁
除了在视觉方面为用户打造的便当,vivo还通过AI语音手艺,进一步搀扶帮助用户解放双手和双眼。
vivo的AI语音手艺表现在两方面,起首是语音合成手艺。基于自研的个性化语音合成系统,vivo继续地研发出了丰富多元的合成声音,不单供给了清爽、甜美、稳重等多种差别的音色,同时还撑持对话、新闻、小说等差别场景下的朗读风气,实现了音色、风气以及感情三种元素的自在组合。履历多年手艺的沉淀,vivo颁发了顶会论文8篇,获取两项国际赛事第一名,同时Jovi语音助手和屏幕朗读的语音合成手艺还获得了通信院和泰尔尝试室认证。
vivo AI机器翻译组高级司理 李方圆演讲
vivo在针对文本、图片、声音三种内容形态均研发了算法才能。在图片翻译手艺上,霸占落合并和图片文字涂抹两大手艺难点,提拔了图片翻译的量量和排版的美看度。在语音翻译手艺方面,vivo聚焦优化流式场景下的语音翻译效果,继续优化模子对ASR噪音的鲁棒性,在翻译量量、不变性、翻译延时三者之间获得平衡。
履历2年多的沉淀,vivo的机器翻译团队在本年的全国机器翻译大赛上斩获汉英翻译、中日英多语言翻译2项冠军,而且还在英汉、躲汉、中泰、泰中4个赛道上获得亚军。
Jovi输进法Pro,更大限度庇护用户隐私
面临由输进法引发的用户隐私泄露问题,vivo初次推出了完全自研的Jovi输进法Pro,以现实动作筑牢数据平安、隐私庇护与守法合规的企业红线。
vivo AI算法中心高级总监 陈晓昕演讲——Jovi输进法Pro
Jovi输进法Pro供给了当地形式,输进法能够实现完全当地运行,无需用户停止联网受权,包管了用户的小我信息和数据只保留在当地。为了实现Jovi输进法的当地形式,vivo对拼音、语音、手写三大输进法内核停止了全面优化晋级,通过常识蒸馏、模子压缩、计算加速等手段实现了算法在多个维度的平衡,供给平安、高效的输进体验。
Jovi语音助手,化身便当、温热的“贴心小管家”
做为vivo手机的智能生活助理,Jovi语音助手遭到了越来越多的用户喜欢。颠末四年多的优化提拔,Jovi语音助手在工信部组织的第一期人工智能财产立异重点使命揭榜工做中,在“智能语音交互系统”范畴拔得头筹,荣誉揭榜。“在手机端日活已经超越1000万,每个月小v会和用户产生18亿次对话,答复2亿个问题。” 杜乃乔在演讲中说。
vivo AI利用中心高级总监 杜乃乔演讲——Jovi语音助手
自推出以来,vivo不断围绕着便当的技能、丰富的常识、贴心的闲聊三个标的目的来提拔Jovi语音助手。据悉,目前Jovi语音助手已经撑持超越100个场景垂类,超越600种用户恳求企图,很好地称心用户在灵敏操做、信息获取、感情陪同方面的需求。
VCAP异构计算加速,打造极致AI利用体验
基于利用场景,算法,硬件的开展,AI营业端侧化面对多元化的挑战,为了应对AI营业多元化挑战,vivo建立了VCAP异构计算加速平台,为开发者供给全链路AI算法端侧化处理计划。VCAP继续逃求万能力、跨平台、高性能的目标,全面撑持视觉、语音、天然语言处置、选举各范畴营业落地。目前,VCAP异构计算加速平台沉淀7种XPU器件加速才能,撑持超越60种算法、80种算子。基于VCAP平台才能,vivo撑持典型影像、视频、语音场景营业落地,为用户打造更为极致的AI利用体验。
“我们期看借助于VCAP开放才能,能联袂更多行业开发者为用户打造更多的AI利用产物!” 来自vivo AI团队的鲁晶说道。
vivo AI系统平台组高级司理 鲁晶演讲
联袂开发者,为用户打造1001个便当
本年vivo开发平台 AI专区在算法、数据、算力强大的手艺底座上,开放了云端两个标的目的的才能,包罗Jovi办事平台、AI算法平台、内容理解平台、Jovikit、VCAP计算加速平台。
以Jovi办事平台为例,vivo通过AI赋能、办事找人的形式停止智能精准的投放,投放后,会有亿级流量场景停止分发。对开发者来说,用更低的流量成本就能够获得更高的曝光时机和更优的转化量量。在用户层面,用户获取办事成本低,免安拆,有更多进口中转多样办事。
vivo AI平台产物组高级司理 刘诗韵演讲
进进开发者平台-AI专区
便当。
存眷特殊用户群体,手机行业首发手语识别虚拟人,AI让科技更有温度
人文之悦不断是 vivo的品牌主张,在存眷通俗用户的同时,vivo关于特殊用户群体的关心也不曾缺位。据介绍,在本年召开的第四届科技无障碍开展大会上,vivo荣获了“2022可及信息无障碍优良案例”,成为独一的获奖手机品牌。
vivo AI算法中心高级总监 陈晓昕演讲——存眷特殊用户群体
通过声音识别、vivo传闻、无障碍通话等一系列AI无障碍功用立异以及无障碍设备捐赠等体例,vivo力图为听障人群搭建起无障碍沟通的桥梁。同时,vivo整合领先的AI手艺才能,实现手语到文本再到语音的顺畅互译,推出了手机行业首个具备手语识别才能的虚拟人。而面临视障人士,vivo也将上线vivo看见和vivo读谱两大视觉辅助功用,搀扶帮助视障用户更好地融进社会。
2017年,vivo起头组建AI全球研究院,旨在搀扶帮助所有消费者享受科技带来的美妙生活。截至目前,在vivo手机的100多个系统模块中,目前已经有超越60%的模块中搭载了AI才能,在用户看得见和看不见的处所发扬着感化,供给便当,创造欣喜。
vivo期看依托OriginOS才能,以用户利用手机的重要场景为载体,通过AI手艺与场景的深度连系,努力于打造1001个便当,为用户供给无处不在的欣喜与便利。