一文看尽谷歌年度AI盛会:首用AI生成超辨认率视频,公布1000种语言计划

4周前 (11-13 10:26)阅读2回复0
wly
wly
  • 管理员
  • 注册排名8
  • 经验值83740
  • 级别管理员
  • 主题16748
  • 回复0
楼主

2智工具(公家号:zhidxcom)

做者 | ZeR0

编纂 | 漠影

智工具11月3日报导,昨晚,谷歌举办人工智能(AI)年度活动,并公布多项AI研究停顿,包罗用AI生成具有难以置信的实在性的视频、文字、图像、音频,以及用AI预防洪水、野火等天然灾害,处理社会面对的严重挑战。

同时,谷歌公布推出“一千种语言方案”,其语言模子将撑持全球1000种最常用语言的模子,让更多语种受益于AI。

一、 AI准确理解文字描述,生成超辨认率 视频

生成式AI已经成为高效生成文本、代码、音频、图像和视频的强大东西。

今夏早些时候,谷歌介绍了两种AI生成图像模子Imagen和Parti,它们都能从文本提醒生成图像。随后谷歌又公布两种互补的研究办法Phenaki和Imagen Video,能根据文本生成短视频。

此中,Phenaki能够跟着文本描述(prompts)的时间改变,生生长达数分钟的连接视频;Imagen Video是利用于视频序列的扩散模子,在文本理解方面成立在大型Transformer语言模子之上,在高保实图像生成方面依靠于扩散模子,因而兼具高传神度和极强的语言理解才能。

谷歌Imagen Video和Phenaki团队不断在协做造造AI生成的超等辨认率视频,将Imagen Video和Phenaki模子连系起来时,能得到一举两得的成果:在帧级的超等辨认率和时间上的一致性。

二、写小说、 3D 合成、音频生成,AI 样样在行

除了从文本生成视频外,谷歌也分享了其用于协做的可控文本生成项目LaMDA Wordcraft,可搀扶帮助产生一些新的设法或重写句子,来为做家供给协做灵感。

为了测试LaMDA Wordcraft的才能,谷歌与专业做家协做构成研讨会,让他们利用摸索写做的文本生成项目Wordcraft编纂器来创做一卷短篇小说,来试验AI文本生成的才能。

参考链接:

在从文本到3D合成方面,谷歌研发了一个预操练的2D文本到图像的扩散模子DreamFusion。给定一个描述生成,DreamFusion就能生成具有高保实外看、深度和法线且可以在差别光照前提下停止衬着的3D模子。

参考链接:/

在音频生成方面,谷歌有一个全新的音频生成框架AudioLM。那是一个纯音频模子,在没有任何文字或音乐符号表达的情状下停止操练,能够只根据简短的音频样本进修生成传神的、高量量的语音和音乐。

谷歌还公布推出第二代AI Test Kitchen,为人们供给一个领会、体验和反应其新兴生成性AI手艺的路子。第二代AI Test Kitchen将通过两个演示来进一步展现从文本到图像的生成。

第一个演示是“城市梦想家”(City Dreamer),它利用谷歌对话引擎LaMDA和谷歌的图像模子组合,利用户能快速构建个性化的城市景看;第二个演示喊“Wobble”,利用谷歌的图像模子LaMDA和谷歌最新的2D-3D休闲动画手艺,能够创造能挪动、跳舞的友好怪物。

那些体验将在AI Test Kitchen中陆续登岸,用户可从Play Store或App Store获得该利用,并起头利用LaMDA。

三、推出 “ 一千种语言方案 ” ,让 AI 助攻全球语言

语言是人们互订交流和理解四周世界的核心介量。2017年,谷歌开发了Transformer语言模子,它被视做所有现代语言模子的“开山祖师”,尔后谷歌不断专注于具有打破性的语言模子研究,诸如谷歌翻译等利用已经撑持几百种语言,谷歌还公布新增对24种语言的撑持。

但那些仍然远远不敷。世界上有超越7000种语言,而目前互联网只能很好地撑持此中一小部门。

为了向全球更普遍的地域供给基于AI的语言手艺,谷歌推出“一千种语言方案”,以撑持全球1000种最常用语言的模子。谷歌将那比做“登月动作”,期看以此为世界各地边沿化群体的数十亿人带往更大的宽大性。

那个方案笼盖了谷歌持久在多模态、与更多语言群体协做等方面的勤奋。当前谷歌在研究更先辈的模子,能间接处置基于语言的信息,逾越图像、视频和语音等多种模态。

例如,谷歌已经开发了一个通用语言模子(Universal Speech Model),它撑持400多种语言,是迄今笼盖语种最多的语言模子。

谷歌正与世界各地的语言群体协做,以获得语言数据,比来公布在Gboard上撑持别的9种非洲语言的语音输进,并在南亚积极搜集所有方言和语言的代表性音频样本。

与此同时,谷歌方案在YouTube、GBoard、Translate等产物中改进语言撑持,便利人们基于差别语种利用那些手艺,并找到相关内容。

四、 AI 预警洪水,能切确大约 100 米的范畴

洪水每年在世界各地夺走数以万计的生命,形成数十亿美圆的缺失。而可靠的早期预警系统已被证明可削减43%的灭亡、35-50%的经济缺失。

谷歌早在2017年就启动洪水揣测项目,通过引进AI手艺,为人们供给准确而详尽的警报,以抵御每年洪水带来的灾难性缺失。谷歌洪水揣测系统能告诉人们哪些地域将遭到影响,以及每个点位的水深是几,可切确到大约100米的范畴,即可能切确到一个村庄或一个社区。

人们能间接在谷歌地图(Google Maps)上看到那些信息,及时做出响应。

此前该系统次要用在印度和孟加拉国。往年,谷歌向印度和孟加拉国的2300万人发送了1.15亿条有关洪水的通知,并引导他们存眷Google Search和Maps上的洪水预警。在谷歌的撑持下,耶鲁大学经济增长研究中心停止的初步研究表白,其通知使收到洪水预警的人数增加了2倍,摘取庇护动作的人数也增加了3倍。

借助迁徙进修AI手艺,谷歌公布该系统将扩展到18个新的国度,包罗巴西、哥伦比亚、斯里兰卡、布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚、南非等。

此外,谷歌还在全球范畴内推出新的模子Google FloodHub,该平台能够展现洪水可能发作的时间和地点。

五、实时火灾逃踪,及时扑救野火

因天气改变,野火近年来继续恶化。每年,野火形成的缺失高达26亿美圆,并产生约2千兆吨的二氧化碳排放。

谷歌野火团队利用卫星图像来操练机器进修模子,使其能从空间和时间的维度往识别野火,并及时告知其用户野火发作的地点。其野火逃踪项目已在澳大利亚、美国、加拿大和墨西哥上线。

目前谷歌正在研究的3个模子:

1、实时火灾逃踪:其模子可实时识别现有火灾的范畴。该模子自2021年11月在澳大利亚的Google SOS警报上推出,2022年7月在美国、加拿大和墨西哥的Google SOS警报上妥帖。

2、火灾蔓延揣测:该模子旨在揣测现有的火灾将若何演变,以便为正在停止野火扑救的小组供给如蔓延标的目的揣测等的营业信息。

3、早期野火探测:此模子能在火灾呈现后不久就发现火灾,以便在火势失控前通知有关部分。

六、为产妇和视网膜疾病筛查带来福音

面向医疗安康,谷歌正通过引进AI手艺,搀扶帮助呵护产妇安康和加强糖尿病视网膜病变等眼部疾病问题的筛查。

上个月,谷歌在国际学术顶刊Nature的子刊Nature Communications Medicine上颁发了一篇论文,展现了AI若何搀扶帮助读取和阐发低成本超声设备的数据。那能够向准父母供给他们所需的信息,以便其在孕期更早地发现问题。

此外,谷歌还与美国西北大学医学院协做开发AI,协助护士和助产士轻松地搜集和阐明超声图像。该东西有才能确定胎儿的位置和胎龄,并且能够在没有收集毗连的设备上运行,对医护人员在怀孕早期发现问题很有搀扶帮助。

与此同时,谷歌也在加强眼科筛查方案,操纵其主动视网膜疾病评估东西(ARDA)开展了大量工做,已经胜利筛查了超15万名患者,此中有超越一半的筛查是本年完成的。

谷歌还在开发用手机监测唤吸和心率的手艺。

结语:努力于研发负责任的 AI

推进AI研究的路程中,在搀扶帮助人们处理重要现实问题的同时,谷歌一贯对道德约束和社会影响十分隆重。

在本次年度AI活动上,谷歌也再度重申了对负责任的AI的重视,强调假设在没有任何原则或道德批示的情状下开发作成式AI手艺,那可能带来很大风险,好比被歹意行为者操纵往做坏事。

因而,谷歌研究团队正积极地将谷歌AI原则(Google AI Principles)融进此中,出格重视3个关键方面:

1、“可控”:确保造造的东西有益于人类,模子和项目需要恰当的报酬掌握,以确保用户平安,例如文本生成图像模子利用了保障数据集来避免生成有害的图像。

2、造造可以检测生成式AI的东西:谷歌在AudioLM项目中操练了一个分类器,能以近99%的准确率检测合成语音。

3、与世界各地的社区积极协做:开源关于谷歌来说是很重要的一部门,谷歌方案造定一套开源政策,以适应其AI原则。谷歌还在积极与艺术家和创做者等协做。

0
回帖

一文看尽谷歌年度AI盛会:首用AI生成超辨认率视频,公布1000种语言计划 期待您的回复!

取消