成效深夜炸场三个月后,国内首个面向C端盛开的AI视频通线日,智谱公告,清言App将于8月30日正式上线“视频通话”成效,首批面向清言局部用户盛开盆栽,并同时盛开表部申请。“咱们会赓续迭代并渐渐摊开范畴,尽速让全员都可能应用盆栽。”智谱方面体现。本年5月,OpenAI率先掀起海浪,其全新一代旗舰天生模子 GPT-4o,无需借帮语音转文字成效,即可直接通过及时音视频,完毕“真人般”地丝滑交互盆栽。随后,多家国表里大模子厂商纷纷神速跟进,开端推出百般接济端到端及时多模态的AI成效。
6月,AI始创公司Character.AI推出一项通话成效,应允用户与其人为智能脚色实行语音对线月,商汤科技正在WAIC 2024上,现场演示新模子日日新5o的及时音视频交互技能。8月9日,字节跳动旗下火山引擎公告,豆包大模子接济及时语音通话。而微软AI据称将正在本年岁终具有及时的语音界面,应允全体动态的交互……
然而,这些或都片刻不涉及及时视频成效,又或暂未对C端盛开。智谱最新上线的视频通话成效,也以是成为国内首个面向C端部分用户盛开的AI视频通话。
正在实行最新版本更新后,掀开清言APP,即可正在主界面上的输入框旁看到一个“电话”图标,点击可进入及时音频通话,再点击通话界面的“视频”按钮,则可进入视频通话形式。
便宜二,通话流利,可随时打断。这个名叫“幼智”的帮理,正在通话经过中发挥得愈加“像真人”,能明确摄像头拍摄到的实质,也能听懂指令并切实实践,根本正在听到语音一两秒内即能给到答复,且即使频仍打断“幼智”的话,它也能神速响应。
比方当咱们将视频画面临准一本书时,它能神速识别出这本书的名字、作家,并实行联系布景先容。中选中“画笔”按钮,还可能正在视频中圈出对应的物体或文字段落,完毕更精准的提问妥协答。
比方,当咱们正在前一次通话中,与“幼智”调换过绿植养护的话题,一段岁月后再次掀开视频通话时,它会主动打答理,并提倡话题——“家里的木樨长得奈何样了?”
当然,这个AI帮理,也有亏空之处。比方,它并不是每一次识别都能万分切实,当咱们让它分离少许盆栽时,它可以会将金鱼草误以为豆瓣绿,将未正在花期的木樨树误以为茉莉花。
又比方,它片刻“只读到了初中程度”,也还没有联网搜刮的技能,当被问及少许越过规模的题目时,则无法作答。
但不难意思,跟着技艺的急速兴盛和更多厂商对AI及时音视频倾向的押注,相似的AI帮理会越来越智能化。比方,通过与AI的及时音视频互动,用户可能让其充任生计帮手,供应穿搭手法、识别场景讲述布景故事;也可能让它成为就业伙伴,实行口试指挥、及时解读电脑屏幕代码、竣工集会纪要、认识繁复数据图表;还可能行为进修搭子,及时读屏翻译、指导各科功课……
8月25日至29日,为期5天的国际学问发觉与数据发掘大会KDD 2024正在西班牙巴塞罗那举办。行为环球数据发掘规模史籍最深远、范畴最大的国际顶级学术集会,KDD 2024吸引了数千名来自宇宙各地的顶尖学者和著名企业代表参会,智谱 GLM 团队也正在这场大会上,先容了我方新一代的基座大模子——GLM-4-Plus。
据先容,GLM-4-Plus 应用了大方模子辅帮构造高质料合成数据,以擢升模子机能;同时,诈骗PPO(Proximal Policy Optimization)有用有用擢升模子推理(数学、代码算法题等)发挥。这也让其正在道话明确、指令听命、长文本照料等方面的机能,都有进一步擢升。
比方,正在道话文本技能方面,智谱方面体现,GLM-4-Plus曾经获得与GPT4o及405B参数方针Llama3.1相当的成果。
目前,GLM-4-Plus 已正在智谱大模子盛开平台安顿,企业和拓荒者指日起可能通过智谱盛开平台上的 API 挪用智谱最新的基座大模子。GLM-4V-Plus也将上线盛开平台,供应国内首个通用视频明确模子 API。就正在这两天,CogVideoX-5B正式开源,同时此前
。CogVideoX是由智谱AI拓荒的视频天生大模子,而CogVideoX-5B 模子相较于 CogVideoX-2B 具有更高的视频天生质料。此表,GLM-4-Flash目前也已全体免费,成为智谱盛开平台首个全体免费的大模子API。“智谱开源模子累计下载量现已打破2000万次。”智谱方面体现。当我和大模子做了一次视频盆栽通话