深耕运动健康促进行业二十九载——专访创新与实践专家代俊Denodo公布2025年度卓越合作伙伴奖获奖名单企查查“查大学”攻略指南!附2025高考查分时间最新汇总畅捷通邀您共赴创新之约!“创客北京2025”创新创业大赛火热报名中!小米解释YU7配备245/55R19轮胎的原因:更舒适福布斯发布全球收入前十榜单:苹果没进前3 两家中国公司上榜罗马仕宣布召回超 49 万台充电宝:免费换新或退货退款云知声通过港交所聆讯 已累计完成10轮融资曹操出行启动招股 2024年收入同比增长37.4%至147亿元 拟于6月25日港股上市茉莉花开舞翩跹!江苏省群众广场舞展演向全省发出邀约第十四代英特尔@酷睿™处理器:性能飞跃,重塑计算新体验年中大促华硕天选6 Pro放心购 华硕商城凑单抢购立减500元来京东618用“京补合约”下单手机低至1折起 iPhone 16仅需1579元看龙舟赛事、4折起购3C数码 京东“3C数码国补中国行”落地佛山同款iPhone京东比美团、天猫便宜200元 全国可用的消费券还有谁不知道?京东618只剩不到1周 苹果500元消费券领券攻略看完直接收藏半年观察:彩电线下市场,三星索尼华为卡萨帝谁擎高端大旗?销量环比降50%,重组后知豆月均不足2000辆比亚迪汽车1-5月再夺销冠 海外增长超112%OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
  • 首页 > 企业IT频道 > 软件即服务

    谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验

    2024年12月13日 10:39:53   来源:IT之家

      谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播(Multimodal Live)API,帮助开发人员开发具有实时音频和视频流功能的应用程序。

      该 API 实现了低延迟、双向的文本、音频和视频交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。

      该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。

      该 API 支持集成多种工具,开发者只需一次 API 调用,即可完成复杂的用例。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。