• 首页 > 企业IT频道 > 人工智能

    深入研究多模态生成式人工智能

    2023年11月29日 15:47:52   来源:千家网

      多模态生成人工智(GenAI)能被认为是我们实现通用人工智能道路上的下一件大事。

      这是一个经过设计、理论化和实施的概念,旨在提供多感官沉浸式体验。

      其从多种数据类型的组合中提取输出,以提供见解、内容等响应。

      继续阅读,了解多模态生成式人工智能、其好处、潜力和采用以及相关问题。

      过去几年推出的多种生成式人工智能工具证明了过去十年人工智能(AI)技术取得的突破。在相对较短的历史中,GenAI已经创造了一种紧迫感,将其引入任何组织的日常和利基操作元素。

      虽然OpenAI的首个文本到图像生成器DALL-E的真实感对大多数组织来说作用有限,但ChatGPT的推出不到一年,已经让组织通过寻找各种途径来获得优势,其中生成人工智能可以积极影响运营。

      根据McKinsey的《人工智能现状》,到2023年,三分之一的组织将把GenAI纳入至少一项业务功能。此外,在McKinsey的调查中,约75%的受访者预计GenAI将给其行业带来颠覆性的变化。

      人工智能功能主要用于产品开发、功能添加、客户体验、营销功能等。

      然而,GenAI现在采取了不同的形式,称为多模态,其接受多种感官输入,以相似或不同的数据类型提供输出。例如,ChatGPT的新更新赋予了其多模态的能力,其现在不仅可以生成故事、文章和其他文本,还可以阅读。ChatGPT还可以通过语音提示执行任务。其还可以读取图像来识别特定的物体。

      多模态GenAI被认为是我们实现通用人工智能之路上的下一件大事。让我们来看看它是什么。

      什么是多模态生成式人工智能?

      多模态GenAI是一个经过设计、理论化并正在实施的概念,旨在提供多感官沉浸式体验。其从多种数据类型的组合中提取输出,以提供见解、内容等响应。

      多模态生成式人工智能是一种人工智能,其结合了多种类型或模式的数据,如文本、图像、视频、音频、深度等,来创造更多对“现实世界”的设置、场景或问题做出准确的判断或更精确的预测。这些模型接受了它们需要解释或响应的多种模式/数据类型的数据集的训练。

      多模态GenAI与GenAI类似,不同之处在于其利用多维嵌入或索引,并且可以依赖向量数据库进行操作。这种差异的核心在于,多模态GenAI可以通过多维嵌入或索引来摄取、处理和输出多种类型的数据。

      Meta今年早些时候发布的ImageBind多模态人工智能在ChatGPT的基础上更进一步,集成了六种模态,即文本、图像/视频、音频、深度、基于红外的热辐射和惯性测量单元(IMU)。该企业还将更多感官的整合,包括嗅觉和触觉,以及大脑功能磁共振成像信号作为多模态研究的一部分。

      多模态生成式人工智能的好处

      组合和处理来自多个来源的信息可以潜在地将差异均质化,以提供情境相关的结果。在企业环境中,这可以提高员工的工作效率。

      通过为机器交互创建新的途径,多模态GenAI可以重塑终端用户和业务用户的用户体验。

      鉴于其在物理科学、生命/生物科学和社会科学研究中的应用潜力,其还具有一定的社会和科学效益。甚至在GenAI兴起之前,即2021年6月,Google就能够利用其基于强化学习算法的机器学习模型来执行半导体布局规划,这是芯片设计的关键步骤。

      最终,其可以基于跨多种模式的大量数据存储,在多感官/多模式空间中做出越来越准确的确定和预测。其不仅可以比人类更快地接受数据训练,而且还可以更快地根据数据做出决策。

      多模态生成式人工智能的采用

      多模态GenAI已经看到了GenAI的一些应用,例如Adobe的Firefly–文本到图像多模态和MidJourney。请注意,两个GenAI的多模态使其能够接受音频和视觉输入。

      多模态的另一个商业用例包括基于电话的自动化支持系统,该系统可能会将我们语气中明显的情绪转化为企业可用于报告和分析的文本数据。

      另一方面,其也可能被用来损害用户的利益。一些“企业”已经开始使用文本到音频多模态模型来生成更真实、更动态的声音,通过电话进行诈骗。

      然而,就像以前的技术发明一样,多模态和常规GenAI允许数十种职业发展。律师、作家、科学家、教师等可以优化耗时的任务,例如研究、战略制定、文件起草和生成等,前提是这些任务属于多模态GenAI工具所训练的基础数据的范围。

      简而言之,如果可以获得正确的数据,知识经济可能会发生巨大转变。

      这是一个很大的“如果”。

      这就是为什么我们距离主流应用渗透到社会结构还有数年的时间,主要是因为创建多模态人工智能的技术困难,其次是由于当前数据的限制。

      总而言之,以有意义的方式使用多模态GenAI的能力不仅会变得复杂,因为模型本身更复杂,制作成本更高,且因数据的敏感性,围绕制作和使用其程序可能会更加棘手。所有这些都可能会减缓技术的广泛采用。

      多模态生成人工智能可用于改善制造质量控制、汽车预测性维护以及制造供应链优化。在医疗保健领域,其可以处理患者的生命体征、诊断数据、扫描图像、外观和其他文本/图像/音频/视频记录,以改进诊断和治疗计划。在零售业中,其可以分析来自各种来源的数据,包括传感器、摄像头和录音,以识别模式并预测未来的客户行为。还有更多。

      从广义上讲,多模态GenAI可以为开发带来新的视觉元素。我们应该看到某些类型的视觉和交互设计被颠覆,因为这很有可能能够使用能够接受文本输入或视觉示例的模型来生成软件前端和用户体验的某些方面,并生成执行其所需的设计资产和前端代码。

      此外,通过促进AR/VR的创造力,虚拟服务将出现在面向患者的医疗保健运营和多个其他行业中。沉浸式技术的改进在娱乐行业有明显的应用,但也可以在医疗技术/无障碍设备行业、制造业,甚至是设计和建筑等知识工作行业中创造令人兴奋的新事物。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。