• 首页 > 企业IT频道 > ARVRMR

    谷歌AR/VR专利提出根据用户注视点确定聚焦波束成形方向

    2023年03月31日 11:17:54   来源:映维网

      对于支持语音到文本转录功能的AR眼镜,由于搭载的是全向麦克风,区分不同方向的声音相当困难,从而导致语音到文本的转录不准确。尽管波束成形可以将麦克风阵列的整体灵敏度聚焦到特定方向,从而帮助区分不同方向的声音,但在判断聚焦方向时依然存在挑战。

      所以在名为“Foveated beamforming for augmented reality devices and wearables”的专利申请中,谷歌提出可以根据用户注视点来确定聚焦波束成形的方向。

      其中,可以通过跟踪用户的一只或多只眼睛来确定,以确定他们稳定而专注地看在哪里。这种眼睛跟踪波束成形(即中央凹波束成形)可以用于增强来自用户正在观看的方向(即凝视方向)的声音,并抑制来自其他方向的声音。

      当使用波束成形音频时,语音到文本算法可以更准确和梗相关。另外,通过从注视方向突出显示语音,可以使语音到文本的文字记录更容易理解。

      图1是基于注视点波束成形的AR设备框图。AR设备100包括用户导向的传感器105。例如,用户定向传感器105可以包括眼动追踪传感器110,并配置为确定用户的眼睛的位置。

      图2示出了来自可能的眼动追踪传感器110的图像。眼动追踪传感器110可以输出眼睛的图像。

      AR设备100同时包括配置为检测和/或测量用户视场中的对象或实体的一个或多个视图定向传感器。视图定向传感器115可以包括配置为在用户的视场中拍摄对象/人的图像的视场摄像头(130)。

      可以分析视场中的对象/人的图像,以提供对追踪用户注视点有用的信息。例如,可以对图像进行分析以识别与用户对话中的人。另外,可以对图像进行分析,以识别和定位人的面部landmark,例如嘴。面部landmark的位置可以与AR设备100的坐标系相关联,从而可以用其他注视数据对其进行校准。

      来自用户定向传感器(例如眼睛度量)和视图定向传感器(如范围)的信息可以形成由注视点追踪模块300接收的注视数据。注视点追踪模块可以实现为一个或多个软件进程190。注视点追踪模块300可以包括一个或多个分类器,其配置为确定与注视数据相对应的注视方向和/或焦点。

      焦点是用户的眼睛聚焦在3D空间中的点。当注视方向包括范围(即深度)时,可以确定焦点。换句话说,焦点可以定义为3D空间中的方位角(ξ)、仰角(θ)和范围(r)。因此,可以基于深度数据来实现波束成形。

      例如,当不包括深度数据时,波束成形可以将麦克风灵敏度引导到空间中的特定方向。但当包括深度数据时,波束成形可以将麦克风灵敏度引导到特定点。

      图3是注视点追踪模块300的详细框图。注视点追踪模块300包括注视方向确定块310。注视方向确定框310可以根据诸如图2中所示的眼睛图像之类的眼睛度量来确定注视方向。眼睛度量可以根据眼睛的快速运动而快速改变。然而,这种快速的动作可能并不总是与注视相对应。

      因此,为了防止这种眼睛度量影响视线方向的确定,注视点追踪模块可以可选地包括滤波模块305,并配置为过滤快速变化的眼睛度量。滤波模块305可以包括应用低通(LP)滤波器来平滑有噪点的眼睛度量数据。平滑眼睛度量可以减少计算的注视方向的时间变化。

      注视点追踪模块300可以可选地包括焦点确定模块330。焦点确定的操作可以取决于深度传感器的存在。当深度传感器包可用时,则可以捕获AR设备100与跨越注视方向的角度范围内的对象之间的深度并对其进行平均,以获得平均深度值。

      平均深度值(r)可以与视线方向(ξ,θ)相结合,以定义波束形成的焦点。如果不包括深度传感器或深度传感器不可用,则可以使用经验估计的深度(例如1.8米)来定义波束成形的焦点。

      用户的注视与声音的来源并不完全一致。例如当一个人说话时,用户可以注视他的眼睛。所以,麦克风阵列可以聚焦(即波束成形)在人眼上,而不是嘴巴。因此,当波束成形需要增加精度时,需要对注视方向或焦点进行调整(即细化)。

      注视点追踪模块300可以进一步包括目标调整模块340,并配置为接收用户视场的图像并检测图像中的面部landmark。从检测到的面部landmark中,可以选择最靠近焦点的面部landmark作为波束形成的目标。基于选择,可以调整注视方向或焦点。

      在一个实施例中,目标调整模块可以从AR设备100的摄像头130接收视场图像。目标调整模块配置为检测图像中的面部。检测到的面部可与相对于注视方向或焦点的方向或位置相关。

      接下来,选择面部最靠近注视方向或焦点的嘴巴作为波束形成的目标。嘴巴的选择可以包括将质心确定为图像中与嘴巴相对应的点。然后可以将注视方向或焦点调整到与图像中的嘴点相对应的空间中的方向或点。

      例如,可以确定注视方向和到嘴点的方向之间的差异,并且可以调整注视方向以使差异最小化。在其他实施例中,目标调整模块可以进一步分析图像以确定用于交谈的队列,从而识别用于面部lanmark识别的目标面部。

      返回图1,AR设备的软件过程190可以进一步包括波束成形模块140。波束成形模块140配置为从AR设备100的麦克风阵列150接收音频。麦克风阵列可以包括多个麦克风(MIC1、MIC2、…、MICn),每个麦克风配置为将来自环境的声音转换为音频流(即音频通道)。每个麦克风都可以是全向的,因此可以单独地以相同的灵敏度感测来自所有方向的声音。

      图4是图示麦克风阵列的灵敏度相对于角度的极坐标图。当麦克风阵列的灵敏度是全向时,可以相等地接收来自第一扬声器401的声音和来自第二扬声器402的声音。当麦克风阵列的灵敏度是定向的并且聚焦在第一扬声器401时,可以抑制来自第二扬声器402的声音,同时可以增强来自第一扬声器401的声音。

      当来自麦克风的音频(即音频通道)组合时,麦克风阵列中的多个麦克风和阵列中麦克风的布局(例如空间分离)可以提供方向灵敏度。波束形成调整音频通道的组合方式,以便将灵敏度的峰值(即波束)转向特定方向。

      如图4所示,光束可以被操纵以匹配用户403的注视方向430。用户403可以面向与注视方向430不同的方向。如图4所示,用户403面向第二扬声器402,但注视方向430(和光束)指向第一扬声器401。

      返回图1,波束成形模块140配置为从麦克风阵列150接收多个音频流(即多个声道)。可以对多个声道进行处理以生成波束成形音频信号(即波束成形音频),其中来自不同方向的音频可以被增强或减弱。

      尽管预波束成形音频可以包括多个音频通道,但波束成形音频可包括单个音频通道,在单个音频通道中,来自注视方向的声音被增强,而来自其他方向的声音则被抑制。因此,波束成形模块140配置为从注视点追踪模块300接收注视方向或焦点,以调整如何组合预波束成形音频的音频通道,从而产生波束成形音频。

      基于语音,AR应用160可以将来自麦克风阵列的音频转录成文本。在所述实现中,AR应用160配置为生成麦克风阵列150接收的音频的转录,并可以实时地显示给用户。AR应用160可以接收注视方向(或焦点),并基于注视方向调整转录的视觉特征。

      AR应用160可以配置为确定哪个语音到文本来自注视方向或焦点附近的说话者,以及哪个语音到文字来自其他方向的说话者。

      基于所述确定,AR应用程序可以从注视方向将语音的颜色、字体或风格改变为文本。在一个实施例中,AR应用程序可以配置为基于注视方向将语音过滤为文字记录中的文本。例如,与注视方向不够接近的语音到文本可以隐藏。

      图5示出了AR应用程序160的示例转录本。换句话说,所示的示例转录本可以显示在AR眼镜的显示器之上。转录500包括第一语音对文本“你确定你想先去那里吗?可能需要一段时间”;第二语音对文字“如果我们不去的话,我实际上更喜欢”,以及第三语音对文本“对不起。这是你的咖啡”)。

      转录500同时包括将第一语音到文本标识为来自第一说话者的第一字幕501、将第二语音到文本识别为来自第二说话者的第二字幕502、以及将第三语音到文本标记为来自第三说话者的第三字幕503。在所示的示例文字记录中,第一个标题的颜色发生了变化,以表明它来自注视方向的说话者。

      为了确定第一扬声器在注视方向,AR应用程序可以配置为将由麦克风阵列中的扬声器方向与由注视点追踪模块300确定的注视方向进行比较。特别地,AR应用程序可以计算注视方向和每个说话者方向之间的差异,并基于比较确定说话者在注视方向。

      例如,如果注视方向和第一说话者方向之间的差低于阈值,则第一说话者确定在注视方向,并且转录相应地改变。当注视方向改变时,可以更新文字记录以将不同说话者的讲话突出显示为文本。

      在另一种可能的实施例中,AR应用160包括基于用于音频播放的注视点波束成形。例如,交响乐团的指挥希望在特定位置收听小号队的音频。在交响乐录音的播放过程中,指挥家沿着与小号队相对应的方向注视,以生成波束成形音频。所述波束成形音频包括来自小号队的增强音频和来自其他队的抑制音频。波束形成的音频可以在AR设备的扬声器播放,或者通信地耦合到AR设备。

      在另一种可能的实施例中,AR应用160包括基于用于记录或广播音频的注视方向的波束成形。例如,演讲厅中的讲师希望记录或广播来自听众的音频(例如在问答环节中)。在录制或广播期间,讲师在与观众成员相对应的方向注视,以生成包括来自观众成员的增强音频的波束成形音频。波束形成的音频可以被记录到存储器,或者通过通信地耦合到AR设备的扬声器(进行广播。

      名为“Foveated beamforming for augmented reality devices and wearables”的谷歌专利申请最初在 2021年9月提交,并在日前由美国专利商标局公布。

      来源:映维网

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。