• 首页 > 数据存储频道 > 数据库频道 > 数据库

    标贝科技多语种识别数据库 让沟通无国界

    2022年12月09日 14:07:41   来源:中文科技资讯

      随着人工智能新一轮浪潮兴起,AI语音对话技术日趋成熟,带来越来越好的智能语音交互体验。特别是以AI语音助手为代表的语音交互功能已经得到充分落地应用,如智能穿戴产品、智能车载设备以及智能家居等。用户只需要唤醒语音助手,发出相应的指令,智能产品就可以“听懂”指令,帮助我们完成打电话、查天气以及导航等需求。

      面对智能语音交互稳步增长的市场空间,国内外企业纷纷加入布局,抢占市场先机。不仅促进了语音识别技术市场的不断繁荣,同时也对多语种语音技术能力提出了更高要求。

      多语种语音识别难度大

      智能语音产品想要“听懂”不同的语言,取决于多语种AI语音识别技术的实现。而且语料库越丰富,语言识别模型的质量就越好,最终的语音识别准确率也越高。据统计,目前世界上共有7000多种语言,小于百万人群使用的小语种占据世界所有语种的80%。尽管市场上已经有部分智能翻译设备的中英文翻译效果已经达到专业水平,但由于语言众多,发音体系、发音技巧各不相同,多语种的语音识别仍面临极大挑战。

      语料资源稀缺。  多语种语音数据难以获取不仅表现在语音上,更表现在语料,发音词典,标注资源上。对于部分小语种,姑且不说上万小时语音数据,就连100小时标注数据的获取也举步维艰。

      语言的复杂性和各异性。不同语言在语音和语法层次有很大差异,开发商需要根据不同的语言特性单独建立语言模型。而建立模型还是要基于大量的数据做训练支撑。

      多元化差异。  地方口音、口语用词、网络用语等差异导致各语种随人群不同,具有很强的随意性,也会给语音识别系统带来极大挑战。

      搜集覆盖领域广、覆盖说话人多、需求量大的多语种语音数据成为语音识别技术的一大瓶颈。

      标贝科技多语种识别数据解决方案

      标贝科技深耕AI数据服务领域多年,拥有专业的数据处理团队和强大的数据采集、处理能力,在数据采集和标注方面具备丰富的实践经验。

      面对多语种识别训练语料稀缺的难题,标贝科技推出系列多语种语音识别数据库,覆盖美式英语、英式英语、韩语、法语、西班牙语、俄语、阿拉伯语等多语种。使用高保真麦克风、iOS端、Android端采集录制并对齐,语音识别系统对于高保真麦克、iOS端、Android端的音频均适配。并根据音频对说话人进行标注,注明了男女性别属性,句准率超过95%。

      西班牙语自由交谈数据库

      语种:西班牙语

      录音环境:室内

      数据时长:100小时

      录音设备:高保真麦克风、安卓手机、苹果手机等录制

      录音参数:16KHz,16Bit,单声道,Wav格式存储

      适用领域:智能家居、智能搜索、语音助手等

      法语自由交谈数据库

      语种:法语

      录音环境:室内

      数据时长:100小时

      录音设备:高保真麦克风、安卓手机、苹果手机等录制

      录音参数:16KHz,16Bit,单声道,Wav格式存储

      适用领域:智能车载设备、有声阅读、语音助手等

      另外,标贝科技还打造了阿拉伯语、俄语、美式英语等多语种自由交谈库,以及韩语、英式英语等朗读语音库,覆盖智能家居、智能驾驶、有声阅读、智能安防、智能搜索等多个业务场景,推动智能语音产品快速落地应用。

      欢迎对以上数据集感兴趣的行业伙伴联系我们~

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: X073]
    分享到微信

    即时

    新闻

    腾讯前三季研发投入454.75亿元 前沿科技加速落地服务

    11月16日,腾讯控股(HK.00700)发布2022年Q3财报,腾讯实现营业收入1400.93亿元,非国际会计准则净利润(Non-IFRS)322.54亿元,同比恢复增长,多个主营业务板块收入亦呈现环比企稳迹象。

    企业IT

    今日影像,今日推送!星图地球今日影像正式发布,开

    每一次火箭升空、卫星发射都能引起全国人民的关注,那你可曾想过,有朝一日每个人都能召唤卫星为自己服务?

    研究

    IDC发布中国数字政府IT安全软硬件市场份额报告

    IDC《中国数字政府IT安全硬件市场份额,2021》报告显示,中国数字政府IT安全硬件市场的规模达到64.9亿元人民币,同比增长31.5%。