算法和芯片需要匹配。不可能脱离芯片谈算法。
成立仅两年半的探镜科技,走完了从芯片研发到商业化落地的全流程,在智能家居这个领域,卖出了100万颗芯片芯片,营收过千万元。
近日,探境科技举办了ai算法黑科技发布会暨客户交流会。会上,探境科技以音旋风61x为例,从ai算法和sfa架构,对此进行了揭秘。
探境科技副总裁李同治,围绕单双麦克风分别展示了探境科技在算法层面的突破。
在单麦克风条件下,探境科技的ai算法体现在两个方面:第一,性能优异适应性强的语音降噪算法。
一个典型的语音识别系统的流程图由麦克风、降噪处理、语音识别、文字识别结果四个部分组成。其中,降噪处理、语音识别是核心模块。
在降噪处理方面,探境科技推出基于ai的语音降噪算法。据了解,该算法基于深度学习,不仅能够处理稳态的噪声,也能过滤非稳态的突发性噪声。李同治称,为了验证ai降噪算法的有效性,探境科技的员工将一批信噪比在3db左右的语音数据送到一个知名云端识别引擎做了测试,发现降噪后比降噪前的识别率能够提升30%以上。
第二,高计算强度神经网络honn。神经网络honn是为了更好地识别语音,解决语音识别系统的流程图中的语音识别。神经网络honn有别于目前语音识别算法里较为流行的dnn/dtnn。
传统的基于dnn/tdnn的语音识别算法框架里,多使用类似全连接的操作来构建整个网络模型。相比较于全连接操作,卷积操作能够提供更高的计算强度,同时研究发现卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。基于上面两点考虑,探境科技加入了更多的卷积操作,重新设计了声学建模单元的网络结构。
具体的设计方法是将计算机视觉中的一些经验迁移到语音识别中,设计了一个高计算强度的神经网络,探境科技称其为honn。
(dnn)
(honn)
李同治在现场展示了一个honn和dnn的对比,以佐证honn能够明显提升识别率的实验。
“我们看下两个模型对存储的需求,可以看出高计算强度的模型仅需要350k的存储空间,而dnn需要1.6m的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。但是所需的算力相反,高强度模型单帧处理需要超过100m的ops,而一般的dnn模型需要3.2mops的算力。两者相差超过30倍。相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于honn的方法识别优势非常明显。”李同治说。
实际生活中,还有一些场景需要在更高的噪声环境或者更远的场景下进行识别,比如扫地机上的语音控制,或者是坐在客厅里看电视时控制其它房间里面的电器等等。这些场景下单麦克风孤掌难鸣,需要使用麦克风阵列来进一步提升性能,为此探境科技对算法进行了全新的升级,也即fcsp双麦识别。
传统的麦克风阵列处理算法的缺点有4个:1、doa依赖于单麦唤醒词检测,使用场景受限;2、两个环节优化目标不一致,降噪与识别可能不适配;3、对硬件要求高,提高bom成本;4、无法处理干扰源与目标声源方向接近时的状况。
为了克服传统分模块语音增强算法的这些缺点,探境科技设计出了基于fcsp的端到端ai双麦算法。fcsp(frequency complex subspace projection)是探境自研的频域复数子空间投影算法的简称。
这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的ai算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。
另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。“这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”李同治说。
据了解,目前,“端到端”是国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司,也是通过类似的方法。据媒体报道,谷歌公司采用了factored model in frequency的算法,相对错误率降低至16%,双麦达到了传统算法7麦的识别率。探境科技采取了频域复数子空间投影,抗噪性能强,在信噪比为0db时,相对于传统的处理算法,相对识别错误率降低超过20%。
算法和芯片需要匹配。不可能脱离芯片谈算法。和ai算法相匹配的是音旋风61x的芯片。目前,市面上,语音芯片大多由mcu和dsp构成。“这类产品去年就有台湾的厂商在推广,而且芯片公司没有算法,搭配了台湾的某算法大厂,结果呢,效果差到没法接受,就算是mcu价格便宜,这个市场也做崩了。”探境科技创始人兼ceo鲁勇表示。
探境的语音芯片,通过sfa架构解决ai芯片存储墙问题。鲁勇认为,存储优先的芯片架构 sfa(storage first architecture),以存储来驱动计算,推翻冯诺依曼体系,不同于之前的类cpu,是一个颠覆性的芯片架构。
从探境提供的实测数据来看,在同等条件下,数据访问可降低10~100倍,存储子系统功耗下降10倍;28nm工艺,系统能效超过4t ops/w。“实验数据表明,sfa架构所采用的各种微观和宏观调度算法,比较“类cpu架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。”
在28nm常规工艺芯片的对比测试中,测试方法为带有卷积加速器扩展指令的dsp模式与sfa架构模式的对比。sfa架构在乘法器数目相同情况下,结果如下表。(dram为lpddr4)。
会上,鲁勇还和世强科技生态合作部刘学锋、阿凡达总经理冯惠军进行了战略合作伙伴签约。据了解,世强是中国电子行业最优秀的分销企业之一,成立于1993年,是全球数十家著名半导体企业在大中国区的重要分销商。阿凡达智控,创立于2015年,是一家致力于智能语音控制与交互技术研究、创意产品设计和生产销售的创新型科技企业。“sfa(存储优先)架构是探境的产品基石,正是借助sfa的优势,我们的ai芯片产品才能‘裂变式’的推出,大大加快了探境的商业化落地速度。”鲁勇这样评价sfa架构的意义。
世强科技生态合作部刘学锋,探境科技创始人兼ceo鲁勇(右一)
阿凡达智控总经理冯惠军,探境科技创始人兼ceo鲁勇(右一)
据了解,截至目前,探境科技有近30家合作伙伴。探境科技的芯片用到了灯具、热水器、垃圾桶、空气净化器、抽油烟机、空调、窗帘、晾衣架、咖啡机等上面。
值得一提的是,探境科技还揭秘了探境图像芯片的真容。探境图像芯片目前,已经流片成功。探境图像芯片进一步丰富了离在线一体、探境全栈式平台化发展战略。
作者:李夜