声音AI技术初创公司Cochl正在利用英伟达的NVIDIA Riva和微软HoloLens 2来可视化一系列的声音,从而帮助聋人“恢复听力”。
从人类的语言到诸如狗叫声和警笛声的非语言声音,音频可以包括广泛的声音。在为有听力障碍的人设计无障碍应用程序时,系统应该能够识别声音和理解语音。
这种技术将帮助聋人将语音可视化,从而再次“恢复听力”。将语音和声音AI结合在一起,可以将可视化的内容叠加到诸如微软HoloLens 2这样的AR设备之中,从而帮助用户看到和解释他们无法听到的声音。
根据世界卫生组织的数据,约有15亿人(占全球人口近20%)患有听力损失。到2050年,这一数字可能上升到25亿。
深度技术初创团队Cochl是位于美国圣何塞的英伟达合作伙伴,专注于利用声音AI技术来理解任何类型的音频。
这家公司的平台可以识别37种环境声音,而且它们更进一步,增加了尖端的语音到文本技术。
AR设备可将任何声音可视化
AR设备可以极大地改善听力损失者的生活,因为它是将声音可视化的无障碍工具。这项技术可以帮助提高他们的沟通能力,帮助他们更容易浏览和参与周围的世界。
团队正在将自动语音识别(ASR)来支持AR头显识别和理解人类语音。这项技术可以通过几种方式集成到设备之中:
- 使用麦克风捕捉一个人与聋人或交谈的语音,然后使用ASR算法解释并将语音转录为文本。然后,文本可以显示在眼镜之上,从而帮助聋人能够阅读和理解讲话内容。
- ASR同时可用于确保设备响应语音命令,这样用户就可以用他们的声音控制眼镜。
- 它们同时能够在屏幕上显示所有对话,例如在开车时转录地图系统的语音指示,以及其他任何声音,如紧急车辆的喇叭或警笛和风声。
Cochl解决方案背后的技术
Cochl正在使用NVIDIA Riva来为其软件栈中的ASR功能提供支持。Riva是一个由GPU加速、完全可定制的SDK,主要用于开发语音AI应用。通过使用Riva,团队平台能够扩展其能力,以理解广泛的声音,包括非语音的声音。
这家公司指出:“我们已经测试了诸多语音识别服务,但只有Riva提供了特别高和稳定的实时性能。因此,现在我们可以使我们的声音AI系统更接近人类的听觉感知。正如我们所观察到的一样,AR眼镜最有可能在嘈杂环境的开放空间中使用。NVIDIA Riva帮助我们在嘈杂的环境中准确地转录语音,并为我们提供了无缝的体验。
辅助技术的未来
创建一个能像人类一样感知声音的通用AI系统是一个巨大的挑战。AR头显是将声音和语音转换为视觉信息的理想媒介。通过整合机器听觉功能,AR设备可以为全世界的聋人或重听者带来更安全、更方便、更愉快的日常生活。
Cochl同时在探索语音人工智能的更多用例,例如在AR头显为任何视频提供字幕,并可视化多位发言人的口述内容。为了给有听力障碍的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们最低限度地了解音乐的流派和情感。
评论