OpenAI申请商标Voice Engine,暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。 OpenAI正在申请一个新商标Voice Engine,商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。 尽管这是商标申请,但是谷歌前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情: 开发一个全球最强的个人助理,接管个人设备,以Jarvis那样的形式提供服务! Voice Engine商标内容 Voice Engine是OpenAI最近提交一个商标名称,其内容主要包含了语音识别和语音合成相关的内容。 这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域,特别是在语音和自然语言处理技术方面。具体来说,可能提供的产品和服务包括但不限于:
综上所述,VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件,以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。 而这其中最令人关注的应该是下面的2个内容:一个是可以配合Sora视频生成的功能,为视频配音;另一个则是作为个人助理,支持语音交互! 为Sora视频配音的语音生成功能 传统的语音领域的模型主要方向包括2类:一个是语音合成,即Text to speech(TTS):将文本转成语音。另一个是自动语音识别(Auto Speech Recognition,ASR),即识别语音转成文本。 但是,根据这个描述响应用户提示生成音频或语音的软件,这个能力应该是类似视频生成和图片生成那种,基于文本prompt,来生成相应的语音结果。 例如,你可以给系统说,生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。 在最近爆火的OpenAI的Sora演示中(OpenAI最强的视频生成大模型: OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定),所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。 与Agent传言互相印证:OpenAI的Jarvis产品 在前面的商标描述中提到,OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态,它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入,然后服务直接用语音回复结果。 从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!如果这是一个端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待! 此外,结合此前的传言说GPT可能要接入个人本地电脑系统,那作为一个个人助手完全是没问题的。 同时,谷歌前雇员Jonathan Chavez在前段时间也发布过一个消息,他说OpenAI在今年会推出一个全球最好的个人助理产品,就像钢铁侠中的Jarvis。 Jarvis除了需要有GPT-4那种强大的语言响应能力外,还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是,它本身是为了支撑ChatGPT的功能存在的,范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理,那么意味着它可以帮助我们操作我们的电脑和手机,使用APP等。 这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性:OpenAI正在开发一个全新的基于大模型的Agent产品。 在这个传言中,OpenAI做的事情描述如下:
本文来源:DataLearner,原文标题:《OpenAI可能会推出Jarvis一样的个人助理!OpenAI新商标Voice Engine透露的信息总结!》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。 责任编辑:马梦斐 |