谷歌新的基于人工智能的AudioPaLM是什么?了解这种语言模型是如何工作的_科技

班加罗尔，6月27日:随着人工智能领域的进步，人工智能驱动的聊天机器人正在崛起。各种技术专业正在发布许多形式的生成式人工智能工具，但其中最受欢迎的是基于文本的生成式人工智能，它可以处理和生成具有清晰语言的文本，非常类似于人类对话或人类创造的文本。在这个领域，科技巨头谷歌自然不会落后。

大型语言模型(LLM)的进步还在继续，因为最近它们的发展受到了巨大的推动，特别是在微软支持OpenAI的ChatGPT取得巨大成功之后。谷歌已经发布了一系列由人工智能驱动的各种模型或工具。LLM利用人工神经网络，其工作原理类似于人类大脑的部分，并处理和生成语言。然后使用自监督学习在大量文本数据上对人工神经网络进行广泛的训练。

什么是谷歌的AudioPaLM及其工作原理:

ChatGPT的竞争对手Google的Bard就是基于这样一个庞大的语言模型，而Google最近发布的许多其他工具也部分使用了它。最近，这家科技巨头推出了一种名为AudioPaLM的新语言模型，它与文本有多方面的关系，可以像人类一样自然地听、说和翻译文本。

AudioPaLM是一个多模态架构，它结合了PaLM-2和AudioLM，不仅可以生成文本，还可以生成语音，可以用于语音识别和人类语音的翻译。

PaLM-2是一种基于文本的语言模型，在基于文本的语言理解方面表现出色，而AudioLM在保留说话人身份和语气等副语言数据方面表现出色。

通过结合这两种模型，AudioPaLM在各种语言相关功能方面提供了更高的可用性和更好的性能。因此，它可以对多种语言进行语音到文本的翻译，甚至可以对该工具没有训练过的语音/语言组合进行翻译。该模型可以有效地应用于现实场景中的实时多语言交流。

正如谷歌研究人员所证明的那样，AudioPaLM还可以有效地捕捉和再现不同语言的不同声音，并且在语音翻译方面表现出色。