摘要:谷歌的目标是为全球研究人员提供强大的工具,让他们能够分析自己的声学数据集,加快全人类对这些聪明的海洋哺乳动物的理解。我们正从被动倾听转向主动解读声音模式,这或许让我们离跨越物种间的交流鸿沟又近了一步。...

谷歌开发了一款名为 “海豚杰玛(DolphinGemma)” 的 AI 模型,用于解读海豚的交流方式,未来还有望促进跨物种交流。

海豚在水下世界发出的复杂咔哒声、哨声和脉冲声长期以来一直吸引着科学家们。能够理解并解读它们复杂发声中的模式,一直是科研人员的梦想。

谷歌与佐治亚理工学院的工程师合作,借助野生海豚项目(Wild Dolphin Project,简称 WDP)的实地研究成果,推出了 “海豚杰玛”,助力实现这一目标。

这款基础 AI 模型在全国海豚日前后发布,代表了人们在理解鲸类交流方面的新工具。“海豚杰玛” 经过专门训练,用于学习海豚声音的结构,甚至还能生成类似海豚叫声的全新音频序列。

自 1985 年启动以来,野生海豚项目已经开展了全球持续时间最长的海豚水下研究。经过几十年的研究,项目对海豚在特定情境下发出的声音有了深入了解,例如:

  • 标志性 “哨声”:这是海豚独特的身份标识,类似于名字,在母婴团聚等互动场景中起着关键作用。

  • 突发脉冲 “叫声”:通常与冲突或攻击性的遭遇有关。

  • 咔哒 “嗡嗡声”:在求偶活动或海豚追捕鲨鱼时经常能检测到。

野生海豚项目的最终目标是揭示这些自然声音序列的内在结构和潜在含义,寻找可能代表某种语言形式的语法规则和模式。

这种长期且细致的分析为训练像 “海豚杰玛” 这样复杂的 AI 模型提供了重要基础和标记数据。

海豚杰玛:倾听鲸类声音的 AI 之耳

分析海豚交流声音的数量之多和复杂性,对人类来说是一项艰巨的任务,却非常适合 AI 来处理。

谷歌开发的 “海豚杰玛” 运用了专门的音频技术来应对这一挑战。它使用 SoundStream 分词器高效地表示海豚的声音,并将这些数据输入到擅长处理复杂序列的模型架构中。

基于谷歌轻量级开源模型杰玛(Gemma)家族(该家族与强大的 Gemini 模型共享技术)的见解,“海豚杰玛” 是一个音频输入输出系统。

“海豚杰玛” 从野生海豚项目庞大的数据库中获取自然海豚声音序列,通过学习识别重复出现的模式和结构。关键的是,它能够预测序列中接下来可能出现的声音,就像人类语言模型预测下一个单词一样。

“海豚杰玛” 拥有约 4 亿个参数,经过优化后运行效率很高,甚至能在野生海豚项目用于实地数据收集的谷歌 Pixel 智能手机上流畅运行。

随着野生海豚项目在本季开始部署该模型,有望大幅加快研究进程。它能够自动标记那些以往需要耗费大量人力才能发现的模式和可靠序列,帮助研究人员揭示海豚自然交流中隐藏的结构和潜在含义。

CHAT 系统与双向互动

在 “海豚杰玛” 专注于理解自然交流的同时,一个并行项目探索了不同的方向:主动双向互动。

由野生海豚项目与佐治亚理工学院合作开发的 CHAT(鲸类听力增强遥测,Cetacean Hearing Augmentation Telemetry)系统,旨在建立一种更简单的共享词汇表,而不是直接翻译复杂的海豚语言。

这个概念是将 CHAT 生成的特定新颖合成哨声(与自然声音不同)与海豚喜欢互动的物体(如围巾或海藻)联系起来。研究人员展示哨声与物体之间的联系,希望海豚天生的好奇心能促使它们模仿这些声音来索要物品。

随着通过 “海豚杰玛” 这类模型对更多自然海豚声音的理解不断加深,这些声音有可能被纳入 CHAT 互动框架。

谷歌 Pixel 助力海洋研究

无论是自然声音分析还是交互式 CHAT 系统,关键的移动技术都发挥着重要作用。谷歌 Pixel 手机是在充满挑战的海洋环境中实时处理高保真音频数据的核心设备。

例如,CHAT 系统依赖谷歌 Pixel 手机:

  • 在背景噪音中检测潜在的模仿声音。

  • 识别所使用的特定哨声。

  • 通过水下骨传导耳机提醒研究人员海豚的 “请求”。

这使得研究人员能够迅速用正确的物品做出回应,强化海豚学到的关联。最初是 Pixel 6 承担这一任务,而计划于 2025 年夏季推出的下一代 CHAT 系统将使用 Pixel 9。Pixel 9 集成了扬声器 / 麦克风功能,可同时运行深度学习模型和模板匹配算法,性能得到进一步提升。

使用像 Pixel 这样的智能手机极大地减少了对庞大且昂贵的定制硬件的需求。它提高了系统的可维护性,降低了功耗,缩小了设备的物理尺寸。此外,集成到 CHAT 中的 “海豚杰玛” 预测能力有助于更快识别模仿声音,让互动更加流畅高效。

谷歌认识到突破往往源于合作,计划在今年夏天晚些时候将 “海豚杰玛” 作为开源模型发布。虽然它是基于大西洋斑纹海豚的数据进行训练的,但对于研究其他鲸类的科研人员来说,其架构仍有很大的应用潜力,可能只需针对不同物种的发声特点进行微调即可。

谷歌的目标是为全球研究人员提供强大的工具,让他们能够分析自己的声学数据集,加快全人类对这些聪明的海洋哺乳动物的理解。我们正从被动倾听转向主动解读声音模式,这或许让我们离跨越物种间的交流鸿沟又近了一步。