NatureLM-audio首个针对动物声音的大型音频语言模型


在探索自然界奥秘与生物多样性保护的征途中,人工智能技术正发挥着日益重要的作用。地球物种项目宣布推出NatureLM-audio,这是全球首个专门针对动物声音设计的大型音频语言模型,旨在破解动物交流的复杂密码,推动生物声学研究的深入发展。
NatureLM-audio的推出,标志着人类在理解动物“语言”方面迈出了重要一步。该模型利用新编制的数据集进行训练,结合了大型生物声学档案、人类语音和音乐等多种数据源,能够解决各种生物声学任务。通过自然语言查询和音频提示,NatureLM-audio可以生成自由格式的文本答案,大大提高了生物声学数据的可用性。
地球物种项目首席执行官凯蒂·扎卡里安在旧金山举行的Axios AI+峰会上表示:“我们正面临生物多样性危机,而与自然界的脱节是造成这一现状的重要原因。我们相信,人工智能将成为连接人类与自然的桥梁,帮助我们破译动物之间的交流,重新建立联系。”
NatureLM-audio的应用前景广阔。它可以对鸟类、鲸鱼和无尾目动物等不同类别的数千个物种进行分类或检测,而无需为每个新任务重新训练模型,也无需具备机器学习和编程专业知识。此外,该模型还能预测鸟类的生命阶段和简单叫声类型,为生物声学音频添加字幕,有望加速多种物种间通信研究的数据处理。
为了评估NatureLM-audio的性能,研究人员创建了BEANS-Zero基准,旨在衡量模型在无需额外训练的情况下推广到未知物种和任务的能力。实验结果显示,NatureLM-audio在大多数任务上都取得了最佳性能,包括对各种鸟类和海洋哺乳动物声音进行分类等重要任务。更令人惊喜的是,该模型甚至能够预测从未见过的物种的学名,展现了其强大的泛化能力。
然而,人工智能在生物声学领域的应用也面临诸多挑战。一方面,数据短缺是生物声学的一个特征,许多物种的叫声记录很少,且收集和注释数据既费力又昂贵。另一方面,人工智能的能源需求巨大,给电力系统带来了巨大压力,并迫使科技公司推迟或改变以碳中和方式运营的计划。
对此,扎卡里安表示:“这是整个领域都需要努力解决的问题。我们需要不断优化算法,提高模型效率,降低能源消耗。同时,还需要加强伦理审查,确保人工智能的负责任使用和安全。”
NatureLM-audio的推出,无疑为生物声学研究注入了新的活力。随着技术的不断进步和应用的深入拓展,人工智能将在保护生物多样性、促进人与自然和谐共生的道路上发挥更加积极的作用。