清华团队研发脑启发AI模型,为感知信息处理提供全新范例 清华ai团队预测模型 清华团队研发ai
admin
2024-05-13 21:23:27
0

人类天生具有分离各种音频信号的能力,比如区分不同的说话者的声音、或将声音与背景噪音区分开来。这种天生的能力被称为“鸡尾酒会效应”。

中枢听觉系统通过分析声音流中的模式的统计结构(例如频谱或包络),可以轻松地在混合的声音中识别特定的目标声音。

在 AI 领域,设计与人类一样强大的语音分离系统长期以来一直是一个重要目标。

先前的神经科学研究提示:人类大脑经常利用视觉信息来帮助听觉系统解决 “鸡尾酒会问题”。

受到这一发现的启发,视觉信息被纳入进来以改善语音分离质量,由此产生的方法被称为多模态语音分离方法。

如果系统能够捕捉到唇部运动,这一额外线索将有助于语音处理,因为它在嘈杂环境中补充了语音信号的信息丢失。

然而,现有的多模态语音分离方法的分离能力仍远远不及人类大脑。

基于此, 清华大学生物医学工程学院苑克鑫 教授团队打造了一款脑启发 AI 模型(CTCNet,cortico-thalamo-cortical neural network)。


图 | 苑克鑫(来源:苑克鑫)

该模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。

苑克鑫表示:“CTCNet 是在皮层-丘脑-皮层环路和 A-FRCNN 基础上的结果。”

近些年,苑克鑫课题组针对高级听觉丘脑及其皮层联接的架构和生理学特性进行了系统性研究。

在此基础上,结合 清华大学计算机系胡晓林 教授课题组之前的语音分离应用算法,他们提出了一种多模态语音分离方案。

然后,使用公开数据集进行了一系列的语音分离测试和调参,最终才得到了具有优异语音分离性能的 CTCNet。


(来源:TPAMI)

因此,本次研究是在机制研究的基础上引发的应用研究。

“总体而言,这是一个双向奔赴的合作过程。 作为一名 AI 研究者,也许可以通过阅读脑科学领域的文献来获得灵感,但与脑科学研究者的直接沟通一定是最为高效。” 苑克鑫 说。

他继续表示,在没有相应知识的情况下,AI 研究者通过阅读文献来理解大脑的工作原理是有一定困难的。

而作为脑科学研究者,应该有将研究成果向 AI 领域转化的意识和意向,主动与 AI 领域的研究者接触、讨论,这样才有可能碰撞出火花。

事实上,AI 研究者在没有脑科学知识的情况下,已经在试图模拟大脑的部分功能,只不过脑科学研究者并不知道。

通过接触和了解,脑科学研究者就有机会将其研究成果迁移至 AI 研究者已经开展的脑功能模拟的尝试中,从而助力于开展真正有效的脑启发 AI 研究。

苑克鑫表示:“通过本次研究,我深切体会到了神经科学与 AI 领域的研究人员之间加强交流,对于有效开展脑启发 AI 相关工作的重要性。”


图 | 胡晓林(来源:百度百科)

据了解,苑克鑫与胡晓林都同时是清华大学与大脑研究相关的三个中心的兼职研究员,因此经常有机会互相听对方的工作报告,这成为了他们发起合作的契机。

另外,由于神经科学与 AI 是两个截然不同的学科,合作的成功离不开双方团队成员的密切交流。

虽然在交流过程中经常出现词同意不同的情况,甚至出现互相听不懂对方在说什么的情况,但是双方都有足够的耐心去理解对方措辞的内涵,这成为了最终合作成功的重要保障。

最终,相关论文以《由皮层-丘脑-皮层环路启发的视听语音分离模型》(An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits)为题发在 Transactions on Pattern Analysis and Machine Intelligence(TPAMI)[1]。

胡晓林团队的硕士生李凯是第一作者,苑克鑫团队的博士后谢凤华、以及胡晓林团队的博士生陈航分别是第二作者和第三作者,苑克鑫和胡晓林担任共同通讯作者。


图 | 相关论文(来源:TPAMI)

下一步:

首先,他们将解析在单丘脑神经元水平上视、听觉信息的空间和时间整合模式,希望能够借助于该模式实现对 AI 模型的升级,进一步提高模型的语音分离性能,使其能够应对更加复杂的自然场景;

其次,他们将探索该模型在其他应用场景,如探索在噪音背景下的医学信号检测中的应用潜力;

最后,他们将解析在中枢感觉系统中处于更低层级脑区,如中脑中的多模态神经元的解剖、功能联接架构,进而探索这些联接架构启发 AI 模型构建的潜力。

预计拟构建的一系列 AI 模型,将能逆向揭示不同多模态感觉核团、及其中的神经元,在中枢感觉信息处理中可能扮演的重要角色和工作机制。

参考资料:

1.K. Li, F. Xie, H. Chen, K. Yuan and X. Hu, "An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits" in IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. , no. 01, pp. 1-15, 5555.

运营/排版:何晨龙


01/ 科学家打造文生视频大模型,含四个高效变种可更好处理时空维度,将Transformers与扩散模型完美结合

02/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

03/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

04/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

05/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...