人形机器人要实现与人类在复杂声学环境下的自然交互,必须具备远超普通智能音箱的听觉能力。它不仅需要识别语音内容,更需要定位声源的方向和距离,这通常依赖于麦克风阵列技术。而麦克风阵列前端芯片,负责对来自多个麦克风的微弱模拟信号进行放大、调理和数模转换。在这一系列处理过程中,芯片会不可避免地引入非线性失真和噪声。为了衡量这种信号品质的恶化程度,工程师们使用总谐波失真加噪声(THD+N)这个参数,通常用分贝(dB)表示,数值越小(越负),代表芯片的性能越好。对于人形机器人这类高端应用,麦克风阵列前端芯片的THD+N性能要求极为苛刻,通常要求达到 -80dB 至 -100dB 的高水准。例如,一些先进的高保真音频编解码器,其ADC的THD+N可以达到 -85dB 甚至 -88dB-。对于功放部分,有的芯片THD+N甚至能做到 -101dB 或更高-。
了解THD+N的数值含义非常重要。一个-85dB的THD+N,意味着所有谐波失真成分加上电路噪声的总能量,比基频信号的能量低了85dB。换算成线性比值,大约是0.0056%。也就是说,经过芯片处理后,输出信号中99.994%是纯净的原始声音,只有极其微小的杂音。对于人形机器人来说,这意味着在空旷的室内环境中,它能极其细腻地解析出人的语调、气息和情感;而在嘈杂的街道上,它也能从含有大量干扰的混合声音中,保留更多有效的声学特征,从而提高声源定位的精度和语音识别率。如果THD+N只有-40dB,即失真度约为1%,这相当于在一个清晰的说话声旁加上了一个微弱的沙沙声。虽然对于电话通话可能足够了,但对于执行高精度分离和定位算法的机器人来说,这会显著降低算法的可靠性,使其容易出现误定位甚至漏报。
为了达到如此高的保真度,麦克风阵列前端芯片在多个环节上进行了精心的设计。首先是从输入级开始,就采用了超低噪声的放大器(LNA)。这个LNA是信号链的第一个环节,它的噪声直接决定了整个系统的本底噪声。为了同时驱动多个麦克风通道,芯片必须具有良好的通道隔离度,以确保一个通道的信号不会串扰到相邻通道,从而产生虚假的相位差信息,干扰声源定位算法。例如,一个典型的麦克风阵列,其各通道之间的相位一致性是衡量定位精度的关键。如果芯片内部串扰严重,就会破坏各通道间的相位信息,导致定位算法“听”歪了声音的方向。因此,芯片内部的布局布线会极度对称,并尽可能采用差分信号传输路径,以抵消共模干扰。
其次,芯片中的模数转换器(ADC)的质量至关重要。人形机器人的听觉芯片通常采用高分辨率的Σ-Δ型ADC,常见的是24位音频ADC。这种ADC通过对1位数据流进行过采样和噪声整形,将量化噪声推向高频,从而在音频带内(20Hz-20kHz)实现极高的信噪比。然而,Σ-Δ ADC本身也存在非线性问题,特别是其内部的开关电容积分器和比较器,如果设计不当,也会引入谐波失真。为此,芯片内部会集成数字滤波器和校准引擎,对转换结果进行实时的线性化补偿,以降低THD。这也就是为什么一些高性能音频Codec(多媒体数字信号编解码器)芯片,即便在96kHz的高采样率下,也能同时保持-85dB的THD+N和极低的通带纹波-。
此外,THD+N的测量条件也很有讲究。在数据手册中,THD+N通常是在特定输入信号(如1kHz正弦波)、特定幅度(通常接近满量程但低于削波点)和特定带宽(如20Hz-20kHz)下测得的。在实际应用中,麦克风前端芯片面对的输入信号是极其复杂和多变的。例如,当靠近机器人的喇叭在播放音乐时,远端的人声是一个小信号。如果芯片的动态范围不足,或者THD+N在大信号输入下急剧恶化,那么大信号(音乐)产生的谐波分量就可能淹没了小信号(人声)。因此,芯片厂商会提供THD+N vs. 输入幅度的曲线图。优秀的芯片能够保证在从微小信号到接近满量程信号的宽动态范围内,THD+N始终保持在较低的水平,从而实现无压缩、无失真的高保真信号链,为人形机器人在嘈杂环境中感知细微的人声提供硬件支持。总而言之,人形机器人听觉定位麦克风阵列前端芯片的THD+N指标,通常要求在-80dB到-100dB之间。这一性能不仅是衡量纯音频回放品质的标准,更是决定机器人能否在真实、嘈杂的环境中,像人一样“听清”声音、判断方向的基础。它标志着人形机器人听觉交互技术正在从单一的“语音识别”向复杂的“声学场景分析”和“空间听觉”的高阶演进。





.eb68a87.png)
.8d1291d.png)
.3808537.png)
.2fc0a9f.png)