! q1 N* Q% b# ] K' }! f, Q如果使用音视频作为输入数据,经过充分训练的PixelPlayer系统会分离伴音音频并识别声音来源,然后计算图像中每个像素的音量并对其进行“空间定位”,即识别视频片段中生成类似声波的部分。科研人员将在2018年9月的欧洲计算机视觉会议上发表该研究成果。 ( F z0 [) h. X/ c, b( `) B& |7 D1 ?2 D4 @4 M
“我们预期的最好情况是,可以识别出哪些乐器会发出哪类声音,”CSAIL博士赵航(音)说道:“我们对自己能够实际上在像素级别对乐器进行空间定位感到惊讶。能够做到这一点增加了很多可能性,例如只需点击视频即可编辑各个乐器的音轨音频。”, c; K; P l+ m3 g; r d( K7 _
* t, {) `+ K. B8 FPixelPlayer的核心是基于乐器组合多模态来源(Multimodal Sources of Instrument Combinations,MUSIC)进行训练的神经网络。这是一个由来自YouTube的714个未经剪辑且未经标记的视频组成的数据集,其中总时长为60小时的500个视频被用于训练,其余视频则用于验证和测试。在训练过程中,科研人员将演奏者演奏吉他、大提琴、单簧管、长笛和其他乐器的片段馈送给算法。) r" A0 Y9 I0 I) U, Q
0 o J. Y' P `+ ?! d
这只是PixelPlayer多元机器学习框架的一部分。在经过训练的视频分析算法从视频片段的帧中提取出视觉特征后,第二个神经网络(即音频分析网络)会将声音拆分为各个部分并从中提取特征。最后,音频合成网络会使用来自这两个网络的输出将特定像素与声波关联起来。8 y6 F0 ]6 u. c+ i
, p% R( C4 F1 I3 |6 J4 M
PixelPlayer完全采用自我监督型学习方法,这意味着它不需要人类对数据进行注释,并且能够识别超过20种乐器的声音。研究人员表示,数据集越大,它能够识别的乐器就会越多,但同时也会在区分乐器子类之间的细微差异方面遇到麻烦。它还可以识别音乐元素,例如小提琴的谐波频率。# c% P; c+ | O% _