QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1022|回复: 0
打印 上一主题 下一主题

人工智能学会“听音辨声”

[复制链接]
字体大小: 正常 放大
杨利霞        

5250

主题

81

听众

16万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-4-17 15:29 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    " F- X2 f4 ]$ }- ~/ @
    人工智能学会“听音辨声”
    & {) ~: B9 V" H: Q' [- J8 X0 J) B' v, C8 v; {0 e2 Y5 {5 X9 S& U
    美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。
    , Q5 n4 i8 p0 l' O( q/ l( e" e4 k( @! e) K' x/ t( A2 O$ o) i
    . k2 X- ?9 \0 D6 @
    人们可以借助均衡器对歌曲旋律中的低音进行调节,但麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的科研人员带来了更好的解决方案。他们的PixelPlayer系统使用人工智能来分辨同一段音乐中不同乐器的声音,然后对不同声音进行调整,让音乐听起来更洪亮或更柔和。# w2 d$ q  v; ~  m# t
    7 \% U) t( j! H5 ~
    如果使用音视频作为输入数据,经过充分训练的PixelPlayer系统会分离伴音音频并识别声音来源,然后计算图像中每个像素的音量并对其进行“空间定位”,即识别视频片段中生成类似声波的部分。科研人员将在2018年9月的欧洲计算机视觉会议上发表该研究成果。
    , x3 P! @3 u. W! P/ L* w9 u6 }2 A& n; @7 U5 |2 [2 ], C" f
    “我们预期的最好情况是,可以识别出哪些乐器会发出哪类声音,”CSAIL博士赵航(音)说道:“我们对自己能够实际上在像素级别对乐器进行空间定位感到惊讶。能够做到这一点增加了很多可能性,例如只需点击视频即可编辑各个乐器的音轨音频。”1 J' I! {9 q) k  f# V0 F4 t

    * ~# A0 B* p2 h6 ], t  N) NPixelPlayer的核心是基于乐器组合多模态来源(Multimodal Sources of Instrument Combinations,MUSIC)进行训练的神经网络。这是一个由来自YouTube的714个未经剪辑且未经标记的视频组成的数据集,其中总时长为60小时的500个视频被用于训练,其余视频则用于验证和测试。在训练过程中,科研人员将演奏者演奏吉他、大提琴、单簧管、长笛和其他乐器的片段馈送给算法。
    # [' |3 U) a, w, u0 o  x: c- W( g" j3 ]3 @5 ^6 a& s6 K+ B1 P, E+ {- b1 R
    这只是PixelPlayer多元机器学习框架的一部分。在经过训练的视频分析算法从视频片段的帧中提取出视觉特征后,第二个神经网络(即音频分析网络)会将声音拆分为各个部分并从中提取特征。最后,音频合成网络会使用来自这两个网络的输出将特定像素与声波关联起来。' p& J4 A& ^  _- r6 ]0 K
    5 a: A6 @1 c$ \! ]! w6 y9 f
    PixelPlayer完全采用自我监督型学习方法,这意味着它不需要人类对数据进行注释,并且能够识别超过20种乐器的声音。研究人员表示,数据集越大,它能够识别的乐器就会越多,但同时也会在区分乐器子类之间的细微差异方面遇到麻烦。它还可以识别音乐元素,例如小提琴的谐波频率。! h1 E# B' P! Z1 |) f

    ) f' j5 V% D3 a+ i2 k科研人员认为PixelPlayer能够帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体制造的环境音。他们表示:“我们希望我们的工作能够开辟出新的研究途径,通过视觉和听觉信号来理解声音源分离的问题。”8 r+ a- p2 i/ h' m- b
    ————————————————8 V" r. p3 P% K4 S' k, Z
    版权声明:本文为CSDN博主「人工智能快报」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    7 i, S$ Q' `5 N% g1 r; H原文链接:https://blog.csdn.net/gs780j/article/details/81074591
    & H4 q' w+ e$ f% c% j
    9 q# u4 `) m0 U5 X" {$ m
    % E6 |* |, I- J8 r0 v
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-19 12:36 , Processed in 0.399282 second(s), 50 queries .

    回顶部