数学建模社区-数学中国

标题: 申请复查1009队，也请大家一起看看 [打印本页]

作者: 霹雳大熊猫 时间: 2013-5-12 12:52
标题: 申请复查1009队，也请大家一起看看
尊敬的数学中国“认证杯”网络挑战赛组委会：

您好！

我们是本次参赛的挑战者，队号为1009。首先，我谨代表我校参赛者们为贵组委会为批改论文和整理成绩所付出的辛勤的劳动表示感谢！我们对于贵组委会为广大数模爱好者提供这样一个竞技交流的平台而感到感谢；确实，多年来一直坚持自己的竞赛理念并坚持为广大数学建模爱好者提供优质的交流平台，是一件非常不容易，意义重大的事情。

但是，在此次2013第一阶段比赛的成绩初稿公布后，我们队以及我校数模组指导老师都对于我所在的队伍的成绩存在着很大的争议。得益于比赛的公平公开性，经队内的激烈讨论过后，本着对贵组委会的信任，我们决定和贵组委会交流（在一般的国赛中恐怕根本不会有这种机会。）。我们的初衷是，在提出自己的想法之余，为此次比赛平台的公平公开性做出微薄的努力。如有对论文评审结果有理解上的偏差，请专家们不啬赐教！

本组选择的题目是B题，题目有关音乐分类问题。附件是本组的论文。在初稿中，我们的成绩是二等奖（75分，只差一分就是三等奖），评语是：“该文建立的模型较完整，思路清晰，但考虑的不够周全”。因此，我们队伍积极参阅了同时选择B题的大部分的优秀论文。在我们与其他选择B题的队伍（包括特等奖与部分一等奖的论文）的论文进行大量比较后，本队的队员一致认为：虽然我们的模型有一定的局限性，论文行文也有不够流畅的地方，然而本组的论文应至少具有一等奖的水平。以下是本队提出的理由：

理由一，本队的论文具有一些其他参赛模型所不具有的创新性：开放式分类。

正如B题题目中所陈述的那样，现有分类类别“有的类别之间关系不清楚，造成混乱；有的类别过度粗略或精细；有的类别标签没有得到公认；有的音乐归属则存在争议或者难以划归。”这就要求我们不仅要提出分类方法，更重要的是提出一种科学的分类类别，并且能够为应用于推荐系统等方面埋下伏笔。

为了契合题意，我们队建立的几个模型，皆是为了面向推荐系统、打破传统风格分类界限而建立。

为了跳出传统风格分类（包括情感，文本，风格等）的不足，隐含在我们论文当中的思想是：“重估一切分类”。换句话说：最科学的分类类别，就是没有分类类别。可能这一观点多少有些令人困惑。然而，换一个角度，我们能够更好地理解这个思想。如果我们能提出一种分类方法，使得该方法不依赖于任何先验的类别信息（风格，情感，标签，或者任何你能想到的一切），那么就做到了“最好的分类类别，就是没有分类类别”。为了部分地做到这一点，我们通过无监督的分类模型（SOM神经网络）、分形维数模型、用户行为核密度估计模型来达到这一点。我们的分类方法撇开了现有分类的拐杖（如风格、感情、流派），同时加入了用户的行为信息，并且通过实证数据进行了初步验证。这无疑在网络电台推荐领域有着更好的应用前景。

而纵观其他参赛模型，几乎全部都是利用现有的类别（如风格和情感），然后在特征提取（如标签，音频特征，语义特征等）和分类方法上（BP，小波，SVM，GMM，蜂群算法等）做文章。我们可以发现，在前人的工作中，这类成果已经较为广泛和完善，可以直接使用而无需经过新的思考。如果对这些方法进行机械组合，那么我们得到的结果是没有太多实用价值的，如对于网络电台推荐性能的提高和音乐市场分析、大众音乐审美等进一步应用没有太大指导作用。以较有代表性的特等奖2854队作品为例，其模型三（基于LDA和SVM的分类方法）是基于现有的古典/流行/摇摆/爵士四类风格进行多分类，这并没有突破传统风格类别的界限；在当今这样一个音乐类别关系错综繁杂，且新生类别层出不穷的时代，这样即使分类正确率再高，对于网络电台的推荐也没有太多指导意义。其在模型四中，该论文虽然发现了分形维数这一个创新点，但目光依然局限于传统风格分类，没有发掘分形维数可以打破传统风格分类的潜质。

正如以上提到的特等奖论文一样，绝大多数论文都没有考虑打破传统风格界限，也没有考虑来自于用户方面的信息。这样的成果虽然在理论上有着一定的重要性，但在实际应用中只能拘泥并巩固传统分类，这多少违背了B题的初衷。我们组的亮点是勇于打破传统，迈出开放性分类的第一步，这与B题的要求十分契合，也与本赛事鼓励创新的初衷相一致，所以理应有更好的成绩。

理由二，本组模型专注于面向应用，“接地气”，考虑了用户的行为信息，为网络电台的推荐等应用埋下了伏笔，有着近一步研究应用的可能性。

我们认为，音乐分类不能脱离人类的欣赏而独立存在。对于一个音乐作品，每个听众的理解是不同的。在我们需要综合考虑一下两点：

1，音乐自身的特征；

2，特定听众的音乐鉴赏行为特征。

针对以上两点，我们建立了音频指纹和用户指纹的概念。可能由于时间紧迫和数据不够，这两个概念的应用价值难以被发现。所以，我们组在赛后也在着手建立相应的推荐系统。另外，在音乐市场分析和音乐审美分析的应用也是显而易见的。（如，针对各年代人气音乐的分形维数，可以绘制随音乐史变迁的分形维数变化，分析大众音乐审美倾向；通过用户指纹的变化，可以分析音乐市场的新动向，等等）。这些都是机械分类所无法达到的。

此外，评语中谈到“考虑不够周全”。若这里的“不周全”是指音乐的外部信息考虑不周，那么事实上，针对音乐内部信息与外部信息的关系，我们在文中也进行了相应分析，可见论文第18~19页。我们的结论是，在实际应用中，音乐的内部信息往往才是主要矛盾。因此在模型中未有涉及情感、文本、标签等外部信息，也为情理之中。

综上所述，我们认为，尽管我们的论文有很多不足，模型也并不复杂，论述也稍显粗糙，但本组论文勇于打破传统，迈出开放性分类的第一步，并且面向推荐系统，考虑实际应用，这与B题的要求十分契合，也与本赛事鼓励创新的初衷相一致。与其他参赛队的论文相比，理应有更好的成绩。希望组委会和专家评审们能够再一次重新评估，给出更详细的建议。同时，这也可进一步宣传推广“认证杯”数学建模比赛。希望我们小小的意见能够被组委会考虑。若能如此，我们将不胜感激。再次表示感谢！

参赛队1009

1009队 B题.pdf

1.2 MB, 下载次数: 116, 下载积分: 体力 -2 点

作者: 霹雳大熊猫 时间: 2013-5-13 12:43
请大家一起看看吧

作者: 白浪 时间: 2013-5-13 13:31
大致看了一下，论文给出的模型有东拼西凑的嫌疑，在一篇论文中解决同一个问题的模型之间应该是层层递进的关系，而纵观本文是平行的关系，没有亮点（纯属个人观点）。

作者: maandy 时间: 2013-5-13 19:25

白浪发表于 2013-5-13 13:31 / B+ w* X w, C0 a: O" L. E' P$ u
大致看了一下，论文给出的模型有东拼西凑的嫌疑，在一篇论文中解决同一个问题的模型之间应该是层层递进的关 ...

谢谢你的回复！其实我们论文的四个模型既有层层推进，也有相互平行，主线也是清晰的。所有模型看似松散，实际上都是针对“开放性分类、面向推荐”这一个主线进行。在这一个主线下，又分了两个互相平行的部分：前两个模型为第一条子线，主要是为了和传统的“特征提取--机器学习分类”的方法承接起来，只不过采用了无监督的办法摆脱传统分类约束。后两个模型形成第二条子线，进一步发掘第一条子线中蕴含的“重估一切分类”的思想。采用分形维和用户指纹这两个高度压缩的信息代表音乐内部信息和用户信息。分形维数不是我们的首创，但是分形维数和核密度估计的结合确实是我们的创新点。第二条主线我们没有进一步给出分类方法，这引起了误解，使得论文看起来像东拼西凑，但是我们确实已经完成了分类。所谓的音乐分类，本质上可以看做是提取出一种一维的特征。分形维已经解决了这一点。这就是分形维的优势：特征即分类。这使得其与用户行为的估计可以较容易的结合起来。我们确实也这么做了。但光靠分形维确实单薄。因此我们的第一条主线就有了存在意义：与之互补。最后，我们没有像2854队一样“给出”基于分形维的分类方法，因为这支特等奖队伍根本没有仔细思考过——他们队后两个模型是完全抄袭的。东拼西凑的嫌疑最大的是他们。

作者: 霹雳大熊猫 时间: 2013-5-14 22:43
第二阶段马上就要开始了！请其他参赛者也看看吧!

作者: 建模必胜 时间: 2013-5-17 15:41
大致看了一下，下面是个人意见，说错了别见怪。第一，文章长达35页，内容丰富，建立了四个模型，四个模型借鉴得很有创新性，这种格式我们以前在国赛和美赛上都用过，效果不错。但是，大量的难理解的理论以及想显示你们创造性的图片在一般人甚至评委老师看来，模型有点“太过专业”。第二，问你们一个问题，假设让你们只看关键词和摘要部分，你能知道你们的论文对问题的解决思路以及脉络结构吗？（摘要要好好练练）；第三，真正好的建模不在乎你的解决方法有多难，有多复杂，有多专业，而是基于简单的知识给出最创新的解决思路。谢谢，个人感觉你们比我们组的论文好，应该在一等奖左右。

作者: 最后一頁 时间: 2013-5-21 15:22
创新并不实用的例子比比皆是，就像语义数据库，至今进展缓慢，该队一直强调的开放式分类，没有考虑过其可行性和可实施性。引自楼主原文，“所有的模型看似松散” 为何不在论文写作的过程中加以聚合。提出异议是好事，但是抨击他人没有打破传统，语言犀利跋扈，这是执意（愤青）的表现？请问该队所有的公式和方法都是原创的吗。

作者: maandy 时间: 2013-5-22 10:30

建模必胜发表于 2013-5-17 15:41 * C9 |7 F1 b1 J
大致看了一下，下面是个人意见，说错了别见怪。第一，文章长达35页，内容丰富，建立了四个模型，四个模型借 ...

谢谢你的回复~~~我觉得我们论文摘要确实没写好，但是真的有些无力（我感觉把主要的模型方法说一下之后字数就满了）。。。
另外我们也不清楚是否模型过于复杂和“专业化”，因为我们小组看到题目，第一反应就是这么个思路。说到特征提取我们第一个肯定想到MFCC，说到分类肯定想到神经网络和聚类，说到特征降维肯定会想到分形维数和LDA（后者我们没有采用...），说到密度函数估计肯定第一个想到核估计。我觉得思路也还算自然。或许是写作风格的原因吧。不过此次确实时间不够（我们学校坑爹网速，就下载音乐就N久），像摘要什么的都是赶工出来的，连检查也没有。

作者: maandy 时间: 2013-5-22 10:35

最后一頁发表于 2013-5-21 15:22 9 R; M% I( B; ^& T$ [0 i
创新并不实用的例子比比皆是，就像语义数据库，至今进展缓慢，该队一直强调的开放式分类，没有考虑过其可行 ...

可行性我们确实有考虑。不过是否可行还要具体实践验证，3天比赛说明不了什么。我们队对这个课题很感兴趣，现在正在继续做这个推荐系统（第一阶段我们针对推荐系统埋下了个大坑，第二阶段出的题有些偏离预想。私自挖坑的后果！）。另外我感觉我们1楼写的东西，语言不是犀利跋扈吧（我感觉，所谓的“抨击”，实际上只是指出缺点而已啊。或许我们驾驭文字能力欠佳。总之你可能理解错了= =）。

作者: maandy 时间: 2013-5-22 10:42

最后一頁发表于 2013-5-21 19:08 7 \& _* ~4 ]% Z# {+ R r+ `* V s
为了检测1009队论文是如何“勇于打破传统，迈出开放性分类的第一步，并且面向推荐系统，考虑实际应用”（引 ...

Wow!非常感谢！当时我们有考虑送去相似性检验，但是没有网银放弃了.....感谢你还花钱送去检测（或者有其他免费途径？希望一定告诉我们！）。从检测结果上看也只能印证我们的观点。一般相似度超过30%才算抄袭。就算是15%的标准，我们的论文也没有问题。至于别人是抄袭，我没有打倒一大片。大多数论文都是好的，我们也在学习研究中。但是上文我们提到的某队确实是（抄袭），如果你愿意的话，你可以仔细去看看，我们给你他们的模型的出处（事实上，并不是说模型方法不是他们原创的这么简单。因为实验结果也完全一样。还把文献中A模型的结果安在B模型上。）组委会也做出了处理（你可以去看成绩终稿。考虑到参赛者年级较低，不做深入处理。）。我们也赞同组委会的做法。

作者: 最后一頁 时间: 2013-5-22 13:38

maandy 发表于 2013-5-22 10:42
' d k' T# r2 O. S n. q3 M- mWow!非常感谢！当时我们有考虑送去相似性检验，但是没有网银放弃了.....感谢你还花钱送去检测（或者有其他 ...

抄袭的界定有待考虑，在前面你们申请复查的文字中，多有个人感情因素的词语，使用不乏联系他意，还望楼主保持谦虚谨慎的态度

作者: 霹雳大熊猫 时间: 2013-5-22 19:24

最后一頁发表于 2013-5-22 13:38
0 M: t5 |5 x. a& g: D/ S1 ^3 g抄袭的界定有待考虑，在前面你们申请复查的文字中，多有个人感情因素的词语，使用不乏联系他意，还望楼主 ...

谢谢你花钱帮我们做出鉴定哈！我看了结果，发现所有相似的地方都是介于定义标准的制定，这里面是不包含每个队自己独特的算法以及团队的智慧的。大家应该都知道，使用一个方法应该将引用的模型的定义讲清楚，定义要明确，所以每个数学模型都有严格而标准的定义。每个人都必须坚持这个标准。你肯定学过数学书吧，还记得上面的定义（举例）1.1.1吧，这就是有着严格标准的定义。所以，你的截图位置不准哈，可以调调。
另外，只有三天的时间是极难进行深入的研究的。数学建模的题目通常都是社会生活中的重大问题，如果几天就能做好并解决，那科学家我看就都丢了饭碗吧

希望你能仔细研读研读我们的文章，肯定对你有新的收获哈！

欢迎光临数学建模社区-数学中国 (http://www.madio.net/)