◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇   关于周志华论文事件的进一步感想   作者:Kolmogorov   新语丝上关于周志华论文的探讨仍然是余波未平。近来又持续看到网友的热 烈评论,引发了我对这一事件的进一步思考,忍不住又想浮出来抛砖引玉一番。   首先,我想与大家分享我对导致这一事件的一篇关键论文的一点新见解,希 望有助于澄清这其中的一些学术争议。事件的来由各位已经非常清楚了,在网友 “一个知耻的人”的举报后,周教授马上进行了还击,其中心观点是所谓的 “many could be better than all”的思想完全是他的团队的创新,与Perrone & Cooper (以下简称P&C)的著名论文毫无关系。对此,“一个知耻的人”很快 就以一篇非常翔实的分析帖子进行了有力的批驳。这时,关于这个问题的真相就 已经很清楚了,后续还有一些网友做了很好的补充,在此不一一赘述。最近引起 我注意的是周教授在回复举报时举的一个证据,即P&C文的摘要中明确说明该文 方法具有的特性之一是“It efficiently uses all the networks of a population - none of the networks need be discarded”,因此周教授认为 这意味着P&C的贡献就只是“全集成”不可能是周团队文中的“选择性集成”。 应该说,这一论据是很有迷惑性的,当时我就立即下载并检查了P&C的原文,发 现周教授引用的没错,很准确。这颇引起一片顶周的声势。当然,这些在“一个 知耻的人”指出在 P&C文的第6节有明确的"选择性集成"的论断后很快就消散了。 最近网友“拍案而起”又指出实际上P&C文的第4节也已经有“选择性集成”的论 述了。这当然进一步巩固了相关事实。实际上,这还不是最强的。P&C文第2节在 推导BEM的优势时就很明确地提到结论适用的条件,并还特意在第3节Intuitive Illustrations给出一个反例说明某些情况下,“全集成”反而使性能更糟。因 此,坚持说P&C文的意思就是“全集成”当然就很无知了。新语丝上后面的很多 帖子不断地强化着以上的论点。但是,大家好像对P&C文摘要的理解都默认了周 的回复中的说法。对此我则一直有些困惑无法解消。作为一篇在学术内涵与规范 方面远胜于吴和周2000成果(计算机研究与发展)的论文,而且在文中多处明确 论及“全集成”不是所有时候都有效,为什么要在摘要中以这样容易引起误解的 形式来概括其主要贡献呢?因为自己算是一个蛮较真的人吧,所以为了解答这个 疑问,我反反复复对P&C文进行了研究,终于有了一些新发现。在这方面,我想 提出两点说明周教授试图援引P&C文摘要来证明他自己观点的做法也是错误的。 第一,我认为大家可能都对这一摘要的字面意思进行了错误的解读。参看P&C文 的第1,2节,作者很明晰地指出,由于机器学习问题的特点,传统的生成一系列 神经网络并挑选出最优的做法其效率是不高的。因为,每个样本网络不管性能好 坏,都或多或少反映了数据集的某些特征,所以将他们完全抛弃的做法从信息利 用的方面是一种很大的浪费。所以,从这个角度,我以为P&C文的摘要中的相关 论述是要强调集成方法的本质在于充分利用各样本网络在学习过程中所获得的有 关数据集的信息。因此,我将该句中的“uses all the networks of a population”理解为“uses all the information learned by the networks of a population about the entire data set”. 此外,请看原文破折号后的 补充措词“none of the networks need be discarded”,明显是针对传统的多 选一的方法,进一步强化前面的观点。注意他们是说“need not discard anyone”即“不必”,不能与“must combine all”即“必须全集成”等同。第 二,更关键的是对摘要中如何“use”的方法的解读。我认为,P&C文的理论最大 贡献显然不是BEM而是 GEM,后者提供了一个更普遍的框架。不失一般性,我们 实际总是可设相关矩阵是非奇异的。我暂时不考虑机器精度,则很容易理解对较 大规模的相关矩阵,其是奇异的概率接近0. 在此假设下,那么从理论上讲GEM就 基本是一个终极解决方案了。就如网友“神雕侠侣”等所说,傻子也知道你掺一 堆巨烂的子网络在总体里当然不能期望简单平均能获得好的性能。其他还有P&C 文指出的当子网络非常相似(nearly duplicate)时简单平均显然也是一种浪费。 对于这些问题,GEM在理论上都完全地解决了,只要通过调节子网络在平均中的 权系数就可以了。对于那些加入平均反而降低性能的子网络,对应的最优权系数 简单地就为0. 这实际上就相当于“选择性集成”了。当然,GEM在数值实现时会 遇到难以克服的困难,所以P&C文进而在第6节的讨论中提出“最优子集BEM” (即周教授说的选择性集成)或许是一个兼顾性能与可实现性的理想方案。综上 所述,我认为即使从P&C文的摘要也无法对周教授的观点有任何所谓支持。如果 周教授坚持这种理解,则只能意味着他没有真正读懂原文,这当然与他的身份是 不相符的。   另外,回顾这些天的争论,我注意到有些网友举出第三方的引用来为某方辩 护。这颇让人看不清。当然,现在来看,这些引用明显是欠妥的。其原因网友 “神雕侠侣”已经很精辟地指出了,“太多的所谓做学术的人不求甚解了,懒惰 的大众从来都倾向于接受既定观点,有现成的Review鲜有人去读原始文献即使这 文献很重要”。所以,我认为这对于我们来讲是一个很好的教训。不盲从于任何 国内国外权威,不为任何所谓的引用率、影响因子等指标所左右,坚持用自己的 眼睛仔细去看,用自己的大脑独立思考,这应当是我们探求学术真理时所应具有 的基本态度吧!或许也是我们目前所欠缺的。   最后,希望就网友“trapa”的最新帖子中的一些观点与其进行商榷。 “trapa”在文中说到“国内一路读过来的人,即使非常聪明,刻苦,也能写好 的论文,但是在国内的大环境和学风影响下,学术的严谨性,总体上可能还是和 国外受训练的有差距。不管是有意无意,一稿多投呀,没有合适地承认和引用别 人的东西呀等等问题经常出现在一些甚至以做学问严谨著称的青年学者身上。” 对此意见我颇不认同。我想在学术水平上我们可以承认与国外有差距。这并不可 耻,毕竟西方的学术传统比我们悠远的多。但是,在学术道德上也默许可以有相 应的差距就很危险了。学术道德并不是什么新鲜的东西,我们的老祖宗早就说过。 不就是“慎独” 吗?如何养成?靠的是自我的修炼,正所谓“吾日三省吾身”。 说的沉重一点,就是做人的最起码的准则,是每一个正直的人都应当坚守的。这 就好比,老师很早就教育我们不能偷人东西,我不能以所谓我身边十个里有五个 是小偷作为借口来放松这方面的规范。这也使我想起在此事件中曾经有网友说到 周教授把所有算法代码与数据放在网上,并进而对其大加褒奖。对此,我认为周 教授只是尽了他的学术本分。你的算法工作是实验性的,别人如何验证其正确性? 当然有权利向你索要相关资料以重复结果啊!如果这种本分也拿来大事宣扬我想 对周教授的光环来讲不啻于一种侮辱吧!“trapa”的文中最后说“就事论事, 不赞同把这个事无限上纲扯到其他事”。对此我也很不以为然。我认为在整个过 程中,像“一个知耻的人”,“拍案而起”还有“神雕侠侣”等网友都表现出了 很好的学术素质,就事论事,观点独到。并没有因对周教授某些论文的怀疑而对 他的其他成果妄加评论。反过来,就如网友“Huimin Chen”所说,周教授在此 事件上的表现已经很难让人相信他是一个具备基本学术道德与素养的学者了。因 此,对其学术成就或更进一步国内机器学习领域的评价体系表示怀疑倒确实是可 以理解的了。   以上观点敬请同行指正。 (XYS20091109) ◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇