◇◇新语丝(www.xys.org)(xys6.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇   韩寒代笔事件的文本分析课题   作者:筋斗云   韩寒代笔事件到目前已经2个多月了,个人觉得虽然找破绽的方法目前找到 很多问题,始终不是直接证据。文本分析如果能有一个肯定的答案,个人觉得算 是比较直接的证据了。   上海复旦的苏杰曾经发了一篇文本分析,不过其偏向性太强,导致整个文章 的逻辑太弱了。也不知道是屁股的原因还是目前博士水平就这样,连最基本的肯 定性结论与否定性结论的边界和对比组都没有。   我还是比较吃惊,目前国内文本分析居然没有一个平台。在这个DIY时代, 我们自己来建设这个平台吧。作为韩寒代笔的文本分析,我个人觉得需要较多的 人力,所以我把这个称为课题,希望网友们能分为几个组,最终完成该课题。   第一部分是资料组   1, 资料组的作用是收集韩寒以及相关人员的全部文章,以及每篇文章 的不同版本。   2, 首先是韩寒的所有文章。(A)   3, 其次是代笔嫌疑最大的韩仁均的所有文章。(B)   4, 再其次是次级嫌疑人路金波、马日拉、赵长天等文章。(C)   第二部分是资料分析组   1, 因为中文与英文不同,词的概念不能简单体现。所以资料分析组主 要是做词分拆的工作。   2, 首先是全文分解为词,并为词做索引。(A)   3, 单词再注释是名词、动词,形容词,副词,人名,地名,专用名词 等(B)   4, 其次是更高阶注释词,最好能注释到词源/大辞典第几义。(C)   5, 多人分解,多人交叉对比,有人主编,类似wiki。   第三部分是IT组。   1, IT组的主要作用,是对文本分析提供IT平台支持,包括数据和文本 对比。   2, 确定资料组和资料分析组的文件存储方式。(txt,xls?) (A)   3, 对资料组和资料分析组的资料进行简单帮助和查错。(B)   4, 建设IT平台,支持上面数据的基本统计结果。(B)   5, 对算法组的插件开发。(B)   第四部分是理论组。   1, 理论组为文本分析提供理论依据。   2, 对目前文本理论的总结和文本分析的适用说明。(A)   3, 文本分析理论的列举。(A)   4, 对国际通行的文本分析理论的翻译和应用。(B)   5, 对文本分析的数学模式建立。(C)   我个人知道的理论至少有   词性比例(某人文字喜欢用形容词的)、   同义词偏向(光/仅,快乐/高兴,不料/没想到等)   高频词类似(特别是形容词,副词等)   低频词类似   用典   词义选择偏向(有的人用词很偏)   标点符号偏好   长句短句偏好。   等等   个人觉得广大网友可以尽量地提出自己的理论,只要能够在IT上实现的,我 们都去测试。   第五部分判断组   1, 就是根据理论组的理论进行肯定性或者否定性判断。   2, 建立肯定性判断和否定性判断的标准。(A)   a) 不同类型小说/同作者的肯定性判断。   b) 同类型小说/不同作者的否定性判断。   3, 对于肯定性/否定性判断不足的,进行偏向性的判断。(B)   a) 对于肯定否定之间的判断是概率或者数字值。   b) 内插的对照组的选取。   4, 上面两组标准如何用在韩寒代笔事件上。(B)   第六部分:抓错组   1, 抓错组就是对第五组的抓错实验。   2, 比如:   a) 同小说的前半段和后半段的肯定性判断。(A)   b) 同作者不同风格的肯定性判定。(至少不能否定)(A)   c) 同人志的不同作者的否定性判断。(B)   d) 有意代笔的肯定/否定性判断。(倪匡代笔金庸,古龙代笔)(B)   3, 其它各种抓错。(C)   我们希望,通过在网友的帮助,能够形成六个小组,每个小组有自己的组长 来执行进度。每个组能完善自己小组的成果,从而六个小组完成一个严肃认真的 课题。   我在任务后面标注的A,B,C。是我对该任务难度的预估,A表示较容易,B 表示有一定难度,C表示难度很高。   文本分析平台的建立,我们还可以放入到《红楼梦》,解决曹雪芹与高鹗的 作者之争啊。   也希望大家能反馈上面课题的可行性。当然欢迎学校进行合作。 (XYS20120322) ◇◇新语丝(www.xys.org)(xys6.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇