问:课程论文数据造假会被查吗
- 答:您好。可拆枣能会被查的,如果这一些数据一烂御腔看就饥衫是假的,根本不用验证,那肯定不行。如果是真实数据稍微改动一点是可以的。
问:现在的学术论文里存在数据造假的情况吗?
- 答:现在的学术论文里丛虚盯存在数据造假,人类科研领域越来越难取得成果,低垂果实都誉枯已经被前人给摘了。所以想要取得真正的成果需要天量的投入。但是科研部门评渗和判标准却是论文的数量,这套标准让科学家无法不顾一切地投入,在机制中寻找真理。
科学家必须在经费和产出间权衡。而能够微操的空间有那么大,所以造假或者不严谨的处理变得非常普遍。另外,检测造假的成本非常高,前一段时间沸沸扬扬的韩春雨造假事件。其实很多人一直在挺他,但最后事实证明他就是在造假。
但这个鉴别造假的过程,足足让整个世界相关超过十个课题组,用了半年时间才得到结论。其人力物力的成本少说也是千万量级。因此,如果不是重大的成果,学界根本不会花费那么多时间来鉴别数据的真伪。
工业界里搞的探究不是为了发文章,而是为了提高产品性能,所以数据灌水毫无意义。因此,工业界发表的文章可能并不多,也许档次也不见得高,但至少数据和实验大都可信。
总之,学术领域是需要大力改革的,里面的问题非常多。以前我们只是单纯学欧美,现在也需要在这个基础上进行相应的创新了。
问:研究生论文数据造假会被发现吗
- 答:研究生论文数据造假会被发现如下:
造假被查出来的大都是生物,材料之类的领域,然而计算机(特指深度学习)才是重灾区,造假容易复现困难随机性强,别说二流论文,顶会论文都没有参考价值。所以除了廉价劳动力够多的大研究室,其他人论文的数量基本取决于不要脸的程度。这也是我再也不想碰ML领域会议的原因。
比如组合优化的性能曲线,所有人都知道是个指数曲线,你搞个新的剪枝条件,水一点咱不求正确解,毕竟大部分应用下并不需要正确解,切掉1%的解换来50%的速度是很合理的思想。什么性能改进不够大?5次实验最好的跟最坏的比啊,还不行用C+SIMD写的跟Java的比啊,再不行竖搭说实话你随便编个数也没人看得出来,毕竟理论上行得通,行不通那是他程序写的不好。
要说上面想法毕竟真的,顶多偷懒不想做实验,到了ML领域之后那就是明明白白的造假了。数据集精选到位,想法再烂几百个实验里只要能挑出一个能看的,那就是顶会苗子——normalization + adaptive learning rate + manifold constraint审稿人怎么知道哪个项work?
再进一步,古典ML还要你写程序做实验,到了DL里这些全都可以省了,完全可以画图编数据发顶会一步到位。毕竟就是个人肉Architecture Search,随便找个domain画个图,编个比SOTA高一点的精度,一篇论文就诞生了。需要公开数据集和代码?某国际大厂研究院实习生发的顶会论文也带代码,
最近有些研究都开始明目张碧纤乱胆的把validation dataset的distribution当制约条件,甚至直接sample数据进train loop,好家伙演都不演骑头上侮辱人智商呢是不?人家都把造假上升为novel approach了,悔档就别提被发现了,那是伟大的研究懂不懂。