后LLM时代是不是做research更爽一些?
AI全面辅助科研,效率提升但质量与公平性受质疑。
1. 关键信息
- #1/#6/#9:建议全面ban AI review,源头杜绝AI slop(#6、#9)。
- #5/#34/#40:AI需prototype才能产出可用结果,pure AI生成质量差(#5、#34、#40)。
- #13/#14/#21:实验/生物医学成护城河;经费砍减致PhD失业(#13、#14、#21)。
- #18/#27:警惕metadata IO与hpc负载,建议用只读view与缓存(#18、#27)。
- #35:数据隔离与IRB合规风险(#53)。
2. 羊毛/优惠信息
无
3. 最新动态
- #19:用户因vscode/claude在hpc全目录read导致metadata IO满载,被admin警告(#19)。
- #27:推荐轻量缓存/index/sample策略缓解hpc压力(#27)。
4. 争议或不同意见
- #4 vs #5:自动化出文高效 vs 生成内容质量低劣。
- #12 vs #71:有人视AI review为作弊,有人主张全面拥抱AI review。
- #21 vs #50:AI或提升人均产出与工资 vs 审稿难辨AI屎。
5. 行动建议
- 限制AI直接review,强制人工复核;隔离数据访问,启用只读view与缓存。
直接和GPT讨论idea,全自动检索literature。Codex快速test,稍微改改扔cluster上出数据。写出文章梗概的md之后直接扔给agent生成全文。 感觉一个月就能写一篇
是的,审稿也是 AI
造更容易了
感觉写出来的完全是 然后投 AI 会议被 AI review 三 A 会议了
你试过吗,实际上生成的东西都是AI slop不堪入眼 也就写码快一点
这就是peer review的锅了,应该从源头上把AI review给ban掉。大教授拿那么多钱还不工作吗
大规模制造学术垃圾
那我这种工资不如低保的博后review怎么说
直接全部给recommend to publish。
感觉 ai 写的确实 ai review 就够了 猎户葱: 源头上 那得两边都想办法 ban 掉 ai slop 两边用 ai 辅助我觉得都没问题 纯 ai 是真的纯纯大规模造现在
一个月一篇是不是有点看不起AI了: https://mp.weixin.qq.com/s/9A0tv7Z44GXwg4B7rPf37A
说ai不行的,就像开车超速不遵守交通规则,然后怪汽车一样。 你自己不好好修正,review code,完了怪ai效率太高,大可休矣
感觉 AI 时代最不可替代的,还是养老鼠、烧炉子、推式子的
你认真的吗?我天坑PhD,现在研究经费砍的特别厉害,大概率明年毕业就失业
那不行,要先revise,然后再recommend to publish. 这样review次数直接翻倍lol
推式子其实也不行。 【长篇专访数学家恽之玮: 数学研究、年轻人的压力与AI时代!】 https://www.bilibili.com/video/BV1DsXuBrESX/?share_source=copy_web&vd_source=69997067edc97710a47839fcaa4e9af8 就不谈terry tao这种ai忠实粉丝了 我感觉长材料/收实验数据还是得等具身智能,估计还可以苟一段时间。 养耗子的感觉应该短时间看不到希望。ai 全自动解剖,感觉还是太可怕了。
艹 这些真全自动无人流水线了
有一种小学老师不准用计算器做算数的美感。
最近一直在hpc上用vscode+claude做科研,包括做计划,写任务脚本,监控slurm任务进程,写分析脚本,etc。今天早上被hpc的人找了,说我的vscode/claude一直在walk through整个data存储系统,好像主要是rg这个命令?严重拖慢了数据系统的读取速度。跟我说写代码的话开一个小的workspace就行了。。可是做科研又不是只写code,不access数据folder和之前其他阶段的folder,我对着空气做计划和分析吗。。请问泥潭的大佬们有什么好建议吗,在办公室同事们面前被hpc的人教育好尴尬。大概就是我们的home在/mnt/home/[username],然后存储在/mnt/data/[username],我原来直接打开~(/mnt/home/[username])当workspace,我的home里有一个指向data folder的symbolic link。但是我一个臭做科研的实在不懂hpc啊!! 我知道这是我的错。。
开一个worktree,沙盒? 然后做之前先给数据库创建一些比较全面的只读view,然后再prompt和CLAUDE.md里引导agent去读那个只读view,deny他读数据库本身的权限。
Bastet: 你认真的吗?我天坑PhD,现在研究经费砍的特别厉害,大概率明年毕业就失业 跟lz标题不冲突啊 之前需要100个researcher,每人六万工资,现在AI出来了,只需要20个,每人12万工资,五倍文章产出率,那国家省下了一半多的钱,文章数量没变,每个researcher也工资更高了,win win win 至于剩下那80个researcher去哪了你别问,你就说能做research的那20个爽不爽吧
如何大规模制造 现在投稿量有暴增了吗
把它不该access的地方设为不可读吗?没太理解什么叫创建一些比较全面的只读view。因为hpc的人抱怨的就是vscode/claude用grep一直在到处读读读。 我的home里只有一些executable,数据分析脚本什么的全在data里
“最近metadata IO总是满满的,A老师你有什么头绪吗?” 说起来我之前还搞出metadata storm,直接被半夜邮件教育 /uploads/short-url/xZkWFGIaJUZDMHKP7ebuEBgWDjf.png?dl=1
别骂了,人家直接跟我说你搞的metadata IO总是满满的。 我的slurm没遇到过啥问题,不过理论上应该也不会有大问题,因为slurm job都是在compute node的local storage上跑,不会影响别的东西
投稿量不清楚,审稿着实是审到了不少ai屎了..
对用grep的话不但速度会很慢而且会影响hpc的io。 Alexandrina: 数据分析脚本什么的全在data里 大家都是这样的吗 ,那感觉好像也无所谓。 不太会说有请chatgpt帮我组织一下语言 pickle 先在自己 folder 里创建 object,行不行? 行,而且这是很好的思路。 更一般地说,不只是 pickle,你应该主动做一层 轻量缓存 / 索引 / 抽样摘要,放在 home 或 scratch 里的小目录,供分析和 agent 使用,而不是每次都让工具直接扫原始数据树。 比如: 预先生成一个小的 manifest.csv ,记录数据文件名、日期、大小、变量、路径 对大表先抽样出 sample.parquet 对结果目录生成 summary.json 把中间对象序列化成 pickle / feather / parquet 把 Slurm log 先提取关键信息到一个小文本或 csv
我之前直接在代码里写了个sleep占住机器,被skip manager教育了
好奇能怎么ban掉。听说现在检测是否用AI review的准确率也挺低的
Garbage in, garbage out
除非HPC admin配置好了支持vscode tunnel,你用vscode会拉爆filesystem 你对应的hpc manual里应该有写能不能用vscode
我感觉每次把draft送给AI polish,都比我自己写得好很多还能准确表达我想说的
前提是 你得有draft 才可以 AI polish的很好 我写日记也用AI Polish
我同意啊,现阶段AI必须有一定量的prototype才能产出比较像样的东西,直接给outline只能出slop。
我最近试过用AI end2end搞科研。感觉research的大部分步骤,AI都可以做了,而且是一日千里,感觉我当年phd 5年工作,在claude时代,大概就是半年不到的工作量。 AI唯一差的就是不太能构思原创idea,只能到处复制粘贴,所以核心idea尽量不要听AI的,不然很可能最后变抄袭了。另外最后的论文质量,需要手动精修。AI写的文章经常抓不到重点,所以我只能让AI尽量写长,然后再来删减。 一个月写一篇,确实有可能,但值得写作的idea有那么吗?大家现在做实验写文章都快了,那些incremental的idea,就更不值得花时间搞了,等你做完,可能其他人已经发出来了。这种问题以前也有,但在手敲代码,手写文章的时代,可能容错期是按月计时的,现在就是按天了。
不能用vscode的remote ssh吗 我一直用啊,虽然会在hpc自动下载和安装一个server。
确实,在我喂了很多draft之后,我试过让AI自己生成一个新的section,其实质量还可以。我可以直接在这个AI-generated draft上面修改然后再送去polish
在你没拉爆hpc的时候是可以用的,拉爆次数多了就会明令禁止不准用了。这个看hpc admin。。我有access的好几个里面有些是做了支持的,有些字体加大加粗禁止使用vscode
真要我用openssh我还不太会用了,AI时代鬼记得那么多linux command啊
AI现阶段讲原创故事的能力还是差太多了
叫AI帮你写command
可以,但是他们建议只开一个小的project folder当workspace写代码,听他的意思最好是在home directory的subfolder。其实我去年一直直接打开整个home dir当workspace同时有symbolic link到data folder,但是从来没卡过。。感觉是今年大家都开始用CC/Codex什么的,然后还有一小部分像我这样的低质量用户,导致系统开始变卡了。当然我懒是第一要素,但是开一个小folder只用写代码和我用CC帮忙辅助科研(需要理解整个project的过程目的以及未来发展balabala)是两件不同的使用场景。。。尤其是写分析代码的时候,需要claude知道我的文件结构和输出格式,当然楼上谭友建议的方法很好,我让CC帮我再refine一下我来试试
这个问题你问AI其实就能解决,development阶段你不需要全部数据啊。你抽一个subset到project folder就行了。。代码调试好了再push到compute node跑full dataset就行了
归根到底是我太懒了 我喜欢在一个workspace里干到天荒地老,不喜欢换来换去,test完分析脚本之后,等几个小时我的数据跑完,我就可以继续在同一个session里继续让CC帮我进行整个production run的分析了。我整个development都在compute node(我们的workstation是hpc的一部分,算是一个小compute node)。千言万语,都是我的hpc使用习惯太差了
使用Warp
我的体验是复现一些不给代码的工作更容易了,更容易follow同行以及进入原先熟悉概念但是没有上手做过的领域,但是没有现成工具的还是不容易vibe出好使的,需要大量人力参与其中,包括初期的设计和后面的code review与测试
用vscode的集成终端打开claude code cli,不用claude code的vs code插件应该就行
真的吗!这两者在使用grep/ls/find之类的命令上有什么区别吗?
主要是人可以在vscode看大的文件树,同时让claude只在sub folder里面工作,有需要的时候再指示它去看外面的文件夹
你这信息不行啊,今年nih的经费不仅没被砍还历史新高了
sptcutah: 人可以在vscode看大的文件树 是的,感觉这个还挺重要的 CLI苦手不用vscode的GUI偶尔会很烦躁。我去试试,谢谢。 Skwbs: ai染指数据 AI读数据看格式才能写分析脚本嘛。。数据都是跑计算跑出来的 你可不要听风就是雨
你居然让ai染指数据?IRB不来找你就不错了
猎户葱: 感觉一个月就能写一篇 一个月都不一定拿得到数据. 我个人觉得生物医学反而成了后llm时代护城河最好的research领域了,因为有一堆人管着你不能把数据喂给ai
解放了科研里大头的prototype和testing的垃圾时间,垃圾idea让claude code自己测一下,拿到initial result就知道能不能做了。而且代码越来越不值钱,原先大家还会用代码量看来表示自己的工作量,现在指标失灵了。
任何自己拥有数据的领域都更好了其实。以前embargo一年你能写两篇,现在有了LLM做pipeline development可以写四五篇
是的,之后的research重点就是找到能生产数据的地方,霸占住资源
本老本科时候要是有LLM,估计就不会那么痛恨做科研了。
还教授 想太多了 大多数 peer review 都是绿卡不报的博士博后
猎户葱: 全自动检索literature 现在有什么好的 skill / CLI 吗?
还是得deepthink吧,大部分OA不是都有反爬。
肯定啊,现在各方面都在受到AI slop的冲击 app store审核, github pr, 连小说/漫画投稿都是
审稿的很多都是phd 还有本科生
misc: 连小说/漫画投稿都是 这个比chatgpt早多了,大概stable diffusion和novelai的时候就被冲击很严重了吧 现在小画师真的活不下去,AI只要喂的够仔细多细心调一调能抵十年画画苦功
最近网易出事不就是辞退了很多画师,用AI喂
不能这样看 去年一套组合拳 现在各大学都对现金流保守 Hire 看起来也暂时没解冻 更何况整体审核进度重大拖延 很多组年初就审完的课题预估要年中才能有结果
至少现在idea验证速度很快了,想出一个新点子,交给ai睡一觉起来后就能看到结果
对,这种感觉巨爽。以前还得和各种神奇的工程问题斗智斗勇,好奇心的磨没了。
一开始觉得还好 用了一阵子就知道不带脑子做研究 AI只能白烧token garbage in garbage out
猎户葱: 感觉 很准确的感觉呢
我们lab目前情况是这样,我打算申请postdoc的时候了解到的也这样
我的意见相反 不如全面拥抱 ai review 。 peer review 就是屎,经常问非所问
现在都有大学特贡 ai 了 Skwbs: 有一堆人管着你不能把数据喂给ai
哈这也太尴尬了哈哈。。感觉确实要注意啊,AI帮力归帮力,但系统资源这块儿还是得好好管。Rosmontis的只读view方案听起来不错,要不你试试?
我们公司根本不让在任何集群机器上面用claude code,怕的就是你这种情况。。。只能在一个类似docker的container里面用,数据集大的话一般存在cloud storage里面读。