|
一次偶遇
上礼拜在食堂,我见到了同事口中,今年他招的一个"怪人"研究生,大家都叫他“技术刘”。我请他吃了饭,小伙子很客气,一口一个钟老师,给我讲了很多现在AI领域,对学者圈子产生的影响。
他给我说起最近发现的一个网站——**深度AI学术**,他说我之前没怎么接触过学术产品,不如先拿这个试试手。他的眼光非常独到,用了十来分钟专门分析了下目前百度学术、谷歌学术这些传统文献检索网站,接下来必须要向这些小作坊学习的地方。他拿电脑给我演示了下怎么用,由于之前实在没接触过这类东西,加上被他演示的效果惊艳到了,我回去之后立马试了下。
AI赋能学术
关于这个网站的功能和实际的使用体验,我先放到后面再说。
最近两年,"AI赋能学术"的概念,在科研圈子里越来越火了,火到让人有点"麻痹"。客观来讲,AI确实把我们的工作彻底大变样,但你要说AI究竟在科研圈子怎么落地,就我的观察而言,**只有少部分人真正把它用明白了**。
所以要说忙,我最近觉得大家以前都在瞎忙,因为有些工作,其实干的非常没门道,学生讨厌我们,我们自己也讨厌自己。现在AI的概念这么火,其实把我们这些工作了很多年的高校教师,弄得比较焦虑。
"技术刘"
在食堂碰到的那个小伙子,他的导师,也就是我的同事,专门做语义学研究领域的。几年前,他们带的研究生经常抱怨,觉得活儿太"脏"。
后来这个绰号叫**"技术刘"**的人被他招来了——哲学和计算机双料人才,语言学是他想拿的第二个硕士学位,他用了不到一个月的时间,彻底改变了组里的氛围。
我同事开玩笑地说:
> "我觉得我们这些老师,真得考虑下这研究还怎么做,他一个人一个礼拜,就把以前,一组人一年的活全干完了。"
把"脏活累活"变成工程问题
语义学字典里有一块工作,看起来技术门槛并不高:从大量语料中抽取词条义项、整理例句、标注语义关系、再做人工校验。难就难在规模——几十万词条,层层交叉,任何一步都极其消耗人力。过去,这基本等同于"研究生体力劳动"。
"技术刘"做的第一件事不是"更快地标注",而是直接**把这整套流程拆成了一条可执行的程序链:
1. 清洗语料
2. 结构化切分
3. 分批调用大模型完成初步义项归纳
4. 用规则和统计方法做一致性约束
5. 最后只把最模糊、最有争议的部分留给人工
他这个"数典忘祖"的行为,一开始被我那个同事冷嘲热讽,但现在的年轻人确实不一样,他直接拿结果把这些教师爷嘴给堵上了。
效果:近乎反直觉
整个系统跑起来之后,效果近乎反直觉——原本需要多人反复对齐、争论、修订的义项划分,机器一次性给出了高度稳定的版本。老师们第一次看到结果的时候,还以为是样本太小,后来才发现,他是**直接把"语义学字典"的脏活累活,转化成了一道工程问题**。
从那以后,组里开会的重点不再是谁多标了多少条,而变成了:
- 这个词的理论假设是否站得住
- 这套语义划分是否真的解释了语言现象
AI没有替他们"做研究",但它把研究里最消耗人的那一部分,彻底清空了。**
---
深度AI学术:选题前的"探索工具"
说回这个"深度AI学术",这个网站和"技术刘"做的那套东西不一样。
- 如果说语言学那个工程,是**特定领域在实际确定选题之后**,要做的细致工作
- 那么"深度AI学术"这个网站,做的是一些**尚未确定选题之前**,要做的"探索工作"
核心亮点:表格化分析
这个网站做了一个很新颖的设计:搜到的论文,能用**表格化的方式,矩阵分析**。
表头可以自定义,也就是说,你想关注多篇文章在某个维度下有什么区别、共同点,那就直接用他们的功能当场制表。
这就有意思了——之前我们是查论文,查论文的目的是为了收集并分析论文。这个网站的产品负责人有点意思,他想方设法把这些步骤合并成一个,而且在操作上下了很多功夫,几乎没有什么上手难度,他们本身就没做教程和引导,**拿过来就会,傻子都会**。
"技术刘"跟我说,他猜,这个网站的作者跟他一样,在读研的时候一定被老师给"虐"过,做了一堆脏活,才会想方设法用程序去实现这种可视化分析的产品。"技术刘"的上一个硕士学位读的是哲学,他一个学计算机的孩子,到了组里,看到大家干活的方式,被惊呆了。觉得在信息化时代,竟然还在用刀耕火种的方法去处理问题。
---
老牌平台的困境
这让我想起他拿"深度AI学术"这个网站去跟老牌论文检索站做对比,发表的一些观点。他说:
> 百度学术、谷歌学术这些老牌系统,本质上**并不是"不知道该怎么做",而是被自己过去的成功路径绑住了**。它们解决的是"我帮你把论文找出来",而不是"我帮你把问题想清楚"。在搜索引擎时代,这是对的;但在大模型时代,这恰恰变成了最大的包袱。
他当时用了一句话总结得特别冷静——
如果一个研究生已经知道要找哪几篇论文,那这个系统对他来说,已经晚了一步。"**
真正值钱的是什么?
真正难、也真正值钱的,是**选题之前那段混沌期**:
- 方向还不清楚
- 问题还没成形
- 只知道一个模糊的兴趣范围
这个阶段,人最需要的不是"更多论文",而是**结构感**——
- 哪些路径已经被走烂了
- 哪些变量经常被同时讨论
- 哪些理论总是成对出现
- 又有哪些研究之间彼此几乎不对话
老牌平台最大的问题
他说,老牌平台最大的问题在于,它们**只允许你"一篇一篇地看"**,却从来没打算让你"多篇一起想"。
所有比较、归纳、矩阵、对照,默认都该发生在用户的大脑里。可问题是,**大脑是最贵、也是最容易被消耗的资源**。
---
深度AI学术做对了什么?
"深度AI学术"在他看来做对了一件事:
> 它没有把"理解论文"这件事神秘化,而是承认——**在选题阶段,大多数理解本来就是粗粒度的**。不需要精读,不需要完全吃透,只需要在一个结构里看清位置关系。
> 谁在回答什么问题,谁绕开了什么变量,谁和谁其实在重复劳动,这些东西,本来就适合被拉成一张表。
---
工具换代了,工作方式呢?
他说到最后,甚至有点感慨:
> 如果谷歌学术接下来还只是比谁索引得全、更新得快,那迟早会变成"学术界的旧黄页"。它必须"做对点什么"——比如承认研究不是从检索开始的,而是从**探索、比较、试错**开始的。
他说完这段话的时候,语气反而很平静。那种感觉就像是:
不是在否定前人,而是在提醒——工具已经换代了,但很多人的工作方式,还停在上一个时代。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-31 08:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社