AI药物发现研究员:机器学习与实验台相遇之处
为什么这个领域重要
一款新药走到上市,通常要花十年以上,耗资数十亿。其中大部分都消耗在最早的一步——找到一个值得推进的分子。数百万个候选里,能进入临床的寥寥无几,而这少数大多还是以失败收场。机器学习正在改写这道算术题。2020年,DeepMind的AlphaFold攻克了悬置五十年的蛋白质折叠难题,仅凭氨基酸序列就能在几分钟内预测出三维结构,“先有结构才能设计药物"这个瓶颈本身就此消失。
资本随即涌入。字母表旗下的Isomorphic Labs以AlphaFold 3为基础,与礼来、诺华签下约30亿美元的合作,并正在准备首批AI设计药物的临床试验。领英联合创始人里德·霍夫曼与肿瘤学家悉达多·穆克吉于2025年创立Manas AI,凭2460万美元种子轮,从乳腺癌、前列腺癌和淋巴瘤切入。Recursion、Xaira、Eikon、Generate Biomedicines——一批把机器学习和生物学放进同一支团队的公司接连出现。中国这边,晶泰科技(XtalPi)、英矽智能(Insilico Medicine)等企业也在同一条赛道上加速。
它们要的都是同一种人:能从实验和数据两头判断模型吐出的分子是否真在细胞里有效、有没有毒性、能不能合成的研究员。既不是纯粹的机器学习研究者,也不是纯粹的药物化学家,而是一个能讲两种语言的人。
所需技能
这份工作的核心是双语能力。你能搭出深度学习模型,同时又能读懂它的输出在生物学上是否说得通。只擅长一头,就只是半个研究员。
- 分子与蛋白质表示及化学信息学。 用SMILES或图来表示分子,用RDKit处理,预测ADMET(吸收、分布、代谢、排泄、毒性)。定量判断"这个分子能不能合成、有没有成药性"是基本功。
- 结构生物学与分子对接。 理解蛋白质与配体的结合,把AlphaFold一脉的结构预测和分子对接用到真实靶点上。你得能验证预测出的结合姿态在物理上是否合理。
- 生成模型。 驾驭能从头生成分子的扩散与生成模型,以及蛋白质设计模型。以目标性质为条件去搜索候选空间,正是这个领域的最前沿。
- 杂乱的实验数据。 生物数据小、偏、噪声大。每次试验的测定条件都不同,阴性数据几乎从不公开。懂得这些局限并加以应对,往往比模型架构更重要。
- 熟悉湿实验闭环。 要知道设计-合成-测试-分析(DMTA)循环在真实实验室里怎么转。和实验台前的科学家讲同一种语言,一起决定下一个实验跑什么。
职业路径
入行有两条路。生物或化学博士补上机器学习再转过来,或者从计算机、机器学习一侧出发,扎进生物学。无论哪条,目标都是成为"翻译者”——能在模型的语言和实验台的语言之间双向搬运的人。招聘时最硬的一张牌,是真的在一个项目里把这两头接通过。
需求毫不含糊。从全球大药企(礼来、诺华、武田)到AI生物创业公司,都在大力招聘化学信息学、结构生物学、AI智能体和ADMET建模的人才。在美国,生成式AI制药岗位平均年薪约11万美元,博士级资深者远高于此。中国这边,传统药企与晶泰科技、英矽智能这类AI制药公司从两端开出席位。但要注意,多数真正的研究岗位仍然要求博士学位——这与其说是一次快速转行,不如说是一次赛道的重新设计。
最快的自证方式,是用公开数据亲手跑通一整轮。在ChEMBL或Tox21这样的数据集上搭一个预测分子毒性或活性的模型,用RDKit处理分子,再给一个公开蛋白质结构接上对接。完整跑通这一小轮的经历,在面试里胜过简历上任何一个关键词。