挖掘遗传密码的信息新学科生物信息学应

随着人工智能进入了“大模型时代”，我们能否将它利用于生物医学领域？目前，除了科学家把电子病历和影像学的组学数据输入大模型，还有人用大模型驱动手术机器人，在未来可能代替外科医生进行手术…出品：格致论道讲坛以下内容为中国科学院院士陈润生演讲实录：大家好，我是陈润生。大家最近非常关心人工智能，我今天想就生物学研究与人工智能的关系做点介绍。我参加过破译人的遗传密码的工作，也参与了水稻遗传密码的破译。正因为这些遗传密码的破译，人类社会第一次能够知道我们一代传一代、从小长到大的信息存在哪儿，它到底是什么样子的，怎么破解。这个发展过程实际上只有几十年的历史。从我参加了人类基因组计划，分析遗传密码的生物信息，到现在已经30多年了，有一些体会跟大家进行交流。人是由很多细胞组成的，原则上来讲，遗传密码存在于每个细胞里。换句话说，人有多少亿个细胞，但这数不清的细胞里都有一份遗传密码。大家经常说克隆，为什么一个细胞就能长出一个个体，克隆牛、克隆羊，就是因为每一个细胞里都有遗传密码。只要条件合适，都能够恢复一个完整的个体。遗传密码实际上是一条链，没有分叉，这个链上只有4个符号，只不过它非常非常长。这是一段真实的人的遗传密码。我有，在座的每个人都有。如果你没出生时把这段切掉的话，这辈子永远活不了。这段遗传密码里有决定人体功能的一些蛋白的信息。人类的遗传密码非常长，3乘10的九次方，就是30亿，而且是只有4个符号反复出现的一个东西。年开始，全世界推行了人类基因组计划，实际上是集中全世界科学家的智慧和能力来破译人的遗传密码。遗传密码测出来后，怎么读懂它？这是一个问题。读懂它就要挖掘遗传密码当中的信息，也就是要把用文字符号表示的信息变成了解生命功能的钥匙。这样一个过程我们叫做“生物信息学”，实际上是为破解遗传密码而产生的一门学科。如何挖掘生物医学大数据中的信息这门学科就是要把遗传密码搞清楚、读懂了，然后我们就知道人哪点好、哪点有缺陷，或者一个人为什么得病、为什么得肿瘤、肿瘤哪一点突变了等等一系列问题。这个数据我们称作“组学数据”，人的遗传密码称作基因组。▲生物医学大数据我们也可以测人其他方面的大数据，包括转录组、蛋白组等等，同时这也带动了生物医学相关的很多数据都成为了大数据。比方电子病历，医院看病大夫都要记病历，现在有了大数据的概念，我们可以把成千上万人的电子病历集中在一起，看看有没有规律性的东西。再比方说，我们可以穿一个特殊的背心，戴一个特殊的手表来记录心跳、血压、血氧等生理指标。医院做超声、做核磁，还有跟我们肠道里寄生的微生物，空气、水、土壤当中的污染物等这些跟健康有关的东西都可以变成大数据。现在我们已经有了各种各样的数据。如何把这些数据放在一起进行好的挖掘，真正对一个人的健康状况做出准确的判断，这是现在大数据时代一个非常关键、需要迫切解决的问题。我们测的数据越来越多，连遗传密码都可以测了，那我们怎么挖掘其中的信息呢？大家知道，这些数据非常不一样。比方说电子病历是大夫用文字写的，用自然语言记录。血压、脉搏是一些波形，照的片子是个影像，测的遗传密码是字符串。怎么把这些东西加在一块儿，是一个非常非常大的难题。如果用数学、物理的语言看这个数据，太复杂了，以至于我们很难像数学家、物理学家那样写公式把它表述出来。那怎么办？▲黑箱理论人们考虑了这些数据，分析出其实我们面对着一个暗箱。我们测了好多数据，知道这个人可能有哪些不舒服，但原因是什么呢？这个原因好比暗箱，我们要破解这个暗箱。而这样一套工作或研究方式，实际上和人工智能中一个非常重要的基本模式叫深度学习是一样的。所以人工智能也是我们处理生物医学大数据一个非常合理、可资利用的很好的工具。大家关心人工智能在各个领域使用，都知道人工智能可以下棋，下得比九段围棋手都好。它还可以做很多其他事，比方说在生物领域里帮助我们预测生物大分子的结构，预测的跟实验做出来的差不多，还可以帮助我们看片子。但是，会下棋的人工智能不会看片子，不会预测生物大分子的结构。我们现在的要求是什么？它不止能下棋，同时能够帮助我们预测生物大分子结构，帮助我们去看病理的片子。能不能有这样的东西？这就是人们追求的目标。希望人工智能能够完成多种多样的任务，一下子把很多事都集中到一起，统一来分析。大模型给生物医学带来的影响最近大家知道一个非常非常热的话题，就是人工智能进入了大模型时代。也就是说，最近整个人工智能的发展已经从单独做一件事变到可以同时把很多事情放在一起，这样一个人工智能的新发展我们叫做搭建了人工智能“大模型”。什么叫大模型？大模型就是把宽泛的数据、不同数据综合在一起分析。下面我跟大家简单来讨论一下大模型的进展以及它对整个生物医学发展的一些影响。这是一个神经网络的模型，是我自己大约在将近40年前的工作成果。实际上不管是现在的人工智能还是大模型，基本原理都是模仿人脑。人脑不外乎有很多神经元，很多神经元之间连起来构成一个神经回路，然后做很多事。现在只不过把这个局面做大，把事情做复杂，基本原理还是这样的。现在的大模型可以把所有事都一起做，而且把它们之间的相互影响也包括在内。这样一种方式、一种技能在人工智能中是非常突破性的进展，因此引起广泛的注意。我想在座各位都试过用大模型来替你写段文字、画个画，很多人都做过。实际上，大模型的理论基础应当说在几十年前就已经确定了，基本上依赖于两个方面的理论。一个是我刚才讲的所谓的神经网络模型，基本上是由杰弗里·辛顿（GeoffreyHinton）带领的团队在上世纪80年代最初实现的。另一个是概率统计的抽样方式，是另外一位专家贾里尼克（FredJelinek）的团队发现的。这个基本原理应当说早就实现了。▲大模型的技术路线主要包含Bert、GPT和混合数据来源：北京AIGC论坛整理，国泰君安证券研究现在让大模型本事变大的一个最大的难点，就是让计算机能够正确地理解、学到、学好语言，也就是大语言模型（LLM）。让计算机识别语言很困难，因为每一个词汇都不是单一性的，语言非常丰富，每一个词可能有多意而且有上下文关系，所以能够把语言变成计算机可识别的一种符号，这是大模型成功的关键。现在的大模型哪个地方进展了？主要是语言，自然语言，比方所有论文、各种书籍、医学病历现在都可以用这种方式用计算机读懂，使得人工智能模型的能力大大升级。它主要就是解决了语言的问题。▲GPT模型对基础模型架构的更改较小资料来源：《ImprovingLanguageUnderstandingbyGenerativePre-Training》论文，国泰君安证券研究当然这里面还有很多细节问题。比方它还要不断地调节、迭代，让它学得一次比一次好，最后才能形成一个人们适用的系统。我这列举了最近大模型出现以后中国跟美国之间的比较，也列了中国一些主要的大模型参与单位，比方百度、腾讯、阿里、华为制造了很多很多大模型。大家知道百度的大模型叫“文心一言”，腾讯的大模型叫“混元”，阿里的大模型叫“通义千问”等等。总而言之，每一个大模型由于规模很大，都起了一个专门的名字。大致看起来中国整个模型的规模和学习的参数应当说是跟美国可比拟的，但是最后的实际效能可能还有待提高。▲大模型的投入成本数据来源：财经十一人，东吴证券研究所但我要说的是，大模型实际上是大量消耗能源的，要做一个好的大模型至少要准备几十亿人民币，没有这个的话，是训练（training）不好一个大模型的。我们知道，前不久一出现大语言大模型以后，马上就转到生物医学领域了，因为大家知道生命医学是跟每个人休戚相关的。比方说微软做ChatGPT的同时，实际上它还做了BioGPT，把这个大模型直接用到生物医学去。谷歌也造了一个用于生物医学的大模型，可以看到整个做大模型的行业对于生物医学的重视。这些大模型水平怎么样？我举个例子。比方说我们知道美国职业医生的执照考试及格分数是60分，这两个人工智能大模型能考多少分呢？80分以上。也就是说，如果执业医生60分及格，它一考就80分。我想像我这个白丁要考执照，用这个软件保证能够妥妥过关。所以说明现在人工智能实际上在某些生物医学基础领域，它已经学的非常成功。我们国内也开始启动了用于生物医学的大模型。我自己觉得最受

转载请注明：http://www.abuoumao.com/hykh/6343.html

上一篇文章：人民币用英文怎么表达

下一篇文章：有一句名言得趋势者得人民币抓住趋势