去年冬天,随着流感季节的到来,全球各地的医疗机构都在加班加点地工作。美国疾病控制与预防中心(CDC)公布的数据现实,近几个月来,已有超过18万美国人住院,另有1万人死亡,而新型冠状病毒(现已正式命名为COVID-19)也以惊人的速度在全球蔓延。
对全球范围内流感疫情爆发的担忧,甚至促使2020年移动世界大会(MWC 2020)这样的盛会,在距离开幕仅剩7天时间宣布取消。但在不久的将来,人工智能(AI)增强的药物开发过程可以帮助以足够快的速度生产疫苗,并找到治疗方法,在致命病毒变异成全球性疫情之前阻止它们的传播。
传统的药物和疫苗开发方法效率极低。研究人员可以花费近十年的时间,通过密集的试验和纠错技术,对每个候选分子进行详细审查。塔夫茨药物开发研究中心2019年的一项研究现实,开发一种药物的平均成本为26亿美元,这是2003年成本的两倍多。而且,只有大约12%进入临床开发阶段的药物获得了FDA批准。
美国佐治亚大学药学和生物医学科学助理教授伊娃-玛丽亚·斯特拉克博士(Eva-Maria Strauch)指出:“你绕不过FDA,后者真的需要5到10年的时间才能批准某种药物。”然而,在机器学习系统的帮助下,生物医学研究人员基本上可以颠覆试错方法。研究人员可以使用AI来对大量候选化合物数据库进行排序,并推荐最有可能有效的治疗方法,而不是手动尝试每种潜在的治疗方法。
华盛顿大学计算生物学家S·约书亚·斯瓦米达斯(S.Joshua Swamidass)在2019年接受采访时称:“药物开发团队真正面临的许多问题,不再是人们认为他们只需在脑海中整理数据就能处理的那种问题,而是必须有某种系统方式来处理大量数据、回答问题并洞察如何做事。”
例如,口服抗真菌药物terbinafine于1996年上市,名称为拉米非,被用于治疗鹅口疮。然而,在三年内,有多人报告了服用该药物的不良反应。到2008年,已有3人死于肝中毒,另有70人患病。医生发现terbinafine的一种代谢物(TBF-A)是造成肝脏损伤的原因,但当时无法弄清楚它是如何在体内产生的。
这种代谢途径十年来始终是医学界的一个谜,直到2018年,华盛顿大学研究生Na Le Dang训练了一台关于代谢途径的AI,并让机器找出了肝脏将terbinafine分解为TBF-A的潜在途径。事实证明,创建有毒代谢物是个两步过程,而且这是个很难通过实验识别的过程,但用AI强大的模式识别能力却非常简单。
事实上,在过去的50年里,已经有450多种药物被从市场上撤下,其中许多药物像拉米菲尔一样导致肝中毒。这促使FDA推出Tox21.gov网站,这是个关于分子及其对各种重要人类蛋白质相对毒性的在线数据库。通过在这个数据集上训练AI,研究人员希望更快地确定潜在的治疗是否会导致严重的副作用。
美国先进翻译科学中心的首席信息官山姆·迈克尔(Sam Michael)帮助创建了这个数据库,他解释称:“我们过去遇到过一个挑战,本质上是,‘你能提前预测这些化合物的毒性吗?’这与我们对药物进行小分子筛查的做法正好相反。我们不想找到匹配的药物,我们只是想说‘嘿,这种(化合物)有可能是有毒的。’”
当AI不忙于解开十年来的医学谜团时,他们正在帮助设计一种更好的流感疫苗。2019年,澳大利亚弗林德斯大学的研究人员使用AI为开发一种普通流感疫苗提供增强效应,这样当人体接触到它时,就会产生更高浓度的抗体。从技术上讲,研究人员并没有“使用”AI,而是启动它,让它自己寻找用例路径,因为它完全是自己在设计疫苗。
该团队由弗林德斯大学医学教授尼古拉·彼得罗夫斯基(Nikolai Petrovsky)领导,首先建立了AI Sam(配体搜索算法)。AI Sam接受的训练是区分那些对流感有效和无效的分子。然后,研究小组训练了第二个程序,以生成数万亿个潜在的化合物结构,并将这些结构反馈给AI Sam,后者开始决定它们是否有效。
然后,研究小组挑选出排名靠前的候选化合物结构,并对他们进行了物理合成。随后的动物试验证实,增强后的疫苗比未改进的前身更有效。最初的人体试验于今年年初在美国开始,预计将持续12个月。如果审批过程顺利,增强版疫苗可能在几年内公开上市。对于只需要两年(而不是正常的5-10年)就研发出来疫苗来说,这绝非坏事。
虽然机器学习系统可以比生物研究人员更快地筛选巨大的数据集,并通过更脆弱的联系做出准确的知情估计,但在可预见的未来,人类仍将留在药物开发循环中。毕竟,人类需要生成、整理、索引、组织和标记所有的训练数据,并教授AI他们应该寻找的东西。
即使机器学习系统变得更有能力,当使用有缺陷或有偏见的数据时,它们仍然很容易产生次优结果,就像其他所有AI一样。Unlearn.AI创始人兼首席执行官查尔斯·费舍尔博士(Dr.Charles Fisher)在去年11月写道:“医学上使用的许多数据集大多来自白人、北美和欧洲人群。如果研究人员在机器学习中只是用这样的数据集,并发现某个生物标记物来预测对治疗的反应,就不能保证该生物标记物在更多样化的人群中发挥作用。”为了对抗数据偏见带来的扭曲效应,费舍尔主张使用“更大的数据集、更复杂的软件和更强大的计算机”。
另一个重要组成部分将是干净的数据,正如Kebotix首席执行官吉尔·贝克尔博士(Jill Becker)解释的那样。Kebotix是2018年成立的初创公司,它将AI与机器人技术结合起来,设计和开发奇异的材料和化学品。
贝克尔博士解释说:“我们有三个数据来源,并有能力生成我们自己的数据。我们也有自己的合成实验室来生成数据,然后使用外部数据。”这些外部数据可以来自开放期刊或订阅期刊,也可以来自专利和公司的研究伙伴。但贝克尔指出,无论来源如何,“我们都花了很多时间清理它。”
美国先进翻译科学中心的首席信息官山姆·迈克尔(Sam Michael)也称:“确保数据具有与这些模型相关联的适当元数据是绝对关键的。而且这不是随随便便就能发生的,你必须付出真正的努力。这很难,因为这个过程既昂贵又耗时。”
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。