跳到内容
    logo-janssen-white

    将深度学习模型的发展速度提高10倍,为癌症提供精准医疗

    2020年10月6日,强生(Johnson & Johnson)旗下杨森制药(Janssen Pharmaceuticals)的数据科学家Peter Shen介绍了组织病理学中基于计算机视觉的深度学习模型的多gpu机器在面向开发者的NVIDIA GPU技术大会(GTC)上。Domino Data Lab现场数据科学家Katherine Shakman也加入了Peter的团队。这篇文章提供了他们谈话的要点,以及整个会议录音的链接。

    188金宝慱亚洲体育网址杨森数据科学学院

    杨森是跨国医疗保健领导者强生公司的制药部门。该公司利用免疫学、成分化学和生物学领域的计算数据科学研究来开发188金宝慱亚洲体育网址新药、优化临床试验和自动化诊断技术。

    通过与Domino和NVIDIA的合作,Janssen加速了深度学习模型的训练,在某些情况下速度可提高10倍,从而通过整张幻灯片的图像分析,更快、更准确地诊断和表征癌细胞。这是该公司致力于提供精准医疗的关键一步。根据早期的结果,Peter预计一旦在临床环境中部署,一个模型将使可以在临床试验中筛选为阳性的患者数量增加四倍。

    会议总结

    人工智能可以改变医疗保健,为研究人员提供新的见解,以发现新的治疗方法,并为患者提供精准医疗。但这样做需要分析大量数据集的能力。在他的演讲中,Peter深入探讨了Janssen如何使用深度学习来分析活检和手术标本的全切片图像(称为组织病理学图像)的细节。每张图像的大小通常在2g到5g之间,大多数临床试验都会生成数千张这样的图像。彼得说,大型临床试验可以生成多达10万张图像。

    通过训练深度学习模型来区分这些图像中细胞水平上患者之间的差异,研究人员可以更好地识别治疗靶点和临床试验资格可行的患者,或预测患者对给定治疗的潜在反应。

    如果我们能把这个模型应用到诊所,我们就能让我们在临床试验中筛选的合格患者数量增加4倍。

    Peter Shen,数据科学家,杨森制药

    为了支持这项工作,Janssen构建了一个用于深度学习和分布式训练的统一框架,使用Domino数据科学平台为数据科学家提供自助式基础设施访问各种工具、语言、数据集和可扩展计算,包括NVIDIA gpu,这对于在大型数据集上训练深度学习188金宝慱亚洲体育网址模型至关重要。188体育官网app下载在他的讨论中,Peter分享了Domino如何帮助团队更快地开发深度学习模型,在某些情况下速度可以提高10倍。(当然,将这些模型投入生产需要数据科学、IT和商业领袖之间的紧密合作。188金宝慱亚洲体育网址Peter加入了易捷航空和188金宝慱亚洲体育网址PointRight的数据科学领导者,专门在他们的网络研讨会上讨论了这一领域的挑战和最佳实践。”跨越过道。”)

    在具体的统一框架方面,Peter强调了四个好处,包括:

    • 用不同的超参数并行运行多个实验。在过去,彼得说,在单个GPU机器上使用小数据集训练模型可能需要长达9天的时间。对于大型数据集,这变得更具挑战性。在一个案例中,研究人员发现,由于内存限制和充分利用多gpu计算资源的挑战,训练卷积神经网络模型进行图像分类甚至是不可行的。188beat365体育
    • 复制的结果因此,研究人员可以将一组患者的结果转化为其他患者或其他环境。
    • 跟踪每个模型的指标,并将模型存储在一个集中的位置因此,他们可以分析模型是否正确工作,并确定正在使用的确切数据集。
    • 轻松地将模型集成到数据科学工作流中188金宝慱亚洲体育网址(换句话说,使研究可复制和可重用,以便它们可以跨多个业务用例使用)。对于Peter来说,这包括减少只适用于一组实验而不适用于其他实验的特殊代码库的使用,并确保模型是可解释和可解释的。

    我们建立了一个灵活的平台,它允许我们迭代188体育官网app下载不同的模型训练,并且以分布式的方式进行。

    Peter Shen,数据科学家,杨森制药

    彼得还举了三个例子来说明这种方法是如何帮助加速研究的:

    1. 将深度学习模型的训练时间减少10倍。例如,在一个案例中,当研究人员将模型训练扩展到6个gpu而不是1个gpu时,他们几乎实现了线性加速。在另一个例子中,他们通过试验不同的图像格式,将每个epoch的训练时间从两小时减少到两分钟。
    2. 优化模型能够在模型训练和验证中使用更多的图像。
    3. 更好地预测临床试验资格,合格患者增加4倍,基于在一次实验中实现的结果。“如果我们能够将这种模型部署到诊所,我们就能够将临床试验中筛选为阳性的患者数量增加4倍。”有了这些结果,该团队正在推进其概念验证进入下一阶段的开发,其中包括额外的验证和收集额外的数据,以创建一个非常强大和可推广的模型,用于治疗合格性预测,可以跨用例使用。

    关于演讲者

    speaker-peter-shen在Janssen Pharmaceuticals任职期间,Peter Shen通过数据驱动的决策帮助新药物的研究和开发。在加入Janssen之前,Peter是Dana-Farber癌症研究所的研究生研究员,曾担任Aimsio和Billion Health的产品经理,以及BC癌症机构和加拿大公共卫生署的生物信息学合作社。

    speaker-katie-shakmanKatherine Shakman为各行各业的数据科学团队提供授权和支持。188金宝慱亚洲体育网址凯蒂的背景是健康数据科学和神经科学,她相信计算工具将改变我们与世188金宝慱亚洲体育网址界以及彼此互动的方式,特别是在医疗保健和生命科学领域。她正在努力使这种转变造福社会。在她的博士研究中,凯蒂利用神经成像和行为分析来研究昆虫调节注意力和记忆的神经回路之间的相互作用。她运用自己在实验设计、解决问题、项目管理、分析、机器学习、数据可视化和技术交流方面的技能来影响技术的未来。

    了解更多

    观看网络研讨会”组织病理学中基于计算机视觉的深度学习模型的多gpu机器,以了解杨森面临的关键技术挑战以及他们如何解决这些挑战。

    Baidu
    map