百度云_云主机机房_代金券

小七 2019年10月25日 21:23 141 0

在斯德哥尔摩（9月13日至15日）举行的全球生物银行周会议正在迅速临近。在sapse和cbmedgmbh（奥地利K1医学生物标志物研究能力中心）的合作项目中，我与两位密切合作的同事进行了交谈。Markus Kreuzthaler博士是CBmed的研究助理，免费网站自助建站，专门从事临床自然语言处理（NLP），Peter Kaiser博士是SAP Health的开发项目经理。两人都将出席会议。

马库斯，你是斯德哥尔摩会议的发言人之一。你将介绍什么？

Markus：我将谈谈CBmed项目"临床护理和生物标志物研究信息的创新利用"（IICCAB），旨在挖掘大规模临床数据集，供主要和次要使用。具体来说，我将重点介绍团队建设中的挑战和解决方案，我们将与SAP和BioBank Graz合作。在这个项目中，临床信息的检索是通过查询与biobank样本数据相关的临床常规数据来精确选择合适的生物样本的基础。面临的挑战是，电子健康记录（EHRs）仅以自由文本的形式包含大多数相关的临床信息。这对于临床医生的通信和文档需求来说已经足够了，但是对于基于机器的信息提取来说是一个挑战。一个健壮的NLP引擎，由反映本地语言的词典提供动力，对于全面的数据集成是必不可少的。最后，使用国际术语标准的语义规范化患者档案可以通过SAP Connected Health平台进行存储和查询，以支持生物标记物研究。

Peter，您在本项目中一直与CBmed密切合作。结果如何？

Peter：将所有类型的生物医学数据汇集在一起，确保生物标志物研究的适当标准化数据，并最终改进临床决策既雄心勃勃又令人兴奋。我们必须解决数据的正确处理和联合，我们必须设计存储库。由于所有的临床文档都是德语，因此必须为该语言设置一个语义层。本项目还涉及患者数据的假名化和去身份化（这是确保数据隐私的强制性要求）。最后，分析必须到位，以便能够挖掘数据。这些只是该系统的一些功能，其基础是SAP Connected Health platform，它使用SAP HANA的实时分析功能。

Markus:考虑到必须分析的数据量，这成为一个大数据挑战。SAP HANA非常适合作为管理这些数据负载的高响应系统的基础。CBmed的战略是推动创新主题，如基于生物标志物的精确医学，优化临床试验执行和招募。为此，实时分析非常重要，因为必须考虑对系统的严格的及时响应要求；例如，如果临床医生收集和检查患者数据，靠谱云服务器，并想知道某些患者是否适合进行临床试验。因此，必须保证快速访问和响应时间，并且必须始终提供结构良好的数据（如前所述，从非结构化来源提取）并易于访问。

为什么您对全球生物银行周会议感兴趣？

马库斯：首先，CBmed和SAP将在两个相邻的展位（#34和#35）展出，因此我期待着与其他代表的对话，并听取他们的经验、期望和他们今天或未来面临的挑战。生物银行是一个大数据主题，生物银行标本保存了大量关于已知但尚未发现的生物标志物的信息。只有使用正确的工具，并按正确的顺序使用，才能揭开这个宝藏的面纱。只有这样，数据才能被访问、语义解释和互操作，最终实现临床和生物样本信息的理想连接。本次活动的与会者可能很想知道CBmed和SAP是如何解决这一挑战的，我们是如何挖掘生物医学信息的，以及他们自己是如何从我们的共同努力中获益的。

彼得：就像马库斯一样，我期待着在现场与尽可能多的人交谈。我很想知道"生物银行家"和这一领域的其他研究人员需要什么样的数据和面临什么样的挑战。另一个方面是队列分析，SAP为此开发了一个专用应用程序（SAP Medical Research Insights），联通物联网，它还使用SAP HANA的实时分析功能。在研究场景中，这已经被证明是非常有用的，例如对于黑色素瘤患者队列的分析，每个患者有数百个参数。在去年的活动中，有几场演讲是针对国内和国际同行的；我想与与会者探讨SAP的技术如何支持这些活动。

阻碍大数据成功挖掘的最大挑战是什么？

Markus：从临床信息系统中释放数据对我们所有人来说都是一个挑战。结构化数据（如实验室结果）的传输带来了一些小问题，但是文本文档的分析需要一个健壮的接口。临床文本由于其紧凑性和术语的特殊性而难以分析。隐私是此类项目的另一个问题。从项目一开始，我们就以假名1的方式将所有数据存储在SAP Connected Health platform中，从而解决了这一问题。我们的活动由数据保护专家持续监控，并考虑国家和国际法规，如EU-GDPR或美国HIPAA"安全港"标准。我们也在评估去识别系统，这种系统可以识别和消除临床文本中像病人姓名这样的敏感段落，这样就可以允许更广泛的研究人员访问临床文档。这意味着，在经过培训的系统的帮助下，取消身份识别是在飞行中完成的。许多功能必须到位：提取转换加载（ETL）工作流（指定哪些数据项嵌入在何处，以及它们必须传输到何处）和NLP即服务（通过机器学习和规则提取信息，以及适用于语言和临床领域的本体论和术语服务）；这些只是必须解决的一些方面。我将在9月14日，15时45分，星期四，在我的演讲"临床常规数据的二次使用，以增强生物库样本数据的表型分析"—会议第6B部分，"生物库和电子健康记录"中披露结果。

本文地址： /cunchu/80000.html