数据挖掘在医药信息学中的应用探究_新闻_

曾瑞

摘要：随着当前的医疗卫生信息化的不断普及和构建，医疗行业已经积累了大量的有价值的治疗数据。如果可以对这些数据进行针对性的利用以及分析，并对里面蕴含的信息知识以及对应的模式进行探索和了解，在进行新病人的接诊以及治疗的时候我们就有了更大程度上的效果反馈，为当前疾病的治疗者以及管理者提供更加优秀的决策支持。国内对于数据挖掘阶段的对应研究都还处于一种起步的阶段，在医学信息的数据挖掘方面我们国家相对比较落后，发展程度远远不如电信行业或者金融行业对于大数据挖掘技术的支持。因此，数据挖掘技术在我们国家的医疗行业构建当中有着巨大的潜力，是未来智能医疗行业发展的重要分支。本文主要探索了数据挖掘在医药信息学中的应用，希望本文可以抛砖引玉，给同行提供一些理论上的支持。

关键词：数据挖掘；医药信息学；应用探究

中图分类号：R197.324 文献标识码：A 文章编号：1671-2064（2018）01-0190-03

医疗信息系统的发展为当前的医院积累了十分巨大的数据来源。这些数据的规则是如此复杂、数量是如此庞大，以至于医务人员没有办法通过手动处理的方式对这些数据进行分类归纳。这些数据之间的隐藏关系以及对应的潜在知识更是淹没在大量的杂乱无章的数据之下。对于医学行业所蕴含的信息量来说，数据挖掘技术可以对于这些相关的信息进行更深层次的挖掘，探究他们当中的暗藏联系，同时帮助医生从成千上万的病例和会诊数据当中发现最有价值的经验。这些经验可以通过数字进行量化定性，不仅可以帮助医生做出准确地描述，还可以帮助病人得到定量的评价。

1 数据挖掘理论

数据挖掘并不是一个新生的事物。它是在1989年3月的美国底特律第11届人工智能联合会议的专题讨论会上被首先提出来的，距今已有20多年的历史。这是一门交叉的综合性学科，涉及到大量的计算机领域发展学科，比如机器学习学科、模式识别学科、统计学和数学、数据库发展技术以及专家领域等多个大分类。数据挖掘跟这些学科的交叉点就在于这些学科和数据库之间的对应联系，同时数据挖掘也是KDD当中的一个核心环节[1]。

David hand在他的著作《Principe of Data Mining》当中给数据挖掘理论进行了一个严格的定义：数据挖掘技术就是从大量的数据当中（数据本身还可能是不完整的、有干扰噪声的、本身信息模糊的，还有可能具有一定的随机性）提取出隐含在这当中的未知信息。这些信息在被提取出来之前并不为人所知，数据提取者本身也不会预测到会有这样的数据提取结果出现；但是这些信息本身是有用的或者至少是潜在有用的，这些数据转换的知识也是我们所需要进行分析的。这样的一个完整的过程就是数据挖掘的最基本概念。

从上面的概念当中我们可以提出两个关键的词语：隐含、事先未知。这两个关键词就严密的区分开了专家系统和数据挖掘之间的关系。专家系统针对的是已有知识进行深度学习，并把这些知识进行深入浅出地表现出来。但是数据挖掘系统的过程就是一个人机交互的过程。这种交互是一种动态交互，一般呈现出知识的螺旋上升的交替发展趋势，需要进行随时的动态调整和反复磨合，从而在浩瀚如海的数据当中挖掘出高质量的知识[2]。

2 基于医药信息学的数据挖掘理论目前在国内外的发展

相对于其他行业当中数据挖掘理论的广泛应用，医药信息方面的数据挖掘理论无论是国内还是国外都还处于一种较为基础的起步阶段。一些医疗系统相对比较发达的国家，比如美国或者英国正在逐步涉猎这个方向，美国国防部和微软公司联合开发了一套针对医药领域的数据仓库系统并在2006年的時候交付使用。在中国只有一些早期进行数字化的医院才会涉猎这个方向，在我国，医学领域的数据挖掘技术应用几乎是空白。一般说来，在具体应用方面，我国还处于比较原始的阶段，也就是数据挖掘的专家和医学专家进行人工合作，针对某一类特定的疾病，比如乳腺癌、肠癌或者是肺癌等数据进行医药信息的分析挖掘，对于这类重大疾病的主要影响因素进行寻找和分析，并针对相应的因素寻找针对性的治疗方法[3]。

3 数据挖掘在医药信息学中的作用分析

数据挖掘在当前的医药信息学中还处于一个起步阶段，针对的并不是全体的疾病而是某些特定的疑难杂症，或者是特定疾病的影像成片。和这种技术相对应的就是专家系统。但是尽管专家系统已经提出了很多年，这当中的诊断规则还是基于人力的专家临床多年总结构建，也就是说，推理规则和结论已经是提前输入到数据库当中的，因此具有很大的局限性，无法具有更进一步的客观性和普遍性。但是数据挖掘本身则是利用大量的临床资料进行数据关联，并从中挖掘出大量有价值以及普遍性的诊断思路，相对来说客观性更强，因为杜绝了人为干预数据统计结果，因此本身不具有主观性。同时数据挖掘技术本身还具有自主学习的功能，而这些特点都是专家系统并不具备的[4]。

3.1 数据挖掘在医药信息学中的“先锋战”——疾病诊断技术

根据当前病人已知的医药治疗数据技术，分析出当前患有这一类疾病的病人本身的特征构建，从而直接找出当前病人可能患有的疾病类型，或者根据当前病人本身的疾病情况信息进行对应的分类处理，找出病人患病的本质原因，并对症下药，获得这一类疾病本身的最佳治疗处理对策[5]。

整个分析的过程如下：首先，我们选定某一类的疾病作为当前数据挖掘的目标变量进行细致分析，然后再通过包含病人详细资料的数据，比如性别、年龄、以往的病例、当前病症状态等对应变量的数据作为基础辅助。运用决策树的构建把病人进行不同类型的疾病类型划分当中，并根据这些数据进行病人本身的特征归类。当其他病人出现相似的情况的时候，我们就可以根据对应的规则把病人正确分类到正确的医药治疗类别当中。

3.2 数据挖掘在医药信息学中的“常规战”——医药处方分析技术

针对性分析患有特定疾病的病人开出来的处方数据，并且把这些处方数据之间的对应关联关系，正是数据挖掘技术发挥的特长之一。医生利用当前医疗领域的知识来对这些规则的可信程度进行专业的判断，去粗取精，摒弃那些不符合实际情况的规则，保留那些有价值的规则，并把这些规则放入规则库当中让自己，或者其他的医生来治疗对应患有同类疾病的病人[6]。endprint

处方分析在我们国家的医药信息学的主要体现是在中药的配方领域。中医在当前的新方剂研究当中都有大量的临床试验数据需要处理。方剂主要是通过单独的药材组成，在这些实验的结果当中，我们可以找到单独中药材之间的关联性，也就是中医当中的要对。近十年来已经有大量的专家学者通过有统计学和计量的方法来寻找中药配伍规律之间的证据构建，并且这些研究结论都表示出了研究结果自身的客观性以及科学性。同时数据挖掘技术本身还提出了很多数据模型来帮助我们了解其中的搭配规律。但这些研究的功能不同特点就是，数学模型的单独设计还处于一个很不完善的境地，并且和中医药本身的理论衔接有着不同程度的问题。并且因为中医的特点，数据指标因为单一而缺乏分析的系统性[7]。

整个中医方剂当中的药物配伍关系十分复杂层次分明、交叉密切，影响的症候情况也十分复杂。但是数据挖掘技术本身具有解决复杂问题的核心能力，可以从当前的药物组成、方剂效果、核心性状和计量等多个角度对中药方进行充分的分析。比如下面为四君子汤和其他药物之间排列组合的数据挖掘案例：

白术&橘皮炙&甘草&茯苓==>人参（supp=42，conf=89.5%）

白术&茯苓&砂仁==>人参（42，78%）

这两个规则都是四君子汤和药物之间的加减组合，以数据挖掘技术的格式进行了对应的表示[8]。

3.3 数据挖掘在医药信息学中的“阵地战”——关联序列分析技术

通过数据挖掘技术，我们可以根据病人自身的患病历史进行对应的关联序列分析，并进行数据上的时间顺序推理。比如说一个病人得了脑梗塞之后又罹患高血压，在基于医药信息学构建的数据挖掘技术下的关联序列分析就可以标注成脑梗塞==>高血压。在这个病人的病案当中我们可以记录病人患病的详细信息，对这个病人的各种治疗方案和治疗历史以及自身的身体条件进行匹配，并总结出规律。当相似的病人数据放在一起成为一个集合的时候，所得到的结果在治疗患有相同前提条件的病人的时候，医生就可以注意到这些后续的新增病人是否具有前提条件当中相伴生的疾病。再进行正式治疗的时候，医生可以考虑各种疾病之间的相互联系，采用合理的用药方案。这样在数据挖掘技术的帮助之下，医生在对患者进行主要疾病的治疗的同时，还会对潜在的疾病进行关联处理，避免出现“压下水瓢起了盆”，在治疗一种疾病的时候却对另一种潜在疾病起到反效果的负面结果出现，从而对整个方案的治疗效果进行负面干预和影响[9]。

4 医药信息关联下的数据挖掘存在的问题

医药数据是直接作用在人身上的，因此有其主观的特殊性。和其他领域的数据挖掘不同，医药数据在各个方面都有自己的特点。对这些问题进行分析并逐一克服就是我们当前的主要任务[10]。

4.1 系统——医院医药信息系统

计算机信息技术在医院的广泛应用，对医院医药海量信息数据资源的分析和整理，对制定医院科学发展规划和提升医院医疗水平具有十分重要的作用。但是，目前我国医院医药信息系统还存在一些问题，这些问题的存在对数据管理和数据挖掘技术目标的实现形成了极为不利的影响作用。主要是因为数据分散和数字鸿沟的存在，其中数据分散指的是医院应用软件系统相互独立，无法直接交换数据，导致信息数据共享性比较差，对医院医疗水平的提升会形成极为不利的影响作用。而主要是因为数据挖掘对数据进行采集的时候，需要对不同结构的数据进行连接，在数据连接过程中会涉及到数据类型的转换和字符编码的转换，由于数据类型转换不畅，导致数据真实性和可靠性出现问题，对医院医药数据信息的利用也会形成不利的影响作用。

4.2 隐私——医药信息关联下的数据挖掘的命门

医学数据和其他数据不同，是只针对“人”这种个体进行服务的，所以医药信息数据挖掘必然会涉及到患者的具体隐私信息。当这些信息让患者在当前的日常生活当中受到了无法预知的侵扰的时候，就会产生隐私性的信息问题。隐私性和我们常说的安全性以及机密性不是同一类属性。当没有经过授权许可的个人或者是机构通过非法途径获得了这些隐私信息的时候，就对应的产生了相对的机密性问题。因此，医药信息关联下的数据挖掘人员需要在保护患者隐私的前提下进行对应的基础性研究，并且需要负责保障数据本身的安全性和机密性。

4.3 繁杂——医药信息关联下的数据挖掘的拖累

医疗数据的種类十分繁杂。有的医疗数据本身包括影像CT、实验数据，以及病人和医生之间互相交流的文字记录。因此医疗数据从最开始就无法保持同样的格式。CT、MRI、DSA等几十种不同的影像格式以及ECG等信号格式之间也不存在相同的数据形式。至于各种化验报告单或者是医患沟通的文字，更是没有一个定式。医疗数据本身的多样性，就是区别于金融数据或者保险数据等其他数据挖掘的最大不同点。因此。数据挖掘的准确性会受到不同格式之间的数据来源的强烈干扰。我们在进行数据挖掘之前必须要处理好对应的数据形式，选择有效数据格式或进行转换。比如我们可以采用数值数据分箱换位分类等等方式进行处理。

5 结语

数据挖掘作为大数据处理的一个重要分支，在当前已经得到了广泛的运用。尽管主要运用方面都集中在了电信或者是金融保险的方面，但在医药信息领域，数据挖掘还是大有可为的。除了针对病人和医院药房的信息管理，医药信息关联下的数据挖掘技术还在辅助医生诊断和治疗的各个方面充分展示了自己巨大的潜力。因此，数据挖掘技术在我们国家的医药信息行业当中具有十分重要的应用价值。

参考文献

[1]王欣.基于数据挖掘技术的医药信息整合进程研究[J].齐齐哈尔医学院学报，2010，（6）：911-912.

[2]王欣.基于数据挖掘技术的医药信息整合方法研究[J].齐齐哈尔医学院学报，2010，（5）：758-759.

[3]王卫东，屈洋.数据挖掘理念在医院病历随访系统中的应用[J].计算机技术与发展，2010，（7）：199-202.

[4]黄秋燕，金京皓，沈岳龙，郑晖.数据挖掘在医学信息中的应用[J].医学信息：上旬刊，2010，（8）：2503-2506.

[5]于净，李定远，王海燕.数据挖掘在医药信息学中的应用探究[J].中国中医药现代远程教育，2010，（15）：86-87.

[6]王欣.利用数据挖掘技术进行医药信息整合[J].齐齐哈尔医学院学报，2009，（11）：1381-1382.

[7]佘侃侃，张蕾.基于数据挖掘技术的方剂配伍规律研究[J].医学信息，2008，（10）：1744-1746.

[8]沈小庆，盛炳义，方曙，吴妙莲，王珏.数据挖掘技术在医院药学中的应用[J].中华医院管理杂志，2006，（8）：549-551.

[9]朱武生，刘文华，刘新峰.中国急性缺血性脑卒中早期血管内介入诊疗指南[J].中华神经科杂志，2015，（5）：356-361.

[10]邢雁辉，崔蒙，储戟农，等.基于贝叶斯分类算法的治疗中风中药组方研究[J].中西医结合心脑血管病杂志，2015，（4）：471-474.endprint