北京协和医院：智能语音识别技术新实践_手机_

冯霄霞

随着中国医院医疗信息化建设的不断完善，电子病历系统、影像归档和通信系统、移动护理系统得到逐渐普及，大部分医生通过计算机等电子设备进行病程记录、手术记录、检查报告等文字的录入工作。有调查显示，超过40%的医生每天在计算机前进行文字录入大约需要4小时，超过一半的医生每天进行文字录入的时间占工作总时间的40%

此外，对于超声科等医技科室，由于医生工作的特殊性，大多通过“一对一”聘请专业录入员的方式提高检查报告录入效率。有些医院为了节约人力，让医生把给病人检查时的语音通过录音设备录制下来，后续通过录入员测听音频文件进行转录，实现一个录入员服务多个医生，以此在一定程度上节约人力，但同时也延长了输出检查报告的时间。在电子文本的录入过程中基于模板填写具体信息工作量还是比较大的。

另外，模板仅能解决一些常规情况的描述，如果完全按照模板填写，对每位患者的情况记录就缺少了个性化描述，不利于后续诊断使用。为提高文本录入效率，有些医生会使用“复制”、“粘贴”方式，通过在相似患者的病历上进行修改完成病历记录，但有漏改、漏删情况，这种方式在很大程度上增加了病历记录的出错率，对医疗文本录入的准确性是一个比较大的挑战。

语音识别技术在医疗领域的应用越来越多

语音识别技术在欧美国家医疗领域已使用将近10年，主要用于节约医生电子文本录入的时间，降低文本录入工作难度，提高医生工作满意度，让医生把更多时间和精力用在与患者及家屬沟通交流、为更多患者诊断等事情上。

美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统，医生可使用掌上移动型设备将病患看诊状况口述下来，存成语音档案，直接传送到语音识别服务器，10小时的语音可在5分钟内完成转录，大大缩短音频文件转录文本的时间。皇家飞利浦电子公司推出的面向医疗领域实时语音识别的专用麦克风，表面采用符合医疗专业要求的防菌抑菌材质，并定制了针对实时语音识别所需的声学硬件模块，使医院工作站实时语音识别实现成功应用，并已在欧美医院成功推广。在放射科等文本录入工作量很大的医技科室尤其受到欢迎。

从统计资料看，美国临床中使用语音识别录入的应用比例已达到10%～20%，主要用于放射科、病理科、急诊室等部门，有效控制电子文本记录及诊断报告生成时间和质量，明显提高工作效率。

语音识别技术是理想的人机交互方式之一，它能够让机器通过识别和理解过程把语音信号转变为相应的文本或命令。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本时，医生纷纷表示担忧，在国内的医疗中语音识别技术的使用和推广面临以下几个难点。

目前国内主流的HIS系统已做了大量工作减少医生输入病历、医嘱时的工作量，如提供大量结构化的病历。医生已习惯这种工作模式。通过语音识别来录入电子文本，尤其在超声科、门诊等环节，医生需要一个熟悉过程。

国内医生的工作环境较复杂，口音等问题也较国外更加突出，医疗特殊单位特殊符号较多，如何保证识别的准确率，让医生用的更加流畅，也是这个项目面临的重要挑战之一。国内移动医疗的趋势越来越明显，基于移动端小屏幕的文本输入一直是语音识别应用致力于解决的问题。如何保障医院复杂环境下移动端的语音识别效果是需要探讨的问题之一。

由于医疗行业的专业性较强，每个学科差异较大，所使用的信息化系统也比较分散，如影像科使用PACS，内科使用HIS等。需要录入文字的工作量较大，但使用的信息化系统较多，要求提供的语音录入文本解决方案，需同时支持多个信息化系统使用，且最大限度降低与原有系统的耦合性。

以上问题，经过为期1年的医疗领域语音识别应用探索和实践，都得到较好解决，超过95%的中文医疗垂直领域语音识别准确率已达到实用水平，中文医疗语音识别技术探索应用方案得到北京协和医院医生认可。

北京协和医院语音识别应用探索和实践

医疗语音识别技术的应用，能将医生口述的语音转成准确度高、完全格式化的初步文件，医生可快速加以核对、编辑，每天可节约1小时左右时间。医生普遍认为语音录入病历可提高文字输入效率，降低工作难度，从总体上提高医院收容处理病人的能力，同时缩短病人的无效等待时间，增加病人满意度。

针对中文医疗语音识别的技术难点，北京协和医院做了很多探索实践工作。

一是定制医疗领域语言模型：针对各科室业务进行梳理，整理了超过30G的医疗文本资料，并对这些资料进行分类、检索等处理。使得定制语音模型覆盖各个科室常用的病症、药品名称、操作步骤等关键信息，使语音识别准确率超过95%的水平。二是定制个性化语言模型：不同科室的医生在录入医嘱时说的话也不同。北京协和医院语音录入系统和用户的账号系统绑定。医生登录HIS时会加载所在科室的语言模型，这样就可以有效降低模型大小，提高识别准确度。同时医生也可根据自己的使用习惯，向系统中添加自己常用的词汇。三是一体化私有建设：实现一套私有化部署的语音云支持多渠道多终端的一体化建设。除支持HIS、PACS等PC端应用，还支持移动查房等pad端应用，真正实现跨平台的多渠道互联互通应用，大大降低医疗信息化建设成本。医疗语音识别系统采用分布式计算，具有高健壮性、高度灵活性、高性价比等特点，主要包括操作系统层、引擎层、资源包和管理工具4个层次。操作系统层提供开发接口，以及开发人员关注的接口定义、功能和使用方法；引擎层提供核心的语音处理功能，作为应用接口的功能实现者；在引擎层之上提供覆盖医疗领域的资源包，为科室提供语音识别优化的功能。同时系统完美地支持传统API调用和手机APP开发，为医院原有信息化系统提供了相关接口和SDK。

北京协和医院医疗语音识别应用效果初现

据了解，医疗语音识别已在北京协和医院病房、医技科室、手术休息区进行了尝试使用。为更好地测试语音识别效果，北京协和医院组织医生进行了语音识别系统测试和主观体验，随机抽样了135例样本进行精确统计。

已上线科室使用医疗语音识别系统的医生表示，该系统的语音识别效果较好，可以有效提高工作效率，降低工作强度，减轻工作量，尤其对长段信息、自由医嘱录入的效果明显。超过50%的大夫认为语音识别技术每天可节约1小时左右时间。超过90%的大夫希望使用语音录入方式，以提高工作效率。

在实践过程中，医生对医疗语音识别技术提出很多期望。首先需要解决的是模板化病历录入与医疗语音识别技术的结合应用。医生普遍认为传统的病历模板化虽然点选方便但不能精准描述患者的个性化病情。部分模板化的电子病历在加以语音录入的方式做辅助，可以很好地解决这个问题，既能提高医护工作者的录入效率，同时文字化的电子病历也方便进行架构化的数据挖掘和患者病情查询。如何更好地把病人诊断形成精准的结构化信息，是科研医生重点关注的问题。

北京协和医院拥有丰富的医疗领域数据资源和从医经验，经过大数据的处理和分析，把非结构化的数据处理后形成宝贵的医疗资源库，可以更好地服务于患者以及年轻大夫。结合系统的自学习和基于医疗领域的语义理解进化成医疗领域的人工智能，未来在轻问诊、自助导医等方式可以有效提高医院的自助服务水平。