本文为在中国汽研举办的“2019第二届新能源汽车测试评价技术国际论坛”上,新能源汽车国家大数据联盟秘书长王震坡先生带来的《基于大数据的新能源汽车故障预测预警方法研究》。
1.新能源汽车大数据发展背景
2014年5月24日,习近平总书记在上海汽车集团考察时强调:“发展新能源汽车是我国从汽车大国迈向汽车强国的必由之路”。新能源汽车先后列入《中国制造 2025》、《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》、《“十三五”国家战略性新兴产业发展规划》。新能源汽车和大数据的融合已成大势所趋,基于大数据的智能新能源汽车将是我国汽车产业转型升级的战略重点方向。
关于大数据,第一要义是数据量大;第二,大数据不是某一方面的数据,而是多维、多来源的融合数据;第三,大数据一定是跟工业、产业相融合,并产生经济价值。因此新能源汽车和大数据的融合是大势所趋,它是我们的工业化和信息化深度融合的一个典范。
那么新能源汽车大数据是如何产生、发展的。除去在我们传统车辆设计开发和销售过程中已有的数据。还有持续增加、动态的运行数据。随着车辆使用,车辆的大数据成倍或成几何级数增长。往前追溯,有原材料、经销商、用户、售后等构成产业链的数据。往后是上层跨界融合的金融数据、停车充电数据、道路运输数据、公共交通数据。
我们再将数据流换成三个阶段,从生产环节、销售环节、使用环节来看,后面这两个环节的数据为我们的车辆的设计优化提供了最基础的依据。为我们的生产环节提出最基础的数据,使车辆品质、车辆设计理念进一步提升。在销售环节,同样可以应用我们生产环节所产生的车辆的技术性能、特征参数,实施精准营销。在车辆使用环节,消费者在使用过程中产生了大量的数据,为企业的精准营销、车辆设计提供数据支撑。消费者同样是受益者,在使用过程中产生相关数据,可以对消费者进行充电引导、精准车辆维护,对定制化的保险服务提供基础依据。所以这是在产业链的三个环节能够产生的价值。
关于数字化的过程,数字化是我们实现四化(电动化、智能化、网联化、共享化)的基础,因为有了前端的数字化、前端的大数据化,才能推动了我们电动化的发展,有了电动化作为基础,才延伸拓展出了我们的智能化、网联化、共享化。
我们以新能源汽车为核心,以大数据为基础,融合人工智能技术,对B端(企业端)设计开发能力的提升,精准营销的业务提升的优势,未来的智能出行方面的收益和益处。对于C端(客户端),带来在选车、购车、养车、换车相应的环节的优势。
同样在数字化的进程中和大数据发展的进程中,我们也面临很多的挑战。
第一个挑战就是大家对大数据的理解。在传统的汽车产业里面,无论是在设计环节、生产环节、销售环节都有相应的设计软件、开发软件、管理软件,但是这些软件本身的代码跟不上我们现在大数据理念的提升过程,也就是这种代码升级的过程和代码编制的过程跟不上我们理念的提升的历程。
第二个挑战,现在的数据除了在车辆使用环节的数字化本身是结构化的数据,还有来自于车辆使用环节的车、路、人相应的非结构化的数据,两头叠加导致数据量又成几何级数的增长,现目前的存储能力和手段不足以支撑我们的大数据爆发式增长的态势。
第三个挑战,我们的理念。想要做到大数据的分析和挖掘,体现它的价值,就要做到跨界融合。但恰恰在这个环节,数据散落在了不同的企业甚至散落在企业不同的部门,而要想把数据融合起来,需要抱着开放的心态实现数据的共享;第二是技术问题,不同数据库之间的数据接口连通,做到与企业的标准相统一是一个技术难题。
2.关于新能源汽车大数据所涉及的关键的技术。
在大数据时代,软件驱动正在重写汽车竞争法则,以我们的传统制造加上互联网基因来重构汽车行业的竞争法则。在技术方面想要获取的数据,需要有各种各样的传感器,传感器的融合是发展的趋势。进行数据采集,涉及到多ECU。在这种基础之上,通过汽车云将车载信息和车外数据进行良好融合,这是现在我们急需要解决的问题。
首先,大数据的关键技术就是平台体系、框架体系。尤其对于新能源汽车大数据平台的构建,在生产企业、出行服务企业、运输企业、政府管理部门都有需求。如果根据各个部门之间的不同需求来构建的话,会造成社会资源的极大浪费,因为大量的需求和技术需求来源是一样的。因此在这方面我们提出了多层次、模块化、柔性构建大数据的构建过程,根据不同部门、不同企业的需求,可以把功能模块进行柔性化的组合,来构建满足使用需求的大数据平台。
第二,关于数据传输,现阶段可能是几十万辆,按照新能源汽车技术路线图里面提到2030年一年产生的新能源汽车也是几百万辆、上千万辆的规模。在这种情况下基于异步非阻塞设计理念,所设计的高并发技术是新能源汽车大数据平台核心的技术。
第三,关于信息传输通讯安全,首先要构建数据传输之间的加密算法,在加密算法基础上我们正在开发汽车数据传输的加密芯片。通过加密芯片能够防数据的篡改,来保证信息传输的安全,无论是从车向平台的数据的上传,还是指令从云端向下发送,我们都需要在这方面来做相应的工作。
第四,关于大数据的压缩和快速检索,结构化数据和非结构化数据的融合带来了数据的急速增长,这样大量的数据如何进行存储,并且在我们云端存储方面来说,是否全生命周期存储,如何界定热备、温备冷备时间。我们需要快速抽取这些数据、检索数据的时候,如何把温备的数据和冷备的数据及时调取,这些都需要有一系列的技术支撑。
第五,关于高效云和边缘计算服务,在数据计算方面,如何把云端数据和边缘计算数据以及车端数据相结合,这是我们需要解决的问题。当前的基本做法和基本构想是把基于阈值判断的、基于逻辑关系的相应数据放在车端,而基于历史数据的、基于历史比较数据的和车型横向比较数据的运算放在云端,这样把云端的计算和边缘计算结合起来。
第六,关于数据真实性和有效性检测,在数据里面最害怕出现假数据,假数据并不一定是有意的造假数据,而是在数据传输过程中可能出现数据失真等情况。基于它的合理性和合法性,对多维数据之间的逻辑关系进行相应的判断,通过它的规律性进行数据的有效性和真实性的判断,这方面的技术既有大数据的技术,也有车辆本身的技术,因为要基于车辆数据之间的基础的逻辑关系进行相应的判断。
第七,关于数据可视化技术。这些数据如何与用户、管理者进行良好的技术交互,让他能够看得懂、看得明白,就涉及到数据的可视化,这方面不多讲。
3.关于新能源汽车大数据平台
受工信部的委托,在北京理工大学电动车辆国家工程实验室,构建和建设了全国新能源汽车大数据的分析平台和存储平台,这个平台构建了从企业到地方到国家的平台技术体系,实现了国内生产和销售的所有新能源汽车的数据汇集。同时实现车辆数据、车辆故障数据到国家平台的汇集。
到目前为止,平台上已经接入的新能源车辆有大约260万辆,累积运营里程超过600亿公里,日上线率超过60%,实时在线率在20%-30%之间,按照国标实时信息采集项(GB/T 32960-2016)的标准,平台里面存储的包含70项数据。以这个平台为基础,建立动力电池溯源管理平台,到目前为止已经接入了213家车企共273万辆车的动力电池数据,包括400多万个电池包(因为有的商务车不止一个电池包)。确保旧电池来源可查、去向可追。
下面我把我们做的一些具体工作跟大家做汇报。
首先第一个是我们大家都会关注到的,当车辆发生故障时,电压、温度、绝缘值肯定会发生变化,甚至发展成超出了它的基础的合理阈值的变化,这是一种值的变化,这是最基础的故障判断的依据。在这种基础之上,我们还要看从时间维度、单体一致性维度和短时瞬变性维度进行系统故障的诊断。
关于时间维度可以利用波动性检测模型以及熵值诊断模型。对于单体一致性维度,我们进行车辆的阈值表以及单体阈值统计分析的结果来进行判断。关于衡量短时瞬变,按照进行压力的一致性进行判断。
下一个模型是基于统计学的异常单体电池故障模型,选取不同的电池应用时间片段,进行相应的异常比较,比较单体异常率,哪块电池异常最多,将它的时间维度进行整合,我们就得到了一个曲线,看某块电池它的异常的可能性是最高的,是我们重点关注的一个点。超过限值以后,进行相应的故障预警工作。
4.安全监管应用
下面我介绍一下基于这些模型、基于我们已经做了相应的工作,在做新能源汽车安全监管的一些相关的应用。现在基于我们的平台,已接入260万辆车的数据,建立7×24小时实时监控和全流程监管的管理体系。通过这种管理发现了不少的问题,在发现问题后,我们分一二三级的故障以及预警通过企业信的形式推送给相关企业,来提供预警信息。
我们现在已经形成了事前预警、事中提示、事后调查的管理体系。
下面是统计性的数据,我们统计了国内今年以来发生的相应的新能源汽车的安全事故。我们做了相应的比较,我国新能源汽车燃烧的事故率万台车辆是3.16,但是我们的新能源汽车现在只有0.918/万台。这个数据是截止到今年的6月份,公安部交管局的一个公布的数据,我们得到相关的数据,新能源汽车并不像大家所想象的那么危险,着火燃烧的事故率是低于传统车辆的。
回到我们的平台,已经接入我们平台的车辆里面,我们的平台接入的数据是2017年1月1号的数据,因此全国现在有大约250万辆的新能源汽车,我们平台里面只有260余万辆,2017年1月1号以前生产的车辆没有接入我们的平台,恰恰是那部分车辆出的事故相对来说比例比较高。因此,接入到我们这个平台的车辆我们实现了在车辆真的出事之前提示过预警信息的将近有60%,是这样一个数据。所以新能源汽车事故是可发现、可预判、可处理的。
从事故的跟踪处理的流程来说,我们建立了这么一套事前发现事故、事后分析事故和事故上报的事故跟踪处理的流程,这是工作层面的不做详细介绍。
在我们工作过程中还会发现有一些微博、微信平台的事故,但是我们不能确信这个事故是哪个车企的,或者车企也没有准确获知这些信息。但是我们建立了一套基于车辆GPS位置系统,如果在微信、微博发这些数据,进行地图检索,锁定区域,把这些车辆数据进行快速检索,在10分钟之内可以发现可疑车辆,哪些车辆在这个区域曾经使用过和应用过它出现危险信息,把可疑车辆数据快速检索出来。
作为一个典型的案例,我们可以在这里面看到我们当时做的车辆事故的分析。通过我们的极差分析,我们发现了它的2号、3号单体的极差很高。这是在事前的预警阶段。在事故之后的分析阶段,我们通过它的异常单体的占比,就是第三个基于统计规律的分析,我们仍然找到了它出事故的单体是哪个,然后跟所调的结果进行比较,它跟所调的结果是一致的。
这是一个物流车事故,也是一样的,我们前面讲的第一个模型基于熵值变化的,在事故之前的十个小时给它提供过风险预警的信息,事故之后我们也调取数据进行相应的分析,同样发现跟所调的结果可以达到一致的。因此,回到前面的一句话,新能源汽车的事故看起来非常之可怕,但是它是可发现、可预判、可控制的。
我们也将我们的开发的结果和开发的模型去对全社会进行开放,对我们企业进行开放,力求提高我们全社会、全行业的新能源汽车的安全水平,来让我们的新能源汽车事业健康发展。