2018中国人工智能产业年会主旨演讲——
孙建宏:《城市数据湖,激发数据智能的实践之路》
2018年12月26日    来源:中国人工智能学会

  北京易华录信息技术股份有限公司副总裁兼技术总监孙建宏在2018中国人工智能产业年会作了题为《城市数据湖,激发数据智能的实践之路》的主旨演讲,孙建宏表示:易华录城市数据湖,通过“一湖多点”的方式,构筑多层次数据对接汇聚、分拣融合、价值挖掘和深度应用的节点网络,以“优质丰富数据资源+强大计算环境一体化的技术环境”和“共建数据价值挖掘及优秀应用生态的开放模式”,为行业/城市创新升级提供DT基础设施。

2018年12月9日,孙建宏副总裁在2018中国人工智能产业年会作了题为《城市数据湖,激发数据智能的实践之路》的主旨演讲。

  以下为孙建宏演讲内容实录

  孙建宏:各位领导,各位专家,各位嘉宾,下午好!感谢学会给我们机会,在此分享易华录在智慧城市DT基础设施构建过程中,基于城市数据湖,在公安、交通等领域AI应用的方案和实践。我的汇报分三个部分:一是从应用实践的角度,简要分析各领域对AI赋能的期盼和应用实践中面临的问题;二是汇报易华录城市数据湖以全量数据资源平台为根本抓手,为AI提供的基础支撑能力;三是汇报易华录在城市数据湖落地和AI应用实践方面的情况。

  首先,我们来看一下公安打防管控方面的一个突出需求——重点对象精准防控。刑侦、治安、反恐、缉毒等部门期盼从生活场景分析入手,串接人的居所信息、社交信息、消费信息和轨迹信息,筛查防控重点对象。一方面,分析个人行为与重点事件、重要场所、敏感时段的交叠程度;另一方面,筛查预警个人异乎寻常的行为特征。由此,有针对性地组织重点对象防控活动,从而改变被动响应和粗放防控的局面。视频图侦就是最为倚重抓手之一。

  第二个,我们来看一下与公交企业和每个出行者都密切相关的公交智能化应用面临的问题。交通拥堵是每个城市的痛点,向公交集约化发展是行业共识。要实现这个目标,需要公交准点、乘坐舒适。但在实际生活中,乘坐需求与班次调度、公交优先等之间的匹配度还有很大差距。

  第三个,在疾病防控领域,是否能将舆情分析、药物零售、就医挂号等信息串接起来,通过模型,分析预测春冬季流感范围、蔓延趋势,也是卫生防疫的关注点之一。

  第四个,秋冬雾霾,困扰华北大部分地区,防控力度不断加大,也取得了一些成效,但等风来仍是最管用的方式。能否融合“卫星影像+排放检测+气象信息”成析成因、有效施治,从根本上逐步控制雾霾是公众的期盼。

  像这样的“期盼”还有很多。追求生活、工作环境的安全、有序、高效、舒适和可持续,是人们不懈的奋斗目标,无论对于常态管控与服务,还是突发应急;无论是看得见摸得着的治安、交通、医疗、环保,还是看不见的地下管网安全运转。

  城市各领域都热切期盼,在这一轮AI大潮中,大幅度升级业务平台,让一切智慧起来。

  那么AI是什么?怎么做才能达成我们愿望?

  从各位专家的观点中我们收益良多,我也谈谈自己粗浅的看法。AI就是能让机器/系统能像聪明人或一群聪明人那样,敏捷地思考问题,高效地协作,代替人们完成重复性的智力任务,甚至完成人们无法完成的复杂任务,并且能持续自优化,不断向好。同时,要将人的智慧与AI相融合,大幅度提高生产力。

  但身处应用端,在技术服务产业AI落地实践过程中,也遇到一些突出问题:一是在业务突出痛点上,大部分停留在感性需求浅层次描述,缺少进一步业务逻辑剖析;二是缺少支撑业务逻辑的直接和间接有效、足量的数据;三是高效合用的算法训练环境不易于获得,缺少向用户喜爱产品的转化。

  完成任务要靠人。最根本的,还是要整合众多能持续扎实研究、验证、优化算法的团队。只有在业务需求、技术环境、优秀团队、资本、上下游协作及配套生活环境的粘合下,才能构建一个鲜活繁荣的生态,才能快速持续发展。

  接下来,我汇报一下易华录城市数据湖,为AI提供DT基础设施平台和构建生态方面的解决方案。

  DT时代,数据成为驱动产业升级、增强城市竞争力的关键要素。这个蕴含巨大能量的数据,应该来自那些具有较好信息化基础的重点行业和政府部门,这些数据应该为城市精细治理、企业运营决策、个人生活服务提供强力支撑。各行业、各部门在使用数据的同时,又是数据的贡献者。这样一个“统一构建、众筹共享”的大数据资源平台应该是DT时代智慧城市运行的基础设施。这个方案符合城市各领域快速健康发展的共同诉求。

  易华录城市数据湖,就是构建一个由政府主导建设运行的、海量/共享/安全/绿色的DT基础设施。在安全有序开放的环境下,众多企业面向细分痛点业务场景,挖掘数据智能,创新升级业务平台。这样一个鲜活繁荣的数据湖生态,为城市快速健康发展提供持续动力。

  数据是基础,数据是核心,大规模有价值的数据在哪里?我们个人来自生活的感受:可能是网购个人消费数据,微信热点资讯和社交数据,网约车轨迹数据等。但支撑社会运行基本面的是企业信息(生产、销售、物流、金融)和社会管控信息(工商、税务、公安、医疗、环保),他们的规模和维度更加庞大。客观讲:70%的数据在政府一侧,或与政府组织密切相关;70%的数据体量是视频影像。它们才应该是构筑城市数据湖的主力数据资源。

  我们不仅需要数据,我们需要尽可能全量的数据。生产生活范围不断扩大,交往频度、依赖强度不断加深,我们需要大范围、多维度、长周期的全量数据来刻画各行业、领域、场景下,各业务对象的运行特征。对象的属性和行为特征是多维的,单一数据对特征属性的描述是模糊的,要逼近客观真相,需要多维度、长时段的数据进行互补融合、交叉印证和持续验证,所以,城市数据湖的建设目标就是“应收尽收、应存尽存”,形成全量数据资源。

  全量数据是我们的目标,但用得起的数据更是我们的诉求。这些年,我们深切地感受到:由于网络通讯费用的大幅度下降,让我们随时随地享受到资讯、社交、支付、导航带来的便利。大数据是滋养人工智能的沃土,数据存储资费的下降,将是推进大数据人工智能的先导性条件。下面我要介绍的光磁一体存储云平台就是提供廉价存储的优秀解决方案。

  从整体来看,全量数据呈现出明显的冷热分层特征,其中20%的数据为热数据、温数据,而80%的数据为冷数据。冷热数据都有不可替代的价值,对各领域应用,热数据转冷,冷数据加热是用常态。为此,易华录提供了热数据磁存储、冷数据光存储及光磁智能转换的一体化数据存储解决方案。

  对磁存储,大家都比较熟悉。对光存储,可能还停留在多年前的DVD家用影碟。我来简单介绍一下。易华录采用的是先进的第二代蓝光存储、读写技术,单张容量300G,是普通DVD-5的65倍,是DVD-9的35倍。即将推出的三代产品为单张500G,随后推出四代产品为单张1T。蓝光海量存储是一个工业级的技术产品。12张光盘组成光盘匣,光盘匣构成光盘库、蓝光柜,由管理节点机、磁存储和光磁智存平台构成光磁存储基本单元。易华录推出的DBox基本单元提供可达1.6P的存储空间,并支持横向扩展、纵向级联。支持海量存储是一方面,它在高并发读写通道上同样出色。DBox单柜可挂接3组光驱,提供600M/秒的并行读写能力。

  我们来对比一下光磁存储与硬盘、磁带库各自的优势。在响应时间和读写速度上,磁存储具有明显的优势,所以它适合热数据存储。但从存储时长、不可改写及环境要求上,蓝光存储具有无可比拟的优势。所以,它是冷数据存储的首选方案。

  我们完美的将二者组合起来,我们通过数据访问频度监测评估算法模型,很好地解决了冷热数据的智能判断;我们通过减少跨盘匣、高频数据组合存储策略和冷热转换智能预加载技术,较好地解决了冷数据的热转换。

  光磁一体存储方案技术先进,我们再比对磁存储与光存储建设和在5年期和10年期运营成本方面的明显差异。由于蓝光在低功率待机、普通环境和长存储的优势,我们看到:(1)在建设阶段,光存储成本低于磁存储;(2)5年期电费,磁存储是光存储的近5倍。5年期综合成本,光存储是磁存储的60%;(3)10年期综合成本,磁存储是光存储的3倍。

  所以,城市数据湖采用光磁融合智能存取平台,是提供廉价大数据存储和资源管理的最佳方案。

  接下来,我汇报一下数据湖解决方案的整体架构。易华录城市数据湖是基于光磁智能存储平台提供的大规模、廉价、安全、长存储能力,以云计算、大数据资源平台、人工智能算法引擎为关键支撑,通过数据目录服务提供安全有序的数据开放能力,通过DataLake Store提供鲜活的多维数据碰撞价值分析和细分关键场景业务应用平台开放能力,为驱动城市各行业智慧化提供DT基础设施。

  我们再来看一下数据湖产品框架。在硬环境上,有易华录自己核心的光磁存取平台和来自合作伙伴的CPU、GPU计算集群。在软环境上,有合作伙伴的大数据云计算环境和数据安全平台,有易华录自有的数据域管理和数据治理框架、智能算法平台和数据目录服务和应用商店框架。在数据层,有易华录在公共安全、智能交通领域为生态提供的行业数据资源库,我们正在与更多的优秀行业数据产品商合作,陆续推出医疗、环保等行业数据资源库。在应用层,在DataLake Store上,易华录搭建自己擅长的大交通和大安全业务平台,合作伙伴搭建优秀的业务平台。

  城市数据湖以一湖多点的模式实现DT基础设施赋能全行业,DBox就是一湖多点的点。它可以看作是是微型数据湖,它面向行业提供DBox+交通、DBox+公安、DBox+医疗等行业产品,DBox以突出的大规模并行视频结构化分析和存储能力融合数据,构建部门级行业数据平台,通过DataLakeStore搭载优秀应用, 满足各类用户细分场景的应用需求。一湖多点,打通数据湖与部门应用节点的连接,蔓延渗透,服务城市全行业。

  数据资源平台是数据湖的核心,我们提供了完整的大规模数据接入、数据治理、数据服务和数据安全管理框架。

  有了软硬框架,需要承载数据、挖掘价值、赋能应用。

  首先看一下遍布城市各角落大规模的视频资源,它们大多处在浅层次的轮巡浏览上,要么存不下被覆盖,要么停留在车牌识别等浅表应用上,挖掘它们的价值是构建城市数据资源平台的关键任务之一。光磁存储平台提供了大规模数据、廉价、安全、长存储的优秀解决方案,视频结构化算力调度平台提供了视频流、GPU板卡和算法之间的灵活调度能力,一湖多点、视频N次结构化,这一切组合模式,完美地满足各行业对视频不同纬度价值挖掘的诉求。

  面对城市绝大部分的低速场景,我们在视频结构化方案上创新性的提出了抽帧、结构化、再压缩的方式。仅对I帧做结构化,特征损失小于5%,但并行处理能力是传统方式的20倍,存储空间是传统方式的1/7。满足除行为分析外的所有场景,是视频摘要的优选方案。

  有了海量结构化数据和视频结构化成果,是为了围绕各细分场景业务痛点构建算法模型,分析关系,预测趋势,发现异常,提升决策能力。AI算法平台就是我们基于开源框架搭建的一套面向业务的算法平台,其目的在于降低算法平台门槛,激发众智,充分挖掘数据的价值。在数据侧,我们完成了常规数据预处理,做了初步的数据标注和切片;在算法侧,我们可以方便的挂接业务算法模型,同时提供了算法训练可视化环境,这套平台已经在易华录的智能交通业务领域开始应用。我们将借助开源社区和生态伙伴的力量,持续优化算法平台。

  视频结构化、全量数据资源、行业领域算法等一切工作都是业务铺垫和基础准备,都是为创新业务平台、解决业务痛点而聚集能量。城市各行业细分场景,各有各的门道,唯有生态的力量才能响应众多需求,只有生态才能持续提供鲜活的应用。所以易华录提供DataLake Store,张开双臂迎接优秀伙伴,共建生态,共享繁荣。目前我们已经与70多个伙伴一起,大家共同丰富算法和应用软件生态,向多个行业用户推荐优秀产品。

  以上是易华录城市数据湖基于全量数据基础平台为AI提供基础支撑的解决方案。接下来我汇报一下城市数据湖的落地和AI应用实践情况。

  易华录城市数据湖与发达地区政府/行业在数字经济产业发展战略高度契合,城市数据湖解决方案受到政府和合作伙伴的广泛欢迎,已经在泰州姜堰华东数据湖、徐州淮海数据湖、天津津南数据湖、湖南株洲数据湖等快速落地。

  城市数据湖采用数据众筹、问题众智、应用众包和产业众创的推进模式,为政府城市管理和企事业单位提供创新应用,并向个人家庭提供免费存储服务。城市数据湖,落地在数据产业园。园区内,在资源技术侧,采用数创空间+数据大赛的方式,吸引人才团队贴身充分挖掘数据价值,解决细分领域业务问题;在服务配套侧,园区提供产业基金和生活配套,为创新提供优质环境。园区外,采用DataLake Store的方式,向社会有序安全开放数据,在更大范围吸引优秀人才团队挖掘数据价值。

  在建的各数据湖项目建湖、引水同步展开,数据导入首先从政府、医院、电信、电力等开始。我们看一下其中一个项目基础数据的引入情况,目前已经从11个部门导入25类数据,包括:信息中心、发改委、财政、法院、国土等重要城市管控类信息,和档案馆、图书馆和教育局等文献信息。我们正在遵循国家法规和多方签署的数据安全使用协议,进行数据资源目录整理、清洗标准化和脱敏工作,并与生态伙伴一起,在守法合规的前提下,将这些数据跨领域横向拉通,为城市治理提供服务,然后,依法合规逐步展开数据、算法和应用生态建设。

  在视频导入上,已有超过6500路视频入湖,同时展开场景事件、行为特征、人车外廓特征的结构化分析。面对视频来源多样性和智能化应用的深入,我们加快视频结构化生态的能力建设,欢迎环保、安监、水利应用领域等优秀视频结构化伙伴承担N次结构化工作,为用户提供优质应用。

  在视频结构化能力方面,目前易华录和优秀合作伙伴提供对机动车、非机动车、人脸、步态等结构化能力和多种深度智能应用。机动车特征识别能力包括可识别16大车辆特征,细分为:16种车型,3种特殊车辆,10余种号牌、2万多种车款等,为公安/交通重点车辆查控提供了坚实的支撑。对非机动车、电动三轮、摩托车等同样提供了人车特征细分能力,为快递小哥交通违法、南方地区摩托车交通治理提供了有力支撑。对自然环境下采集的视频源,人脸识别上能够提供年龄、性别、眼镜、戴帽子,甚至民族提供精细分辨能力,为人脸卡口及智能应用打开了全新局面。以图搜人、以图搜脸、以图搜车为特征搜寻提供应用兜底,是嫌疑筛查中最受欢迎的能力之一。通过背影找正面,去帽饰等伪装,贴心的图侦能力受到神探的喜爱。

  单点视频结构化,洞悉图片蕴含特征,化腐朽为神奇。但更为神奇的是正在全国建设上下级联的视频图像信息库。它将像“拼图游戏”一样,拼出完整的、细密的视频智能天网,成为政府侧以社会管控智能化应用为先导,向交通调控、环境治理等行业延展应用的体系性、导入性和基础性数据。易华录城市数据湖、DBox在织就数据大网中将大显身手。

  数据,价值数据,是要安全有序开放的,数据流动起来才有价值。在数据资源目录开放服务方面,易华录率先基于自己的优势业务,率先发布了TOCC和公安交管的数据目录服务。我们在试点探索中优化改进业务模式,其他数据目录服务也正在与优秀合作伙伴策划合作研发过程中。

  数据碰撞、关联分析的应用空间是无限广阔的。我们和生态伙伴一起,面向细分业务场景、业务痛点,不断丰富重点对象画像、图谱算法模型,不舍昼夜的生产加工价值数据。在应用工具方面,我们通过“易度”为用户提供数据全文检索能力,支持自定义模型和优秀模型分享共创机制,在安全有序传播中激发数据价值,让用户就像用百度一样,搜你所用,用你所想。

  以上就是易华录基于城市数据湖,在公安、交通等领域AI实践方面的情况汇报。请各位领导、专家、学者多予以支持、指导。易华录将与众多的优秀企业合作,共建繁荣生态,共创智慧生活!

  

版权所有 © 中国人工智能学会
ICP备案号:京ICP备13016090号-5 | 技术支持:智能君博科技