人类读不懂唇语交给深度学习精度可达8441%

读懂唇语,这是摆在我们面前的一道难题,大多数人平均只能读对一句唇语的十分之一。那么 AI 能做到吗?

早在 2016 年,牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就联合开发了结合深度学习技术的唇读程序 LipNet。随后,提高计算机唇读精度,便成为了该领域的一项重要挑战。

雷锋网了解到,互信息(mutual information,MI)是用于测量两个随机变量之间的关系的基本量,当给定一个随机变量时,它总是用来计算另一个随机变量所拥有的信息量。基于此,两个随机变量的互信息总是被用来衡量两变量间的相互依赖性。

上面这个例子反映出词汇级唇读的一个问题——模型无法完全关注有效的关键帧,因此词汇边界划分不准确。

开足马力保障防控物资供应

另外,内蒙古将继续实施学校封闭式管理,原则上图书馆、体育馆和兴趣活动室等场所在疫情解除前暂停开放,学校公共设施暂停对社会开放。严格落实“晨午检”制度,执行宿舍24小时封闭管理和教职工值班值守等安全管理制度,提倡有条件的学生尽量走读。实施每批次学生间隔20分钟左右的错时就餐和校领导陪餐制度,尽量保证学生餐位保持一定距离。

2月7日一早,广东江门舒而美医疗用品有限公司生产线全速运转,工人正加紧生产医用口罩。厂房外,南方电网广东江门供电局的工作人员,正为该公司用电增容项目紧急施工。

经评估,研究团队发现 GMIM 可将精度提高到 84.41%,这主要得益于它对不同帧关注不同的特性。与其他除视觉信息外务额外输入的唇读方法相比,研究团队在 LRW 数据集上得到了迄今为止最佳的性能(如下图)。

解决词汇级唇读的“固有”问题

国资委有关负责人介绍说,截至目前,相关央企医用防护服产能已经达到每天2万套,到2月14日将达到每天4万套,口罩产能也将在本月底达到每天160万只以上。

近日,来自浙江工业大学、中科院计算技术研究所智能信息处理重点实验室、中国科学院大学的研究团队更是共同提出了在局部特征层和全局序列层上引入互信息约束,增强口型特征与语音内容的关系,将计算机唇读精度提升至 84.41%。

为解决上述问题,此次研究团队主要从两方面着手,引入了不同层级的「互信息最大化」(mutual information maximization,MIM),旨在使得模型同时具备较好的鉴别能力及鲁棒性,保证唇读更为有效。

连日来,电力、能源、通信等领域央企抗疫情、稳经营双管齐下,为其他企业复工提供基础保障——

为验证这一方法,研究团队利用 2 个大规模词汇水平的数据集对其进行评估,将其与其他主流的唇语识别模型方法进行了详细的几方面分析、比较,包括 LMIM 和 GMIM 与基线的比较、深度学习可视化等。

与此同时,内蒙古要求各校做好防护物资储备,确保体温计、红外线体温枪数量和质量,有条件的学校可以采购红外线热成像仪等快速检测设备,储备足够师生使用一周以上的口罩和学校各类场所消毒液等防护用品。(完)

此外,准确捕捉口型的变化也并不容易——发音相似的词汇口型相似,同音词的识别也更是使难度升级。

引入不同层级的「互信息最大化」

唇读(lip-reading/speech-reading),简单来讲就是观察说话者的口型变化,“读出”其表达的内容。实际上,唇读的过程是利用视觉信道信息补充听觉信道信息,这对听力较弱的群体、嘈杂环境中的工作者以及执法机构具有实际应用意义。

努力保持生产经营稳定运行

今年1月,国家能源集团商品煤销售完成5584万吨,发电量完成849亿千瓦时。“我们正采取加大高效矿井自产、建立采购绿色通道等措施,增强煤炭应急供应能力,为各企业复工复产提供可靠的能源供应。”国家能源集团有关负责人表示,企业2月计划供应煤炭4948万吨,其中为湖北供应煤炭106万吨。

在全国政协委员、甘肃省白银市副市长黄宝荣看来:“生态本身就是一种经济。要积极建设现代化经济体系,也要加大环境治理力度,坚决打赢蓝天、碧水、净土保卫战。”

中储粮集团应急加工因需而动,各地直属库积极做好轮换销售出库,切实保障粮油供应和市场稳定。中储粮湖南分公司已加工5个批次、数百吨大米投放市场。

确保各类生活必需品供应,与百姓生活息息相关。面对疫情,部分民生领域央企复工后加大了采购生产力度。

放眼全国,像涪陵一样的地方有许多。“保护生态环境就是保护生产力,不少地方利用生态资源发展旅游业,老百姓的新生活有滋有味。”全国政协委员、中国科学院生态环境研究中心研究员陈利顶认为,环境保护和经济发展从来都不是对立面。生态环境既是自然财富、生态财富,又是社会财富、经济财富。脱离生态保护,单纯追求经济发展是不可持续的,最后还是得为生态修复买单。

记者:刘发为 丁怡婷 李 婕 刘新吾 闫 旭

在论文中,研究团队提到了「词汇级唇读」(word-level lip reading)的概念。实际上,词汇级唇读是唇读的一个分支,也是研究团队此次研究的主要关注方向,它存在一些“固有”问题。

实际上,确保计算机唇读性能良好,很大程度上正是取决于 2 点:

同时,研究团队利用可视化对 GMIM 的效果进行了进一步探究。如下图所示,下列这些词之间的差异范围从 -20 至 20 扩大到 -40 至 60 之间——这意味着随着 GMIM 的引入,区分词汇变得更容易。

郭凯家住盘山县太平街道,离家不远处就是辽河口湿地。这几年,郭凯和乡亲们使用农机在水田里耕种,明显感受到土壤和水质有改善。得益于美丽乡村建设,他们的村庄如今分外整洁、干净。郭凯说:“改善生态环境就是发展生产力。湿地更美了,也可以因地制宜,发展文体、休闲、旅游等产业。”

中盐集团组织所属食盐生产企业加大生产力度,加强食盐储备、市场价格监控,针对重点地区启动食盐应急调配方案。中盐集团旗下除了湖北省企业外,已全面开展生产,全国食盐日产量约5000吨,可持续保障各地食盐供应。

绿水青山就是金山银山。发展经济和保护生态是辩证统一的关系,二者的目的都是为了满足人民对美好生活的向往。

连日来,中央企业挖掘潜力、扩大产能,开足马力生产口罩、防护服、医用消毒酒精以及各类医学器械等重点医疗防控物资。

第一,即使在同一视频中存在其他单词,每个输入视频都用单个词标签来注释。例如下图中包括总共 29 个帧的视频样本被注释为“ABOUT”,但是“ABOUT”一词的实际帧仅包括在时间步 T=12∼19 处的帧,即红框中的部分,而红框前后的帧对应的词汇分别为“JUST”和“TEN”。

(本报记者刘佳华、邝西曦、黄超、左潇参与采写)

全力以赴确保生活必需品稳定

对此,全国人大代表、中国化学工程集团有限公司党委常委刘德辉也认为,要进一步提高绿色发展意识,践行绿色发展理念。“绿色化工可以从源头上堵住污染的产生,从根本上减少或消除污染,满足社会可持续发展的要求。”

而在计算机视觉领域的语境下,唇读作为一种基于深度学习的模型,更多地被用来推断视频中的语音内容,可对基于音频的语音识别、生物认证等进行辅助。

可见,在不使用额外数据或额外预训练模型的前提下,该研究团队的上述方法相比其他主流唇读模型性能的确较为突出,希望这一方法为其他模型提供借鉴。

“央企将切实做好应对疫情的准备,努力把疫情对正常经营带来的不利影响降到最低。”国资委有关负责人说。

来自国资委的数据显示,目前石油石化央企复工率达到98.1%;电网、发电企业复工率达91.5%;通信企业复工率为98%;矿业企业、冶金企业复工率分别为86.2%和82.4%;仓储企业已全面复工。

国投生物下属5家酒精生产企业主动调整产品结构,现在均可生产出符合国家标准的酒精消毒液,日生产能力总计达2000吨。截至2月10日,国投生物已向社会捐赠325吨消毒酒精。

“前段时间受疫情影响,公司原材料供应、用工成本等面临压力,好在政府及时出台了不少惠企政策,增强了我们发展的信心。现在公司订单爆满,生产线全都是满负荷。”全国人大代表、远景能源(江苏)有限公司董事长张雷说。

另一方面,研究团队引入「全局互信息最大化」(global mutual information maximization,GMIM)约束,使得模型更多地关注对与语音内容相关的关键帧的识别,同时更少地关注各种可能出现的噪声。

第二,同一词汇标签下的视频样本画面经常存在变化。例如下图中的画面都属于以“ABOUT”为标签的视频。

远景能源是能源互联网技术服务提供商,公司这几年的长足进步,成为江苏盐城市新能源产业加快发展的生动缩影。近年来,盐城大力培植新能源等战略性新兴产业,积极构建清洁低碳、安全高效的绿色能源体系。远景智慧能源、金风科技、国家电投、上海电气等一批行业领军企业先后在此落户。“风光无限”的新能源产业,为盐城经济腾飞提供了强劲动能。

此外相关央企统筹疫情防控与复工复产,一批国家重点项目已开始有序推进。

【雷锋网注:基本架构】

在不破坏良好生态的前提下,实现经济平稳发展,需要传统产业的绿色化变革,以及新兴绿色产业的有力助推。

“比预计的通电时间早了十几天,这样我们新增的两台设备就能很快上线,口罩产能将在现有基础上提升1.2倍。”舒而美公司负责人说。

“坚决完成目标任务,不获全胜,决不收兵!”新兴际华集团下属际华股份总经理袁海黎日前签下了一份特殊的“军令状”。

作为我国最大的粮油食品企业,中粮集团在疫情防控期间“不停工、保生产、保供应”。目前,企业每天发往武汉市场的大米超过200吨、面粉面条合计约50吨、食用油约300吨。

当前,疫情防控工作到了最吃劲的关键阶段。国务院国资委成立了医疗物资保障专项工作组,及时协调解决企业生产、发运重点医疗防控物资过程中遇到的突出问题。

疫情防控关乎生命,复工复产关系生计。连日来,中央企业坚持在做好疫情科学防控的前提下,分类分批、安全有序复工复产。截至目前,除地方政府要求延迟开工的企业外,96家中央企业所属2万余户生产型子企业的复工率已超过80%。

上述 2 个词汇级唇读的特性要求唇读模型能够抵抗序列中的噪声,从而在各种语音环境下捕获一致的潜在模式。

石油和化工行业是国民经济的重要基础产业,全国人大代表、镇海炼化党委书记吕亮功认为,发展绿色石化产业是提升实体经济硬实力的重要突破口,“支持宁波等地打造世界级绿色石化产业集群,对实施国家区域发展重大战略、构建有竞争力的现代化产业体系、满足人民日益增长的美好生活需要具有积极意义。”

南方电网提出了加强重要场所和重点区域保供电、加快满足疫情防控新增用电需求等举措,2月6日南方电网主要城市中心营业厅有1508个已正常营业;为应对疫情影响,国家电网推出了提高办电服务效率等12条举措,全力助推企业复工复产。

“蝶变的背后,是涪陵壮士断腕、全力修复长江生态的决心。”全国人大代表、重庆市涪陵区委书记周少政说,“关停不是最终目的,而是要加快产业转型升级步伐,实现绿色发展,达到经济效益和环境效益双赢。”在生态治理的基础上,涪陵探索建设城市休闲运动公园,提升城市功能,诠释了“两山”转化的生动实践。

2月4日,中粮肉食生鲜制品部华中区生产小包装生鲜猪肉35491盒,打破武汉公司建厂以来日产量历史纪录。

【雷锋网(公众号:雷锋网)注:LMIM 训练基础网络】

良好生态环境是最普惠的民生福祉。在陈利顶看来,保护自然环境就是保护人类,建设生态文明就是造福人类,“生态环境改善了,群众的获得感和幸福感自然会显著增强。不仅如此,好的生态环境也是巨大的生态财富,环境改善后,不少贫困地区开始大力发展生态产业、促进乡村产业兴旺,村民们过上了好日子。”

中共十八大以来,习近平生态文明思想深入人心,生态文明、美丽中国建设的理论与实践不断深化,中国在绿色发展的道路上一棒接着一棒,一步一个脚印。

“美丽乡村建设中,村容村貌已大幅改观,这次疫情防控期间,乡亲们更加讲究卫生了,也更加注重保护野生动物,将这些好习惯保持下去,相信会对农村人居环境改善和生态文明建设有所帮助。”郭凯说。

雷锋网原创文章,。详情见转载须知。

是否能有效地捕获口型变化; 是否能有效地抵抗由姿态、光线、扬声器外观等变化引起的噪声。

近两年去过不少农村调研的陈利顶委员也深有感触:“蓝天、碧水、净土三大保卫战,成效明显!”许多地方臭水沟、垃圾山少了,绿地、花园多了,村容村貌焕然一新,“像保护眼睛一样保护生态环境的理念,在越来越多人的心中生根发芽。”

以下是 2 个数据集的具体信息:

“作为环保人,打好污染防治攻坚战是我们义不容辞的责任和使命。”全国政协委员、内蒙古自治区兴安盟行政公署副盟长张利文表示,“我将继续关注环境保护与治理,让绿色发展的声音更响亮更有力。”

如今,行走在涪陵,怡人的生态画卷映入眼帘。绿水逶迤去,青山相向开,蜿蜒曲折的沿江岸线处处皆景;创新“绿动力”,激活“绿动能”,现代化工业园区智能引擎领跑;城在山水间,人在画中游,人们于城乡间找到一方宜居之所。

眼下,垃圾分类处置工作正在全国范围内展开,全国人大代表、北京市东城区区委书记夏林茂认为:“实行垃圾分类,关系到广大人民群众生活环境,关系到节约使用资源,也是社会文明水平的一个重要体现。今年政府工作报告提出加强污水、垃圾处置设施建设。5月起,《北京市生活垃圾管理条例》落地实施,东城区将继续高标准精细化做好垃圾分类这个‘关键小事’,为大家营造一个优美的生活环境。”

产量目标精准到日,多家主力企业职工全员上阵,紧急购置专用设备……为了更快生产出疫情防控一线急需的医用防护服,这家中央企业正全力以赴。2月11日晚上8点,他们紧急赶制出的2万件医用防护服,已连夜发往武汉。

中国化工旗下沈阳橡胶院发挥科研院所技术优势,用5天时间完成了资质办理、产品研发、物资采购等工作,紧急转产抗疫急需的隔离服。目前,企业可每天交付A型隔离服60套,同时开始准备生产B型隔离服,最大产能将达到每天1000套。

LRW:于 2016 年发布,总样本量为 488766,包括 500 个词汇等级,涉及讲者超 1000名,讲话环境差异很大。该数据集被主流唇读方法广泛使用,具有挑战性的数据集; LRW-1000:总样本量为 70000,总时长约 57 小时,包括 1000 个词汇等级。该数据集旨在覆盖不同的语音模式和画面条件,从而结合在实际应用中遇到的挑战。

走进中化涪陵化工公司南岸浦厂区,原来近千亩磷石膏堆场已被繁花似锦的风景取代,举目远眺,一江碧水、两岸青山尽收眼底。

此外,通过引入 LMIM,模型对发音相似的词汇的识别的确显示出了更高的准确性和明显的改进,例如 Makes/making 和 Political/politics(如下图)。

“湿地里的鸟类越来越多,植物也越来越茂盛了!”谈到家乡生态环境的新变化,全国人大代表、辽宁省盘山县太平凯地农机服务专业合作社理事长郭凯很振奋。

一方面,研究团队施加「局部互信息最大化」(local mutual information maximization,LMIM)约束,限制每个时间步生成的特征,以使它们能够与语音内容具有强关系,从而提高模型发现精细的口型变化及发音类似的词之间的差异(例如“spend”和“spending”)的能力。

为保障疫情防控一线人员及重点地区用户的正常通信,中国电信、中国联通、中国移动三大电信运营商推出免停机、缓停机等服务,近期又推出包括“云服务”在内的10项在线服务新举措。

【GMIM 训练基础网络】