人工智能与计算机视觉技术息息相关,视觉信息处理成为人工智能现阶段最重要的技术引擎之一,智能视觉计算技术也已经广泛应用于各行各业。为加快实施创新驱动发展战略,促进人工智能领域智能视觉计算技术的研究创新与应用突破。2022年12月17日-12月18日,由中国人工智能学会主办,中国人工智能学会会士之家(杭州站)承办,浙江杭州未来科技城(海创园)管委会协办的中国人工智能学会创新技术讲习班第二期“智能视觉计算技术与应用”在线上成功举办。
在此期的讲习班上,来自北大、清华、大连理工、哈工大等8所顶尖高校智能视觉计算技术与应用领域的10位国内外领军人才、权威学者开展线上8场授课交流,与50W+在线观众开展学术对话。聚焦“智能视觉计算技术与应用”领域,旨在为我国人工智能领域学者和科创人才提供重要交流平台,加速人工智能科技创新和产业应用高水平高质量发展。
中国人工智能学会组织主席徐枫老师主持开场,彭宇新教授发表致辞。计算机视觉作为人工智能领域的一个重要分支,是工程与科学领域中的一个极具挑战性的研究方向。随着深度学习的快速发展,这一技术已成长为技术发展和数字化转型不可或缺的力量。未来伴随着算法更迭、硬件算力升级、数据大爆发及5G技术发展带来的高速网络,计算机视觉技术的应用将会拥有更广阔的发展空间。
(徐枫老师作开场主持)
(彭宇新教授作开场致辞)
程明明教授进行了“开放环境下的自适应图像理解”的专题分享。面对计算机图像视觉感知和理解技术在实际应用中的痛点问题,从自适应的角度出发,解释该技术如何适应开放环境。详细讲解通过粒度自适应表达、算力自适应的高效视觉感知以及通用属性知识引导的视感知三方面技术缓解现实开放环境中遭遇的三大挑战性问题。强调尽管无监督无法事先预知类别数,但从evaluation的角度出发,类别数作为一个不固定参数,一般会略大于实际的类别数。
(程明明教授授课)
王立君副教授围绕“单目图像深度估计”开展专题分享。从背景出发,细致介绍了国内外研究现状,团队最新研究进展及单目图像深度估计在计算机视觉其它任务中的四方面应用。指出,单一数据集下训练后的模型泛化能力较弱,主要是数据集在室内室外不同场景中,存在深度尺度不兼容的问题。团队为解决该问题开展了“相对深度预测”的探索,可实现多场景数据集混合的训练,泛化能力更强,但存在不是绝对深度的缺陷。基于网络结构设计进行优化是训练数据外必要的探索方向。单目图像深度估计的误差值依据不同场景存在差异,误差与评价指标存在相关性(关注绝对误差或相对误差),误差计算一般考虑所处区域远近及其容忍度,根据不同的任务会设计不同评价标准。为了更好对同一类别物体的深度相似性进行建模会采用同一套参数,但同一物体出现在不同位置,其深度存在差异。要求模型在预测过程对类似“近大远小”信息进行归纳总结,根据语意信息判定类别、根据可能的变化、大小判断深度,并结合上下文和相对尺度进行预测。通过端到端的映射,能够实现从输入图像到真值的预测,但存在一定误差,需要判定任务对误差的容忍度。单目图像深度可能无法满足对精度有高要求的任务,需结合多种数据源才能解决问题。
(王立君副教授授课)
谷延锋教授围绕“多模遥感图像本征分解”带来了专题授课,结合高光谱遥感探测和高光谱本征分解两部分,分享了其团队近几年围绕遥感图像本征分解的研究进展。详细介绍了高光谱遥感探测的成像原理、多模探测及其存在的关键问题。系统阐述了高光谱本征分解中多模本征信息提取、理论模型、先验信息建模、实验验证、方法流程等内容。谷教授指出通过卫星的粒子测绘,利用多角度相机可计算地面上对应的高程数据,基于高程数据可进行空间三维建模,描述地面物体空间三维结构。均匀的光照和它法线方向作用并不需要额外相机参数,同理激光雷达可直接利用它的点云数据。
(谷延锋教授授课)
郑伟诗教授进行了“行为协同与交互建模”的专题分享。基于行为分析的背景,回顾现有行为协同与交互建模的方法,探讨团队主要研究进展及未来方向。指出协同技术商业化广泛应用的主要障碍在于未知环境下难以对未识别物体进行建模的问题。例如机器人对于未识别物体的抓取成功率低,需进行泛化处理的问题,未来商业化应用将聚焦人和机器的行为协同研究。构建多尺度的几何特征主要通过多个Scale的建模,拓展自由度抓取,进行点云分析,扩大感知范围。行为分析的训练工具是目前团队待解决的痛点问题,未来标准化的算法库建设值得团队探索的研究方向。
(郑伟诗教授授课)
操晓春教授围绕“‘病态的’计算机视觉算法”进行专题授课,指出“计算机视觉”是一个相对“病态”的问题。围绕解决“病态”问题的“规则化的数值分析”与“引进新假设”两个方法详细阐释现有研究工作。指出主流的视频分析软件有生成、识别、分类等多种类型,区别较大且领域内更新迭代快。强调了学术角度的视觉算法攻击是指攻击对方的识别模型。
(操晓春教授授课)
方玉明教授开展了“图像质量评价:理论、方法及应用”专题讲解,介绍图像质量评价的概念、分类及评价研究的主流方法,解释了真实相机失真的图像质量评价,多曝光图像融合以及相关内容,分享图像质量评价在Perceptual Optimization中的应用及进展。强调HDR图像如何评价来选择多曝光图像的张数主要取决工作的过程。
(方玉明教授授课)
黄惠教授围绕“面向智能机器人的智能图形技术”带来专题授课。从概念出发讲解了目前的主流智能机器人及其智能化深入发展的卡脖子难题。在当前非实验环境下机器人面临的挑战和技术应用之间依旧存在较大的空间局限性,需在工业制造、智能仓储等预定环境和场景中进行预定设计才能运行,但预定设计的控制算法在面临人类真实的物理环境及复杂的动态情况时可能会失败,机器人认知真实三维动态环境能力缺失会阻碍其智能化深入发展。期望在未来实现城市信息的精准映射和良性代谢,最终形成完善的城市孪生数字生态。关于智能图形技术与无人机摄像渲染的区别性问题,黄教授指出,图像采集的最终目的是三维重建,其机理是基于Multi-View System的实景重建,与无人机摄像渲染具有本质区别。目前智能图形技术正应用于将激光雷达和视觉技术相结合的自动驾驶环境建模,通过深入研究有助于推进仅依靠激光雷达难以实现的、真正意义上的3D地图的重建。
(黄惠教授授课)
马思伟教授开展了以“视频编码:从信号建模到特征学习”为专题的分享,深入阐释视频编码的历史及关键技术进展。从技术背景、难题出发,讲解了深度学习、智能视频编码的研究进展及挑战。强调深度学习正推动视频编码技术框架的演变,基于神经网络的智能编码是突破传统视频编码效率提升瓶颈的重要方向。智能编码虽面临算法模型、计算平台和质量评价等多方挑战,但也在推动深度编码的发展。马教授指出,全景视频虽简单沿用传统视频编码技术进行视频拼接,但概念有了更大的拓展,更强调指阵列式、多路相机的、使用多视点的编码方法。另“MIV”形式主要通过投影映射进行拼接处理,保留多路相机的视频内容进行传输。在未来人们更加看好数据量大、表现形式更丰富的点云式三维模型的采集和传输。
(马思伟教授授课)
讲习班的尾声,卢湖川教授总结指出,专家学者们的专题授课,精彩纷呈、亮点频现、交流碰撞,提出了人工智能领域探索的新观点、新见解、新方法,为人工智能的创造性发展提供了诸多可供参考的新路径。
(卢湖川教授作结业总结)