IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

蔡同学就读于伊利诺伊理工大学(IIT)在线硕士项目的MEAI专业(视觉与控制人工智能)。以下是他的分享:

我已经完成了四门课(毕业一共需要30学分,按照每门课3学分计算合共需要修读10门课)。

就目前的情况来看,这个项目能让我直观地感受到学会了计算机视觉这个领域上的具体的知识。这个学期修读的是ECE508 视频通信,刚刚完成了期末考试,借此小结一下学习情况,也从中可以分享一下我学到的东西。

1.从评估角度描述视频

通过学习视频的压缩方式,了解了可以从运动评估的角度来描述一个视频。

我想把这个概念应用在自己具体的工作项目中,转化为生产力。我们可以把视频看成是一帧帧的图片在连续播放,压缩时也可以把一帧帧图片采取单独压缩处理。

不过,显然这种处理方式过于复杂,没有利用好视频在时间维度上内容有相关性的这个特性。

有一种算法称为运动评估,原理是把当前图片和参考图片(前一帧或者后一帧)进行对比:

一般来说,前后两帧图片有很大的相关性,找到当前图片中的图像相对于参考图片的位置,我们就可以利用参考图片和位置信息把当前图片还原出来。由于参考图片已经存在,仅仅用额外保存的位置信息就可以还原当前图片,于是压缩率是相当可观的。

例如:

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
此图是当前帧
IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
此图是参考帧
IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
图3

图3是利用参考帧和一个1295字节的位置信息进行运动评估后还原的图片。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
图4

图4是运动评估后的运动方向和运动距离信息。当前帧原图是接近60K,压缩率接近50倍。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

这两张图,随着分割的评估单元越小,得到的精度就越高。当然,位置信息的容量也会随之增加。

以下节选自我的实验报告

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

从这份节选的实验报告中可以看到:在编码阶段我们需要用到的时间以及不同位置搜索精度下的信噪比。

我们可以从中找到一个平衡点作出性能的选择。

我从事的是手游的研发工作,任职游戏策划(类似产品经理)。

在游戏项目中,如果我们采取动画3D渲染2D的制作方式,那么一个游戏角色的动画就会生成一帧一帧的图片,我们称为序列帧动画。

为了说明这个例子,我在搜索引擎上找到了一张样图:

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

可以看到,这是一个游戏角色行走的动画,在3D渲染2D的工艺后,变成了一帧一帧图片的输出。

这是极其占用磁盘空间的,大容量的安装包对于手游用户来说也相当不友好。

最近,我在和我的程序同事一起协作,我撰写序列帧压缩和解压缩的算法代码,他撰写应用在unity引擎上的代码,借此我们尝试解决这种3D渲染2D制作工艺在手游上应用的局限性,改善项目游戏安装包的容量过大问题

2.扩充知识体系,深层次了解视频检测

通过基础知识的学习,我开始可以独自阅读利用深度网络进行视频检测的论文

这使得我拥有了一枚钥匙,可以让我打开这个领域更深层次的大门。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

这是一篇我在课程上选择自学和演讲的视频检测论文《Video objectdetection with two-path convolutional LSTM pyramid》。在掌握了课程上半学期修读的基础知识后,利用这些知识我可以对论文进行自学和解读,例如这篇论文是讲述了:

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

通过引入多尺度的时间上下文信息的输入,使得模型增强了对检测大尺度缩小、大尺度放大物体检测的性能。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

例如,当火车高速行驶,从近距离摄像头的位置到远离摄像头,火车在大尺度地快速缩小。

图中第一行是标准线模型,随着一下子快速地远离摄像头导致的视觉物体缩小,检测出的置信度大幅度下降,而第二行的建议模型则依然保持着高置信度的良好性能。

可以看到,我对论文中要通过建议模型解决的问题是有体会的,并且能跟着论文的思路进行一步一步地深入解读的

我相信,有了基础知识,通过后续自己阅读的论文越来越多,能够收获的知识也会越来越多,越来越深入地能理解这个领域下的课题

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?
相关论文

接下来,我想沿着这个路径,看看注意力机制在视频检测上的应用。我会从transformer这个经典的论文《Attention is all you need》开始。

3.迈进新的研究方向

学习了双目的三维深度评估的原理,有了一个想尝试的研究(实践)方向

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

在研究视频中的物体运动时,物体除了在水平的坐标上进行运动,它还会在深度上进行运动。这构成了一个二维世界与三维世界的对应关系。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

在我们使用双目(两个摄像头)进行采样后,可以经过推理:只要计算出同一个物体在左右两张图片中的位置后,利用几何关系,结合两个摄像之间的距离、摄像机的焦距,就可以计算出物体距离计算机的深度了。

在上学期学习ECE565 计算机视觉与图像处理时,我有利用学习到的基础知识课余再去学习利用人脸的图像输入进行人脸识别

人脸识别中其中重要的一环是判断这个人是活体还是诸如照片等的死物。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

这个网络要求有3个输入,分别是人脸的RGB图像,深度图像以及红外拍摄的图像。

利用这些输入的图像,通过深度学习网络进行二分类,区分它是活体还是死物。

IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?

在学习了利用双目进行三维深度评估后,我想尝试把输入修改为双目摄像机拍摄的图像作为输入,构建一个深度学习网络对人脸上的关键点进行检测,让网络学习到这些关键点上深度信息的二分类阈值,从而达到区分活体和死物的能力。

如果能找到合适的训练集数据,我计划在2022春季开学前,工作之余抽出时间对这个思路进行落地:编码、训练、验证

从仅仅只听过“人工智能”“机器学习”“深度学习”这些名词,到目前有了基础知识和一些自学能力,我经历了四门课的学习这个期间我是收获满满的

从我修读IIT的这四门课程来看,授课形式包括了上课、作业、项目、演讲、期中考和期末考。

这期间,教授会带着我们一步一步地从基础慢慢深入,只要跟上教授的节奏,得到的学习成果会很不错

从目前我自己的情况来看,我是比较满意的。目前我的进度是2/5,距离毕业还有六门课需要修读,对于日后毕业时的我,我对自己还是非常期待的。

文章标题《IIT在读学员分享:我都学到了计算机视觉领域哪些硬核知识?》,转载请注明出处。如有错误或侵权,请联系zuoyan.li@beaconedu.com调整或删除。

进击的跃跃的头像进击的跃跃
Previous 2022年8月11日 下午8:24
Next 2022年8月15日

相关推荐