武汉视觉工程师面试培训

4个回答默认排序

默认排序

按时间排序

abc123459876

已采纳

一面(技术面)： 1、相机外参，相机内参 2、分水岭算法 3、目标检测了解吗 4、3D这块有了解吗 5、论文是你写的吗 6、介绍一下图像分割 7、Deeplab v1, v2, v3, v3+ 8、U-net后续改进 9、Non-local 10、经典三维重建公式 11、分割常用backbone

二面(技术面)： 1、数据增强方法 2、dropout方法 3、图像分割常见深度学习方法 4、简单介绍一下三维重建项目，平行还是stereo，如何估计的depth map 5、deep lab v3与deep lab v3+的区别 6、深度可分离卷积介绍，输入输出，channel数 7、为什么mobile net要用深度可分离卷积 8、数据集imbalance如何处理 9、常见的图像分割损失函数 10、iou能作为损失函数吗 11、linux 下shell命令行开发熟悉吗 12、组里以发论文为主，写论文的意愿 13、相机内外参 14、现在大几，可实习到什么时候 15、希望自驱性比较高

三面(hr面) 因为是日常实习岗不是校招所以没有...

总结二次面试过程中我都有些太随意了，有过一些打断面试小姐姐说话的举动，谢谢说的比较少，中间不舒服还活动了下嗓子...还好问的问题比较简单最后过了。

武汉视觉工程师面试培训

91 评论（8） 1小时前发布

伯妮新娘

参考：

反卷积也称为转置卷积，如果用矩阵乘法实现卷积操作，将卷积核平铺为矩阵，则转置卷积在正向计算时左乘这个矩阵的转置WT，在反向传播是左乘W，与卷积操作刚好相反，需要注意的是，反卷积不是卷积的逆运算。 [知乎问题+caffe实现]

实现上采样；近似重构输入图像，卷积层可视化。

只要激活函数选择得当，神经元的数量足够，至少有一个隐含层的神经网络可以逼近闭区间上任意一个连续函数到任意指定的精度。

判别模型，直接输出类别标签，或者输出类后验概率p(y|x) [ ] [ ] [ ]

BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值方差.

检测结果与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU

内存/显存占用；模型收敛速度等

Hessian矩阵是n*n，在高维情况下这个矩阵非常大，计算和存储都是问题。

mini-batch太小会导致收敛变慢，太大容易陷入sharp minima，泛化性不好。

可以把dropout看成是一种ensemble方法，每次做完dropout相当于从原网络中找到一个更瘦的网络。

pooling操作虽然能增大感受野，但是会丢失一些信息。空洞卷积在卷积核中插入权重为0的值，因此每次卷积中会skip掉一些像素点；

空洞卷积增大了卷积输出每个点的感受野，并且不像pooling会丢失信息，在图像需要全局信息或者需要较长sequence依赖的语音序列问题上有着较广泛的应用。

表达式为：

使用BN的原因是网络训练中每一层不断改变的参数会导致后续每一层输入的分布发生变化，而学习的过程又要使每一层去适应输入的分布，因此不得不降低网络的学习率，并且要小心得初始化（internal covariant shift）如果仅通过归一化方法使得数据具有零均值和单位方差，则会降低层的表达能力（如使用Sigmoid函数时，只使用线性区域） BN的具体过程（注意第三个公式中分母要加上epsilon）

最好的解释是通过1 * 1卷积核能实现多个channel间的解耦合，解耦cross-channel correlation和spatial correlation。【但是因为解耦不彻底，因此后续有了mobile net的组卷积方式和shuffle net组卷积方式】

由于 1×1 并不会改变 height 和 width，改变通道的第一个最直观的结果，就是可以将原本的数据量进行增加或者减少。改变的只是 height × width × channels 中的 channels 这一个维度的大小而已。

1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。

备注：一个filter对应卷积后得到一个feature map，不同的filter(不同的weight和bias)，卷积以后得到不同的feature map，提取不同的特征，得到对应的specialized neuron。

例子：使用1x1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x3，64channels的卷积核后面添加一个1x1，28channels的卷积核，就变成了3x3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互

注意：只是在channel维度上做线性组合，W和H上是共享权值的sliding window

并不能说明这个模型无效导致模型不收敛的原因可能有

A. 在实际场景下，应尽量使用ADAM，避免使用SGD B. 同样的初始学习率情况下，ADAM的收敛速度总是快于SGD方法 C. 相同超参数数量情况下，比起自适应的学习率调整方式，SGD加手动调节通常会取得更好效果 D. 同样的初始学习率情况下，ADAM比SGD容易过拟合

A.保证每一层的感受野不变，网络深度加深，使得网络的精度更高 B.使得每一层的感受野增大，学习小特征的能力变大 C.有效提取高层语义信息，且对高层语义进行加工，有效提高网络准确度 D.利用该结构有效减轻网络的权重

A.计算简单 B.非线性 C.具有饱和区 D.几乎处处可微【relu函数在0处是不可微的。】

的收敛速度比RMSprop慢 B.相比于SGD或RMSprop等优化器，Adam的收敛效果是最好的 C.对于轻量级神经网络，使用Adam比使用RMSprop更合适 D.相比于Adam或RMSprop等优化器，SGD的收敛效果是最好的【SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠。如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。】

A.使用ReLU做为激活函数，可有效地防止梯度爆炸 B.使用Sigmoid做为激活函数，较容易出现梯度消失 C.使用Batch Normalization层，可有效的防止梯度爆炸 D.使用参数weight decay，在一程度上可防止模型过拟合

对结果存疑。认为二者皆可防止。

L-BFGS（Limited-memory BFGS，内存受限拟牛顿法）方法：所有的数据都会参与训练，算法融入方差归一化和均值归一化。大数据集训练DNN，容易参数量过大 (牛顿法的进化版本，寻找更好的优化方向，减少迭代轮数）从LBFGS算法的流程来看，其整个的核心的就是如何快速计算一个Hesse的近似：重点一是近似，所以有了LBFGS算法中使用前m个近似下降方向进行迭代的计算过程；重点二是快速，这个体现在不用保存Hesse矩阵上，只需要使用一个保存后的一阶导数序列就可以完成，因此不需要大量的存储，从而节省了计算资源；重点三，是在推导中使用秩二校正构造了一个正定矩阵，即便这个矩阵不是最优的下降方向，但至少可以保证函数下降。 FTRL(Follow-the-regularized-Leader)是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法，方便实用，而且效果很好，常用于更新在线的CTR预估模型；FTRL在处理带非光滑正则项（如L1正则）的凸优化问题上表现非常出色，不仅可以通过L1正则控制模型的稀疏度，而且收敛速度快；

在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题相比于全连接的优势之一是模型复杂度低，缓解过拟合 C.只要参数设置合理，深度学习的效果至少应优于随机算法 D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题

实际上，现在有很多针对小目标的措施和改良，如下：

最常见的是Upsample来Rezie网络输入图像的大小；

用dilated/astrous等这类特殊的卷积来提高检测器对分辨率的敏感度；（空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。利用添加空洞扩大感受野，让原本3 x3的卷积核，在相同参数量和计算量下拥有5x5（dilated rate =2）或者更大的感受野，从而无需下采样。在保持参数个数不变的情况下增大了卷积核的感受野）

有比较直接的在浅层和深层的Feature Map上直接各自独立做预测的，这个就是我们常说的尺度问题。

用FPN这种把浅层特征和深层特征融合的，或者最后在预测的时候，用浅层特征和深层特征一起预测；

SNIP（Scale Normalization for Image Pyramids）主要思路：

在训练和反向传播更新参数时，只考虑那些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法。

299 评论（15） 6小时前发布

缌喵喵喵

视觉工程师需要的技能如下：

1、图像处理技术、图像识别、物体检测和视觉识别知识。

2、了解深度学习神经网络架构（ANN、CNN、RNN、Transformers、Autoencoders）及其在解决计算机视觉问题中的应用。

3、具有使用 R/Python/Matlab 等编程语言进行编程的能力。

4、深入了解数据结构和算法。

5、扎实的数学和统计学基础。

6、必须能够从数据集中得出有见地的结论并以有组织的方式呈现它们。

7、良好的沟通技巧。

8、使用机器学习和深度学习算法解决计算机视觉中复杂的现实世界问题的先前经验。

228 评论（10） 10小时前发布

snowberry911

任何工作工资都是根据你创造的价值来衡量，有拿6~7K，有拿1万2~5的，也有2万的。

整个机器视觉的行业前景来说是可以的，如果你想学，就认真思考一下，只是想拿那点固定工资就可以还是准备在这个行业持续发展。

要说培训，培训肯定学起来比较快，学的也专业，有什么不懂的可以问老师，还可以结交一帮优秀的师兄弟。

市场上培训机构太多了，水平参差不齐，最好去实地看一下，多选几家做个对比。

别的不清楚，也不诋毁谁，我是18年在联为智能教育学的机器视觉，自我感觉还行，至少还是真材实料，老师也负责，耐心指导。全日制，三个月。不得不提的是还有个篮球场，可以跟老师打篮球。整体说还可以。有兴趣的朋友可以去实地看一下。

315 评论（12） 10小时前发布

武汉视觉工程师面试培训

4个回答 默认排序 默认排序 按时间排序

相关问答

工程师考试

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序