论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

2018 年 12 月 28 日

2788 次浏览

3179字数

题目：ModaNet: A Large-Scale Street Fashion Dataset with Polygon Annotations - 2018
作者：Shuai Zheng，Fan Yang，M. Hadi Kiapour，Robinson Piramuthu
团队：eBay Inc.

论文主要是介绍了构建的大规模街拍服装图像数据集. 可用于语义分割，实例分割和目标检测等任务.

ModaNet 基于多边形标注的大规模街拍服装数据集 - AIUAI

1. ModaNet 数据集

1.1. 数据集标注

[1] - 首先从 PaperDoll 数据集中收集了一百万(1 million) 张图像.

[2] - 然后，采用在 COCO 数据集上预训练的 Faster R-CNN 模型，检测出图片中只有一个人 的图像，以仅收集单个人的图像.

[3] - 对于所选择的图像中的初始数据集，进一步手工筛选 2000 张由于图片质量低而不适合进行标注的图片，以及 2000 张高质量的图片用于进行标注.

对于这 4000 张图片，采用 ImageNet 上预训练的 ResNet50 模型，并 finetune 模型最后一层，以作为图片质量的分类器.

然后，将分类器对初始数据集中全部图像进行分类，以选取高质量且只包含单个人的图片. 因此，有效的减少了手工标注者所标注的低质量图片量.

[4] - 将筛选出的图片送于手工标注者进行打标.

1.2. 数据集统计

ModaNet 数据集共包含 13 个服饰类别：bag, belt, boots, footwear, outer, dress, sunglasses, pants, top, shorts, skirt, headwear, scarf&tie.

如下：

标注结果如：

标注的数据分布统计：

1.3. 与其它服饰数据集对比

DeepFashion - DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. CVPR - 2016

CFPD - Fashion Parsing With Weak Color-Category Labels. IEEE Trans. Multimedia - 2014

CCP - Clothing Co-parsing by Joint Image Segmentation and Labeling. CVPR - 2014

Fashionista - Parsing clothing in fashion photographs. CVPR - 2012

HPW - Deep Human Parsing with Active Template Regression - 2015

2. ModaNet 应用场景

2.1. 服饰目标检测

服饰目标检测，其可以定位服饰单品的位置bbox，并给出 bbox 的服饰类别. 还可进一步应用于搜索与商品推荐.

2.1.1. 服饰 Groundtruth bbox 生成

在对图像进行了像素级和多边形标注后，可以很方便地推断出训练图片的边界框.

这里，采用从多边形标注数据生成的边界框作为边界信息. 处理后，将整个数据集划分为训练数据集(52337 张图片)和验证数据集(2799 张图片). 保证了验证集内每个类别至少包含 500 个实例.

2.1.2. 不同服饰检测方法对比

对于数据集采用了 Faster RCNN(基础网络 Inception-ResNet), SSD(基于 InceptionV2) 和 YOLO(基于 InceptionV2) 三种模型，训练目标检测器.

目标检测器结果对比：

2.2. 服饰语义分割

服饰语义分割，是对图像中服饰的像素级理解.

2.2.1. 服饰 Groundtruth segmentation

基于图片的多边形标注，可以生成图像的像素级标注.

对于覆盖了单个目标的多边形标注，可以直接转换为对应的像素级标注.

处理后，将整个数据集划分为训练数据集(52337 张图片)和验证数据集(2799 张图片).

2.2.2. 不同服饰分割方法对比

采用了 FCNs, CRFasRNN 和 DeepLabv3+ 语义分割方法.

FCNs，基于 VGG+BN 和 Caffe 框架(https://github.com/shelhamer/fcn.berkeleyvision.org).

CRFasRNN，基于 Caffe 框架(https://github.com/torrvision/crfasrnn).

DeepLabv3+，基于TensorFlow 框架和 ImageNet 预训练的 Xception-65 模型(https://github.com/tensorflow/models/tree/master/research/deeplab).

不同语义分割方法结果对比：

2.3. 服饰多边形预测及颜色属性预测原型

服饰多边形预测 - PolygonRNN 和 Polygon-RNN++ 方法.

服饰语义分割的一个应用是，预测给定服饰商品的颜色属性名. 首先对服饰进行语义分割，然后对于分割的每块求取颜色平均 RGB 值，并映射到细分类的颜色命名空间. 方法原型预测结果如：

论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

AIHGF • 2018 年 12 月 28 日

1. ModaNet 数据集

1.1. 数据集标注

1.2. 数据集统计

1.3. 与其它服饰数据集对比

2. ModaNet 应用场景

2.1. 服饰目标检测

2.1.1. 服饰 Groundtruth bbox 生成

2.1.2. 不同服饰检测方法对比

2.2. 服饰语义分割

2.2.1. 服饰 Groundtruth segmentation

2.2.2. 不同服饰分割方法对比

2.3. 服饰多边形预测及颜色属性预测原型

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款