百度西交大大数据菁英班目标检测竞赛

无凿 · 发表于 2022-12-10 17:19:26

数据介绍
数据集共包括40000张训练图像和1000张测试图像，每张训练图像对应 xml标注文件

共包含3类：0:&#39;head&#39;, 1:&#39;helmet&#39;, 2:&#39;person&#39; 提交格式要求，提交名为pred_result.txt的文件:每一行代表一个目标，每一行内容分别表示图像名置信度 xmin ymin xmax ymax 类别

限制只能使用paddle框架和aistudio平台运行代码
总体思路:
使用paddlex框架，模型选取ppyolov2模型
!pip install paddlex
import paddlex as pdx
from paddlex import transforms as T
#数据增强
train_transforms = T.Compose([
T.MixupImage(mixup_epoch=-1), T.RandomDistort(),
T.RandomExpand(im_padding_value=[123.675, 116.28, 103.53]), T.RandomCrop(),
T.RandomHorizontalFlip(), T.BatchRandomResize(
      target_sizes=[192, 224, 256, 288, 320, 352, 384, 416, 448, 480, 512],
      interp=&#39;RANDOM&#39;), T.Normalize(
         mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

eval_transforms = T.Compose([
T.Resize(
      target_size=320, interp=&#39;CUBIC&#39;), T.Normalize(
         mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
import os

f = open(&#34;work/total.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;)
for i in os.listdir(&#34;work/helmet/train/images/&#34;):
voc = &#34;annotations/&#34; + i[:-3] + &#34;xml&#34;
f.write(&#34;images/&#34; + i + &#34;\t&#34; + voc + &#34;\n&#34;)
f.close()

# 最后一行是错误格式，手动删除
f = open(&#34;work/test.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;)
for i in os.listdir(&#34;work/helmet/test/images/&#34;):
voc = &#34;annotations/&#34; + i[:-3] + &#34;xml&#34;
f.write(&#34;images/&#34; + i + &#34;\t&#34; + voc + &#34;\n&#34;)
f.close()
from sklearn.utils import shuffle

f = open(&#34;work/total.txt&#34;, &#34;r&#34;, encoding=&#34;utf-8&#34;)
total = f.readlines()

ratio = 0.9
total = shuffle(total, random_state = 100)
train_len = int(len(total) * ratio)

train = total[:train_len]
val = total[train_len:]

f1 = open(&#34;work/train.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;)
for i in train:
f1.write(i)
f1.close()

f2 = open(&#34;work/val.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;)
for i in val:
f2.write(i)
f2.close()

f.close()
# 手动创建label.txt
#数据导入
train_dataset = pdx.datasets.VOCDetection(
data_dir=&#39;work/helmet/train/&#39;,
file_list=&#39;work/train.txt&#39;,
label_list=&#39;work/label.txt&#39;,
transforms=train_transforms,
shuffle=True)

test_dataset = pdx.datasets.VOCDetection(
data_dir=&#39;work/helmet/test/&#39;,
file_list=&#39;work/test.txt&#39;,
label_list=&#39;work/label.txt&#39;,
transforms=eval_transforms)

eval_dataset = pdx.datasets.VOCDetection(
data_dir=&#39;work/helmet/train/&#39;,
file_list=&#39;work/val.txt&#39;,
label_list=&#39;work/label.txt&#39;,
transforms=eval_transforms)
# 在训练集上聚类生成9个anchor
anchors = train_dataset.cluster_yolo_anchor(num_anchors=9, image_size=608)
anchor_masks = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]
#开始训练
num_classes = len(train_dataset.labels)
model = pdx.det.PPYOLOv2(num_classes=num_classes,
                     backbone=&#39;ResNet101_vd_dcn&#39;,
                     anchors=anchors,
                     anchor_masks=anchor_masks,
                     label_smooth=True)
model.train(
num_epochs=100,
train_dataset=train_dataset,
train_batch_size=8,
eval_dataset=eval_dataset,
pretrain_weights=&#39;COCO&#39;,
learning_rate=0.005 / 12,
warmup_steps=500,
warmup_start_lr=0.0,
save_interval_epochs=5,
# lr_decay_epochs=[25, 75],
save_dir=&#39;output1/&#39;,
use_vdl=False,
early_stop=True,
early_stop_patience=5)
# 使用之前最好的模型继续训练
model.train(
num_epochs=100,
train_dataset=train_dataset,
train_batch_size=8,
eval_dataset=eval_dataset,
# pretrain_weights=&#39;COCO&#39;,
learning_rate=0.005 / 12,
warmup_steps=500,
warmup_start_lr=0.0,
save_interval_epochs=5,
# lr_decay_epochs=[25, 75],
save_dir=&#39;output2/&#39;,
pretrain_weights=&#39;output1/best_model/model.pdparams&#39;,
use_vdl=False,
early_stop=True,
early_stop_patience=5)
# 导入最好的模型，评估模型效果
model = pdx.load_model(&#34;output1/best_model&#34;)
model.evaluate(eval_dataset, batch_size=8, metric=None, return_details=False)
# 模型推理，生成的两个文本文件就是最终提交的结果
image_dirs = &#39;work/helmet/test/images/&#39;
f1 = open(&#34;work/pred_result1.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;) # 只写阈值大于0.5的
f2 = open(&#34;work/pred_result2.txt&#34;, &#34;w&#34;, encoding=&#34;utf-8&#34;) # 全部写
for image_name in os.listdir(image_dirs):
result = model.predict(image_dirs + image_name)
for i in range(len(result)):
      xmin, ymin = int(result[&#39;bbox&#39;][0]), int(result[&#39;bbox&#39;][1])
      xmax, ymax = int(xmin + result[&#39;bbox&#39;][2]), int(ymin + result[&#39;bbox&#39;][3])
      if result[&#39;score&#39;] >= 0.5:
         f1.write(image_name[:-4] + &#34; &#34; + str(result[&#39;score&#39;]) + &#34; &#34; + str(xmin) + &#34; &#34; + str(ymin) + &#34; &#34; + str(xmax) + &#34; &#34; + str(ymax) \
         + &#34; &#34; + str(result[&#39;category_id&#39;]) + &#34;\n&#34;)
      f2.write(image_name[:-4] + &#34; &#34; + str(result[&#39;score&#39;]) + &#34; &#34; + str(xmin) + &#34; &#34; + str(ymin) + &#34; &#34; + str(xmax) + &#34; &#34; + str(ymax) \
         + &#34; &#34; + str(result[&#39;category_id&#39;]) + &#34;\n&#34;)
f1.close()
f2.close()
最终mAP值达到62.77648。后续可以使用PaddleDetection框架进行优化，选取其中的ppyoloplus模型或者PaddleYOLO框架中的yolov5、yolov6、yolox、yolov7模型。ppyoloplus模型优化后的效果可以达到65%以上。