wokaikaixinxin
diff --git a/‎projects/rotated_dino/configs/rotated_dino_4scale_r50_2xb4_12e_dior.py‎
Lines changed: 170 additions & 0 deletions b/‎projects/rotated_dino/configs/rotated_dino_4scale_r50_2xb4_12e_dior.py‎
Lines changed: 170 additions & 0 deletions
diff --git a/‎projects/rotated_dino/configs/rotated_dino_4scale_r50_2xb4_12e_dota.py‎
Lines changed: 170 additions & 0 deletions b/‎projects/rotated_dino/configs/rotated_dino_4scale_r50_2xb4_12e_dota.py‎
Lines changed: 170 additions & 0 deletions
@@ -0,0 +1,170 @@
+from torch.optim.adamw import AdamW
+from mmengine.config import read_base
+from mmengine.runner.loops import EpochBasedTrainLoop, TestLoop, ValLoop
+from mmengine.optim.scheduler import MultiStepLR
+from mmengine.optim.optimizer import OptimWrapper
+from mmdet.models.data_preprocessors import DetDataPreprocessor
+from mmdet.models.backbones import ResNet
+from mmdet.models.necks import ChannelMapper
+from mmdet.models.losses import FocalLoss, L1Loss
+from mmdet.models.task_modules import FocalLossCost, HungarianAssigner
+from ai4rs.models.losses import GDLoss
+from projects.rotated_dino.rotated_dino import RotatedDINO
+from projects.rotated_dino.rotated_dino.match_cost import RBoxL1Cost, GDCost
+from projects.rotated_dino.rotated_dino.rotated_dino_head import RotatedDINOHead
+
+with read_base():
+    from configs._base_.datasets.dior import *
+    from configs._base_.default_runtime import *
+
+
+angle_cfg = dict(
+    width_longer=True,
+    start_angle=0,
+)
+angle_factor=3.1415926535897932384626433832795
+
+model = dict(
+    type=RotatedDINO,
+    num_queries=900,  # num_matching_queries
+    with_box_refine=True,
+    as_two_stage=True,
+    data_preprocessor=dict(
+        type=DetDataPreprocessor,
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        bgr_to_rgb=True,
+        pad_size_divisor=1,
+        boxtype2tensor=False),
+    backbone=dict(
+        type=ResNet,
+        depth=50,
+        num_stages=4,
+        out_indices=(1, 2, 3),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=False),
+        norm_eval=True,
+        style='pytorch',
+        init_cfg=dict(type='Pretrained', checkpoint='torchvision://resnet50')),
+    neck=dict(
+        type=ChannelMapper,
+        in_channels=[512, 1024, 2048],
+        kernel_size=1,
+        out_channels=256,
+        act_cfg=None,
+        norm_cfg=dict(type='GN', num_groups=32),
+        num_outs=4),
+    encoder=dict(
+        num_layers=6,
+        layer_cfg=dict(
+            self_attn_cfg=dict(embed_dims=256, num_levels=4,
+                               dropout=0.0),  # 0.1 for DeformDETR
+            ffn_cfg=dict(
+                embed_dims=256,
+                feedforward_channels=2048,  # 1024 for DeformDETR
+                ffn_drop=0.0))),  # 0.1 for DeformDETR
+    decoder=dict(
+        num_layers=6,
+        return_intermediate=True,
+        angle_factor=angle_factor,
+        layer_cfg=dict(
+            self_attn_cfg=dict(embed_dims=256, num_heads=8,
+                               dropout=0.0),  # 0.1 for DeformDETR
+            cross_attn_cfg=dict(embed_dims=256, num_levels=4,
+                                dropout=0.0),  # 0.1 for DeformDETR
+            ffn_cfg=dict(
+                embed_dims=256,
+                feedforward_channels=2048,  # 1024 for DeformDETR
+                ffn_drop=0.0)),  # 0.1 for DeformDETR
+        post_norm_cfg=None),
+    positional_encoding=dict(
+        num_feats=128,
+        normalize=True,
+        offset=0.0,  # -0.5 for DeformDETR
+        temperature=20),  # 10000 for DeformDETR
+    bbox_head=dict(
+        type=RotatedDINOHead,
+        num_classes=20,
+        angle_cfg=angle_cfg,
+        angle_factor=angle_factor,
+        sync_cls_avg_factor=True,
+        loss_cls=dict(
+            type=FocalLoss,
+            use_sigmoid=True,
+            gamma=2.0,
+            alpha=0.25,
+            loss_weight=1.0),  # 2.0 in DeformDETR
+        loss_bbox=dict(type=L1Loss, loss_weight=5.0),
+        loss_iou=dict(
+            type=GDLoss,
+            loss_type='kld',
+            fun='log1p',
+            tau=1,
+            sqrt=False,
+            loss_weight=2.0)),
+    dn_cfg=dict(  # TODO: Move to model.train_cfg ?
+        label_noise_scale=0.5,
+        box_noise_scale=1.0,  # 0.4 for DN-DETR
+        angle_cfg=angle_cfg,
+        angle_factor=angle_factor,
+        noise_mode='only_xyxy',  # 'only_xyxy', 'only_angle', 'only_xywh', 'all_xyxya'
+        group_cfg=dict(dynamic=True, num_groups=None,
+                       num_dn_queries=100)),  # TODO: half num_dn_queries
+    # training and testing settings
+    train_cfg=dict(
+        assigner=dict(
+            type=HungarianAssigner,
+            match_costs=[
+                dict(type=FocalLossCost, weight=2.0),
+                dict(
+                    type=RBoxL1Cost,
+                    weight=5.0,
+                    box_format='xywha',
+                    angle_factor=angle_factor),
+                dict(
+                    type=GDCost,
+                    loss_type='kld',
+                    fun='log1p',
+                    tau=1,
+                    sqrt=False,
+                    weight=2.0)
+            ])),
+    test_cfg=dict(max_per_img=500))  # 100 for DeformDETR
+
+# optimizer
+optim_wrapper = dict(
+    type=OptimWrapper,
+    optimizer=dict(
+        type=AdamW,
+        lr=0.0001,  # 0.0002 for DeformDETR
+        weight_decay=0.0001),
+    clip_grad=dict(max_norm=0.1, norm_type=2),
+    paramwise_cfg=dict(custom_keys={'backbone': dict(lr_mult=0.1)})
+)  # custom_keys contains sampling_offsets and reference_points in DeformDETR  # noqa
+
+# learning policy
+max_epochs = 12
+train_cfg = dict(
+    type=EpochBasedTrainLoop, max_epochs=max_epochs, val_interval=2)
+val_cfg = dict(type=ValLoop)
+test_cfg = dict(type=TestLoop)
+
+param_scheduler = [
+    dict(
+        type=MultiStepLR,
+        begin=0,
+        end=max_epochs,
+        by_epoch=True,
+        milestones=[11],
+        gamma=0.1)
+]
+
+# dataset settings
+train_dataloader.update(batch_size=4, num_workers=4)
+val_dataloader.update(batch_size=4, num_workers=4)
+test_dataloader.update(batch_size=4, num_workers=4)
+
+# NOTE: `auto_scale_lr` is for automatically scaling LR,
+# USER SHOULD NOT CHANGE ITS VALUES.
+# base_batch_size = (2 GPUs) x (4 samples per GPU)
+auto_scale_lr = dict(base_batch_size=8, enable=False)
@@ -0,0 +1,170 @@
+from torch.optim.adamw import AdamW
+from mmengine.config import read_base
+from mmengine.runner.loops import EpochBasedTrainLoop, TestLoop, ValLoop
+from mmengine.optim.scheduler import MultiStepLR
+from mmengine.optim.optimizer import OptimWrapper
+from mmdet.models.data_preprocessors import DetDataPreprocessor
+from mmdet.models.backbones import ResNet
+from mmdet.models.necks import ChannelMapper
+from mmdet.models.losses import FocalLoss, L1Loss
+from mmdet.models.task_modules import FocalLossCost, HungarianAssigner
+from ai4rs.models.losses import GDLoss
+from projects.rotated_dino.rotated_dino import RotatedDINO
+from projects.rotated_dino.rotated_dino.match_cost import RBoxL1Cost, GDCost
+from projects.rotated_dino.rotated_dino.rotated_dino_head import RotatedDINOHead
+
+with read_base():
+    from configs._base_.datasets.dota import *
+    from configs._base_.default_runtime import *
+
+
+angle_cfg = dict(
+    width_longer=True,
+    start_angle=0,
+)
+angle_factor=3.1415926535897932384626433832795
+
+model = dict(
+    type=RotatedDINO,
+    num_queries=900,  # num_matching_queries
+    with_box_refine=True,
+    as_two_stage=True,
+    data_preprocessor=dict(
+        type=DetDataPreprocessor,
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        bgr_to_rgb=True,
+        pad_size_divisor=1,
+        boxtype2tensor=False),
+    backbone=dict(
+        type=ResNet,
+        depth=50,
+        num_stages=4,
+        out_indices=(1, 2, 3),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=False),
+        norm_eval=True,
+        style='pytorch',
+        init_cfg=dict(type='Pretrained', checkpoint='torchvision://resnet50')),
+    neck=dict(
+        type=ChannelMapper,
+        in_channels=[512, 1024, 2048],
+        kernel_size=1,
+        out_channels=256,
+        act_cfg=None,
+        norm_cfg=dict(type='GN', num_groups=32),
+        num_outs=4),
+    encoder=dict(
+        num_layers=6,
+        layer_cfg=dict(
+            self_attn_cfg=dict(embed_dims=256, num_levels=4,
+                               dropout=0.0),  # 0.1 for DeformDETR
+            ffn_cfg=dict(
+                embed_dims=256,
+                feedforward_channels=2048,  # 1024 for DeformDETR
+                ffn_drop=0.0))),  # 0.1 for DeformDETR
+    decoder=dict(
+        num_layers=6,
+        return_intermediate=True,
+        angle_factor=angle_factor,
+        layer_cfg=dict(
+            self_attn_cfg=dict(embed_dims=256, num_heads=8,
+                               dropout=0.0),  # 0.1 for DeformDETR
+            cross_attn_cfg=dict(embed_dims=256, num_levels=4,
+                                dropout=0.0),  # 0.1 for DeformDETR
+            ffn_cfg=dict(
+                embed_dims=256,
+                feedforward_channels=2048,  # 1024 for DeformDETR
+                ffn_drop=0.0)),  # 0.1 for DeformDETR
+        post_norm_cfg=None),
+    positional_encoding=dict(
+        num_feats=128,
+        normalize=True,
+        offset=0.0,  # -0.5 for DeformDETR
+        temperature=20),  # 10000 for DeformDETR
+    bbox_head=dict(
+        type=RotatedDINOHead,
+        num_classes=15,
+        angle_cfg=angle_cfg,
+        angle_factor=angle_factor,
+        sync_cls_avg_factor=True,
+        loss_cls=dict(
+            type=FocalLoss,
+            use_sigmoid=True,
+            gamma=2.0,
+            alpha=0.25,
+            loss_weight=1.0),  # 2.0 in DeformDETR
+        loss_bbox=dict(type=L1Loss, loss_weight=5.0),
+        loss_iou=dict(
+            type=GDLoss,
+            loss_type='kld',
+            fun='log1p',
+            tau=1,
+            sqrt=False,
+            loss_weight=2.0)),
+    dn_cfg=dict(  # TODO: Move to model.train_cfg ?
+        label_noise_scale=0.5,
+        box_noise_scale=1.0,  # 0.4 for DN-DETR
+        angle_cfg=angle_cfg,
+        angle_factor=angle_factor,
+        noise_mode='only_xyxy', # 'only_xyxy', 'only_angle', 'only_xywh', 'all_xyxya'
+        group_cfg=dict(dynamic=True, num_groups=None,
+                       num_dn_queries=100)),  # TODO: half num_dn_queries
+    # training and testing settings
+    train_cfg=dict(
+        assigner=dict(
+            type=HungarianAssigner,
+            match_costs=[
+                dict(type=FocalLossCost, weight=2.0),
+                dict(
+                    type=RBoxL1Cost,
+                    weight=5.0,
+                    box_format='xywha',
+                    angle_factor=angle_factor),
+                dict(
+                    type=GDCost,
+                    loss_type='kld',
+                    fun='log1p',
+                    tau=1,
+                    sqrt=False,
+                    weight=2.0)
+            ])),
+    test_cfg=dict(max_per_img=500))  # 100 for DeformDETR
+
+# optimizer
+optim_wrapper = dict(
+    type=OptimWrapper,
+    optimizer=dict(
+        type=AdamW,
+        lr=0.0001,  # 0.0002 for DeformDETR
+        weight_decay=0.0001),
+    clip_grad=dict(max_norm=0.1, norm_type=2),
+    paramwise_cfg=dict(custom_keys={'backbone': dict(lr_mult=0.1)})
+)  # custom_keys contains sampling_offsets and reference_points in DeformDETR  # noqa
+
+# learning policy
+max_epochs = 12
+train_cfg = dict(
+    type=EpochBasedTrainLoop, max_epochs=max_epochs, val_interval=2)
+val_cfg = dict(type=ValLoop)
+test_cfg = dict(type=TestLoop)
+
+param_scheduler = [
+    dict(
+        type=MultiStepLR,
+        begin=0,
+        end=max_epochs,
+        by_epoch=True,
+        milestones=[11],
+        gamma=0.1)
+]
+
+# dataset settings
+train_dataloader.update(batch_size=4, num_workers=4)
+val_dataloader.update(batch_size=4, num_workers=4)
+test_dataloader.update(batch_size=4, num_workers=4)
+
+# NOTE: `auto_scale_lr` is for automatically scaling LR,
+# USER SHOULD NOT CHANGE ITS VALUES.
+# base_batch_size = (2 GPUs) x (4 samples per GPU)
+auto_scale_lr = dict(base_batch_size=8, enable=False)