Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

与Co-DETR的对比与结合以及大规模预训练 #1

Open
Artificial-Inability opened this issue Jul 17, 2024 · 1 comment
Open
Labels
question Further information is requested

Comments

@Artificial-Inability
Copy link

Question

您好,感谢您出色的工作!Relation DETR和Co DETR都是可以在DINO的基础上通过加入即插即用的模块提升较多性能,COCO 1x性能分别能达到51.7和52.1,请问你们有尝试过在Co DETR的框架基础上加入你们提出的模块吗,性能是否有进一步提升呢?
另一个问题是论文中仅提供了r50和swinL直接在COCO上训练的性能,Co-DETR使用VitL主干经过大规模预训练后在COCO上能达到66.0的性能,你们是否做了大规模预训练(如Obj365)后再在COCO上训练的实验或者用更大的主干训练的实验呢,性能怎么样?

补充信息

No response

@Artificial-Inability Artificial-Inability added the question Further information is requested label Jul 17, 2024
@xiuqhou
Copy link
Owner

xiuqhou commented Jul 17, 2024

Hi,感谢你的提问,这两个问题真是问到关键点上了!

第一个问题

  1. 我们自己并没有试过Co-DETR和relation的结合,主要是Co--ETR本身结合FastrRCNN和ATSS就已经比较复杂了。我更倾向于将Co-DETR作为一个成熟的sota方法,而不是一个更好的baseline。
  2. 另外RelationDETR是在我自己构建的一套框架中实现的,为了将relation与其他方法结合,需要重新整理实现其他方法的代码。本身我还有科研任务,可能没时间去一一尝试将relation与各种方法结合,尤其是像Co-DETR这种特别复杂的方法。
  3. 后续我出一个文档,说明如何将我们的方法与现有模型结合,就像DN-DETR提出的denoising机制那样,欢迎有兴趣的研究者自己探索我们的方法是否对Co-DETR有效!

第二个问题,其实我有想过冲一冲COCO-leaderboard,看看RelationDETR到底性能咋样,奈何组里只有8张3090+2张A800,实在没法跑O365预训练🤣我手头有一个结果可以供你参考:

  • 如果强行加载DINO-FocalLarge在O365上开源的权重(只能加载一部分匹配的权重),微调COCO 12轮可以达到62.1.

显然这只是个次优结果,如果能够和Co DETR保持相同的实验条件:

  • 完整在O365上做预训练
  • 用EVA02/VIT而不是FocalLarge做backbone
  • 加大输入的尺寸和数据增强
  • 加大COCO微调的轮次

我觉得是有机会达到和Co DETR接近的AP的。

除了性能,我们的优势在于其简单通用,没有在DINO上引入太多代码处理,很适合作为一个更好的baseline去进行更多扩充,例如引入rank-detr中的排序机制、ms-detr中基于阈值的一对多匹配,甚至也可以仿照CoDETR将FasterRCNN和ATSS模块引入进来。换言之他应该是有进一步的提升潜力。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants