Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自定义数据微调格式 #71

Open
katie312 opened this issue Dec 18, 2024 · 7 comments
Open

自定义数据微调格式 #71

katie312 opened this issue Dec 18, 2024 · 7 comments

Comments

@katie312
Copy link

katie312 commented Dec 18, 2024

请问一下大佬们:
自定义数据集格式是这样吗?
├── images
├── labels
├── test.txt
└── train.txt

  1. train,test里面放图片路径,图片命名与label命名一致,前缀为类别,此处的前缀是需要被提取做预处理吗?

  2. specification_87213679_3680.pn.txt 与specification_87213679_3680.txt两种label有什么区别?看着内容是一致的

@JulioZhao97
Copy link
Collaborator

@katie312

  1. train.txt和test.txt中图片路径命名没有要求
  2. .txt中保存的是类别和位置,例如
c 左上x 左上y 右上x 右上y 右下x 右下y 左下x 左下y

@katie312
Copy link
Author

@katie312

  1. train.txt和test.txt中图片路径命名没有要求
  2. .txt中保存的是类别和位置,例如
c 左上x 左上y 右上x 右上y 右下x 右下y 左下x 左下y

了解,感谢! 应该是指对应比例值?我看里面的数值都是小于1的,比如:
0 0.03761574074074074 0.12827225130890052 0.30787037037037035 0.12827225130890052 0.30787037037037035 0.1880453752181501 0.03761574074074074 0.1880453752181501

另外想问一下.pn.txt和.txt 有什么区别呢?.pn.txt是训练的中间产物吗?

@JulioZhao97
Copy link
Collaborator

@katie312 我不知道哪里有.pn.txt?

@katie312
Copy link
Author

下载的D4LA数据集里面看到的

 /data/xxx/DocLayout-YOLO/layout_data/D4LA/labels# ls | grep specification_87213679_3680
specification_87213679_3680.pn.txt
specification_87213679_3680.txt

没事,如果不需要的话我就忽略啦,感谢!

@JulioZhao97
Copy link
Collaborator

@katie312 这个应该是D4LA原始数据中自带的,最好保留

@katie312
Copy link
Author

@katie312 这个应该是D4LA原始数据中自带的,最好保留

好的,我目前是在根据D4LA的数据结构来自定义自己的数据,自定义的话应该不需要添加?

@JulioZhao97
Copy link
Collaborator

@katie312 是的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants