https://www.kaggle.com/competitions/blood-vessel-segmentation/data
위 링크의 내용을 정리한 것입니다.
Dataset Description(데이터셋 설명)
이 대회 데이터 세트는 여러 신장의 고해상도 3D 이미지와 혈관 구조의 3D 분할 마스크로 구성됩니다. 여러분의 과제는 테스트 세트의 신장 데이터 세트에 대한 분할 마스크를 생성하는 것입니다.
신장 이미지는 계층적 위상 대비 단층 촬영(HiP-CT) 영상을 통해 얻었습니다. HiP-CT는 생체 외 장기에서 고해상도(1.4마이크로미터~50마이크로미터 해상도) 3D 데이터를 얻는 이미징 기법입니다. 자세한 내용은 Nature Methods 기사를 참조하세요.
File and Field Information(파일과 필드 정보)
train/{dataset}/images - 여러 신장 데이터셋의 TIFF 스캔이 포함되어 있습니다. 각 이미지는 3D 볼륨의 2D 슬라이스를 나타냅니다. 슬라이스는 Z축을 따라 실행되며 파일은 위에서 아래로 열거됩니다. (즉, 슬라이스는 수직 또는 깊이 방향으로 쌓아야 합니다.)
- densely 분할되었다면 연속된 이미지의 유사도는 늘어날 것입니다.
- 데이터 셋마다 해상도가 다릅니다. 해상도가 변경되면서 달라지는 것이 무엇일까요?
train/{dataset}/labels - 이미지에 대한 혈관 분할 마스크가 TIFF 형식으로 포함되어 있습니다.
{dataset} 폴더는 다음과 같이 구성됩니다:
- kidney_1_dense - 50um 해상도의 오른쪽 신장 전체. 전체 3D 동맥 혈관 트리는 사구체(즉, 모세혈관층)에서 2세대까지 조밀하게 분할되었습니다. 빔라인 BM05(beamline BM05) 사용.
- kidney_1_voi - 5.2um 해상도의 kidney_1의 고해상도 하위 집합입니다.
- kidney_2 - 다른 기증자의 신장 전체, 50um 해상도. 드문드문(sparsely) 분할됨(약 65%).
- kidney_3_dense - BM05를 사용한 50.16um 해상도의 신장 일부(500 슬라이스)입니다. 조밀하게 분할되었습니다. kidney_3에 대한 모든 이미지는 kidney_3_sparse/images 폴더에 제공됩니다. 따라서 이 데이터 세트에는 레이블 폴더만 있습니다.
- kidney_3_sparse - kidney_3에 대한 나머지 세분화 마스크입니다. 드물게 세분화됨(약 85%).
test/{dataset}/images - 테스트 세트에 대한 TIFF 스캔을 포함합니다. 이러한 스캔은 훈련 세트에 사용된 스캔과 다른 빔라인 또는 해상도를 사용할 수도 있고 사용하지 않을 수도 있습니다. 데이터 세트의 이름은 kidney_5 및 kidney_6입니다.
train_rles.csv - 훈련 세트의 이미지에 대한 실행 길이 인코딩된(RLE) 세그먼테이션 마스크입니다.
- id - 슬라이스에 대한 고유 식별자, 다음과 같은 형식입니다 {dataset}_{slice}.
- rle - 이 슬라이스의 실행 길이 인코딩 마스크(RLE)입니다.
sample_submission.csv - 올바른 형식의 샘플 제출 파일입니다. 자세한 내용은 평가 페이지를 참조하세요.
이 노트북에서 세그멘테이션 마스크를 인코딩하고 디코딩하는 함수를 찾을 수 있습니다.
이 대회는 코드 경연대회라는 점에 유의합시다. 제출물을 작성하는 데 도움이 되도록 test/ 폴더에 몇 가지 예제 이미지가 제공됩니다. 이러한 예제 이미지는 스캔 해상도, 빔라인 또는 기타 품질과 관련하여 테스트 세트를 대표하지 않습니다. 제출물이 채점되면 이 예제 테스트 데이터는 전체 테스트 세트로 대체됩니다. 전체 테스트 세트에는 약 1,500개의 TIFF 이미지가 포함되어 있습니다.
(추가 사항 업데이트)UPDATE ON DATA 11th DEC
Hi All Kagglers,
지난 몇 주 동안의 진행 상황을 지켜보는 것은 정말 즐거웠습니다. 대회에서 몇 가지 사항을 확인하고 토론을 주의 깊게 지켜본 결과, 두 개의 숨겨진 데이터 세트, 즉 공개 및 비공개 테스트 데이터 세트에 대해 더 많은 정보를 제공하는 것이 합리적이라고 판단했습니다:
Public Test:
HiP-CT로 촬영한 전체 인간 신장의 연속 3D 부분 - 원래 25.14um/복셀로 스캔한 후 분할 전에 50.28um/복셀로 빈(bin x2)화했습니다.
Private Test:
HiP-CT로 촬영한 전체 인간 신장의 연속적인 3D 부분 - 원래 15.77um/복셀로 스캔한 후 분할하기 전에 63.08um/복셀(빈 x4)로 분할했습니다.
이 두 신장은 이미 공개 데이터 세트에 있는 신장의 다른 부분, 즉 물리적으로 다른 샘플입니다. 스캔 및 재구성 절차는 원본 HiP-CT 방법 논문(배경 지식은 이 논문 참조)에 설명된 방법을 따르며, 수동 주석 작업은 벤치마크 검토 논문에서와 동일합니다.
다양한 해상도의 예시 데이터를 제공하는 것이 유용할 것으로 판단하여 더 높은 해상도인 5.2um/복셀 VOI를 제공했습니다.
'AI&ML > Kaggle' 카테고리의 다른 글
Kaggle 학습 시리즈: IDF 기초 가이드 (1) | 2024.01.09 |
---|---|
Kaggle 학습 시리즈: CountVectorizer 기초 가이드 (1) | 2024.01.08 |
[Kaggle] 경진대회 소개(SenNet + HOA - Hacking the Human Vasculature in 3D) (0) | 2023.11.16 |
[Kaggle] Types of Competitions (3) | 2023.11.14 |