AI&ML/Kaggle

AI&ML/Kaggle

Kaggle 학습 시리즈: IDF 기초 가이드

IDF Description IDF(Inverse Document Frequency)는 자연어 처리 및 정보 검색에서 등장한 개념으로, 문서 집합에서 특정 단어의 중요성을 평가하는 데 사용됩니다. 특정 단어가 드물게 나타날수록, 그 단어의 IDF 값은 높아지며, 이는 해당 단어가 특정 문서를 구별하는 데 유용하다는 것을 의미합니다. IDF는 TF(Term Frequency)와 IDF를 곱한 값인 TF-IDF를 구하기 위해 사용됩니다. TF는 각 문서에 대한 BoW를 하나의 행렬로 만든 DTM(Document-Term Matrix)에서 각 단어들이 가진 값을 의미합니다. TF-IDF는 각 단어의 중요성을 반영하여, 많은 경우에서 기존 DTM을 사용하는 것보다 좋은 성능을 얻을 수 있습니다. IDF 계산 공..

AI&ML/Kaggle

Kaggle 학습 시리즈: CountVectorizer 기초 가이드

CountVectorizer Description 텍스트 데이터에 대해서 BOW를 만들기 위해 사용할 수 있는 CountVectorizer 클래스입니다. 텍스트를 이루는 단어가 나타나는 횟수로 벡터를 만듭니다. ngram_range 파라미터는 단어와 단어의 연속된 조합(N-gram) 또한 반영하여 벡터를 생성할 수 있도록 합니다. 만약 ngram_range=(1, 2)일 때, 텍스트를 이루는 단어 하나하나가 카운팅 되고 연속된 두 개의 단어 조합이 추가적으로 카운팅 되어 벡터에 반영합니다. Code 아래는 CountVectorizer를 활용하여 텍스트 데이터를 BOW로 만드는 실습 코드입니다. from sklearn.feature_extraction.text import CountVectorizer # ..

AI&ML/Kaggle

[Kaggle] 캐글 경진대회 Data 소개(SenNet + HOA)

https://www.kaggle.com/competitions/blood-vessel-segmentation/data SenNet + HOA - Hacking the Human Vasculature in 3D | Kaggle www.kaggle.com 위 링크의 내용을 정리한 것입니다. Dataset Description(데이터셋 설명) 이 대회 데이터 세트는 여러 신장의 고해상도 3D 이미지와 혈관 구조의 3D 분할 마스크로 구성됩니다. 여러분의 과제는 테스트 세트의 신장 데이터 세트에 대한 분할 마스크를 생성하는 것입니다. 신장 이미지는 계층적 위상 대비 단층 촬영(HiP-CT) 영상을 통해 얻었습니다. HiP-CT는 생체 외 장기에서 고해상도(1.4마이크로미터~50마이크로미터 해상도) 3D 데이터..

AI&ML/Kaggle

[Kaggle] 경진대회 소개(SenNet + HOA - Hacking the Human Vasculature in 3D)

https://www.kaggle.com/competitions/blood-vessel-segmentation/overview SenNet + HOA - Hacking the Human Vasculature in 3D | Kaggle www.kaggle.com 위 링크의 내용을 정리한 것입니다. Overview(개요) 이 대회의 목표는 혈관을 Segmentation하는 것입니다. 인체의 신장의 3D 계층적 위상 대조 단층 촬영(HiP-CT) 데이터로 훈련된 모델을 생성하여 신체 전체의 혈관 구조를 완성하는 데 도움을 주어야 합니다. 여러분의 작업은 연구자들이 인체 조직에서 혈관의 크기, 모양, 분기 각도 및 패턴을 더 잘 이해할 수 있도록 도와줄 것입니다. Competition Host(대회 호스트) S..

AI&ML/Kaggle

[Kaggle] Types of Competitions

캐글 컴피티션에 참여해 보려고 합니다. 이때 캐글 컴피티션에는 여러 종류의 컴피티션이 존재하여 이를 정리해 보려고 합니다. https://www.kaggle.com/competitions Kaggle Competitions www.kaggle.com 먼저 Kaggle Competitions 페이지에 들어가면 다음 카드들을 볼 수 있습니다. 이제 하나하나 살펴봅시다. Competition Types Featured Featured 경진대회는 캐글하면 생각나는 경진대회의 종류로 상업적인 목적의 어려운 예측 문제를 제시하는 본격적인 머신 러닝 과제입니다. 예를 들어, 과거 Featured 경진대회를 살펴보겠습니다. https://www.kaggle.com/c/allstate-purchase-predictio..

흐르는 물에 씻어주세요
'AI&ML/Kaggle' 카테고리의 글 목록