당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140)
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • Incremental Learning
  • CL
  • conda
  • CV
  • 리눅스
  • domain generalization
  • 알고리즘
  • dfs
  • pytorch
  • Linux
  • Python
  • 자료구조
  • continual learning
  • 백트래킹
  • til
  • NLP
  • domain adaptation
  • 백준
  • LLM
  • 코딩테스트

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
Computer Vision💖/Domain (DA & DG)

[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

2025. 4. 19. 04:04
반응형

지금 하고있는 연구랑 비슷해서 좀 자세히 읽어봤당 역시 OOD 재밌다

TLDR;

  • Web data는 보통 web에서 수집되기 때문에 explicit domain label이 없는데, domain-specific training을 위해 optimal pre-training data mixture를 identify하는건 어려운 문제임.
  • Cluster-based로 최적의 data mixture weight를 도출하는 framework -> Efficient domain-specific pre-training

Motivation

  • Domain-specific task의 성능을 올리는데는 final pre-training phase가 중요하다고 함.
  • General/ domain-specific task에 맞는 pre-training data mixture를 도출하는건 어려운 문제임.
    • 예를 들어 coding task를 푸는데는 mathematics, reasoning, and security 등의 complementary knowledge가 쓰일 수 있다.

Method

  • Efficient domain-specific training을 가능하게 하는 data mixture optimization 방법 제안

1. Clustering

  • 각 raw dataset에 대해 embedding model로 text embedding을 추출한 뒤, kmeans로 clustering
  • Pruning: low-quality cluster를 지움
  • Merge: 유클리디안 거리 기반으로 similar한 cluster를 merge

2. Iterative Bootstrapping: Mixture Weight Search

  • Sampling mixture weight (domain-specific cluster를 어떻게 섞을까 인 것 같음)를 optimize 하기 위한 과정

  • Bi-level optimization problem으로 푼다
    • 궁극적으론 task performance를 최대화 하는 mixture weight $\alpha$를 구하는 것
    • 근데 이렇게 모든 alpha configuration을 시도해서 task performance를 보기엔 학습을 일일이 다 해야해서 너무 time-consuming 함
  • 따라서 task performance를 approximate 할 수 있는 proxy model을 학습시킨다.
    • 이 proxy model은 아무 regression model이나 가능하다.
    • 결국 이 proxy model을 이용해 특정 configuration의 performance를 approximate 한 후 task performance를 maximize하는 적절한 alpha (weight 조합)을 찾는게 목표이다.

  • Iterative하게 bootstrap 한다
    • 랜덤으로 initialize한 주어진 configuration 중에서 성능이 가장 높은 top N을 고르고, 이를 이용해 predictor를 학습해 alpha를 도출한다. 이 과정을 반복함. (Iteration)

Experiments

  • Domain specific한 밴치마크와 general한 밴치마크에서 모두 좋은 성능을 보인다.

  • Weight analysis -> iteration을 거듭할수록 weight이 modify 된다.

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Domain (DA & DG)' 카테고리의 다른 글

[CV] Self-training에 대한 간단한 설명 - 가짜 라벨을 학습에 이용하기  (0) 2022.09.02
[CV] Test-Time Domain Adaptation의 의미와 간단 정리  (0) 2022.05.08
[DG] Deep CORAL(CORelation ALignment, 2016) 논문리뷰  (0) 2021.08.27
[DG] Domain Generalization의 대표 알고리즘을 DomainBed로 알아보자 (+ Code)  (0) 2021.08.06
    'Computer Vision💖/Domain (DA & DG)' 카테고리의 다른 글
    • [CV] Self-training에 대한 간단한 설명 - 가짜 라벨을 학습에 이용하기
    • [CV] Test-Time Domain Adaptation의 의미와 간단 정리
    • [DG] Deep CORAL(CORelation ALignment, 2016) 논문리뷰
    • [DG] Domain Generalization의 대표 알고리즘을 DomainBed로 알아보자 (+ Code)
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바