
[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
·
Computer Vision💖/Domain (DA & DG)
지금 하고있는 연구랑 비슷해서 좀 자세히 읽어봤당 역시 OOD 재밌다TLDR;Web data는 보통 web에서 수집되기 때문에 explicit domain label이 없는데, domain-specific training을 위해 optimal pre-training data mixture를 identify하는건 어려운 문제임.Cluster-based로 최적의 data mixture weight를 도출하는 framework -> Efficient domain-specific pre-trainingMotivationDomain-specific task의 성능을 올리는데는 final pre-training phase가 중요하다고 함.General/ domain-specific task에 맞는 pre-train..