RAG

[RAG] 마이크로소프트 신규 다국어 임베딩 모델(Harrier) 출시 및 0.6B 한국어 성능 비교

moonzoo 2026. 4. 1. 20:37

요즘 AI Agent로 자동화 환경을 구성하는 데 집중하느라 RAG 쪽 글을 뜸하게 올렸네요. 그러던 중 마침 며칠 전 마이크로소프트에서 최대 27B 파라미터에 달하는 대규모 다국어 임베딩 모델을 공개했다는 소식을 접했습니다. 이를 핑계 삼아 가벼운 리뷰도 하고 벤치마크 평가도 돌려볼 겸 오랜만에 글을 작성합니다.

 

개인적으로 구축해 둔 자동 평가 파이프라인이 있는데, 이번에 마이크로소프트가 출시한 'Harrier-OSS-v1'을 이 파이프라인에 올려 테스트를 진행해 보았습니다. 테스트를 진행하는 김에 최근에 출시되었거나 한국어 처리 성능이 좋다고 알려진 다른 모델들도 함께 주요 지표를 비교해 보았으니, RAG(검색 증강 생성) 파이프라인 도입 등을 기획 중이신 분들은 참고하시기 바랍니다.

 

(일괄적으로 다 돌리기엔 시간이 부족해서...ㅋㅋㅋ 궁금하시면 나중에 돌려드리겠습니다.)


1. MS Harrier-OSS-v1 모델 개요 (2026.03.30 출시)

본격적인 벤치마크 비교에 앞서, 이번에 새롭게 공개된 마이크로소프트 Harrier 모델의 주요 특징을 간략히 짚고 넘어갑니다. 출시 직후 다국어 MTEB v2 벤치마크에서 SOTA(최고 성능)를 달성하며 주목받고 있는 모델입니다.

  • 다양한 체급 지원 및 디코더 전용 아키텍처: 270M, 0.6B, 27B 세 가지 크기로 출시되었습니다. 기존 BERT 기반의 양방향 인코더 구조를 벗어나, 최신 LLM과 유사한 디코더 전용(Decoder-only) 아키텍처를 채택했습니다. 벡터 추출 방식으로는 'Last-token pooling'과 L2 정규화를 사용합니다.
  • 32k 컨텍스트 윈도우 지원: 512~1024 토큰에 머물렀던 기존 임베딩 모델들과 달리 무려 32,768 토큰을 지원합니다. 긴 문서나 코드 베이스를 과도한 청킹(Chunking) 없이 그대로 처리할 수 있어 문맥 손실을 크게 줄일 수 있습니다.
  • 소형 모델 최적화 (지식 증류): 대형 모델(27B) 외에 비교적 가벼운 270M, 0.6B 모델들은 대형 교사(Teacher) 모델로부터 지식 증류(Knowledge Distillation) 기법을 적용받아 파라미터 수 대비 높은 임베딩 품질을 확보했습니다.
  • 명령어 기반(Instruction-Tuned) 쿼리 방식: 최적의 성능을 내기 위해서는 사용자 쿼리(질문) 앞단에 반드시 작업 지시문(Instruction)을 포함해야 합니다. (예: "Instruct: Retrieve semantically similar text\nQuery: [사용자 입력]") 반대로, 검색 대상이 되는 문서(Document)를 인코딩할 때는 지시문을 넣지 않아야 합니다.

 


2. 평가 대상 모델 목록

MS 모델 라인업 중 가성비와 접근성이 좋은 0.6B 체급을 기준으로 삼고, 이와 유사한 체급이거나 한국어 환경에서 우수한 성능을 보이는 모델 총 5종을 파이프라인에서 비교했습니다. (한국어가 아닌 벤치마크도 포함되어 있습니다.)

모델 약칭 비고
microsoft/harrier-oss-v1-0.6b Harrier 이번 신규 모델 (0.6B)
dragonkue/snowflake-arctic-embed-l-v2.0-ko Snowflake-Ko 한국어 특화 파인튜닝
jinaai/jina-embeddings-v5-text-small Jina-v5 효율성 특화 small 모델
perplexity-ai/pplx-embed-v1-0.6b PPLX-v1 0.6B 기본 모델
perplexity-ai/pplx-embed-context-v1-0.6b PPLX-ctx 0.6B 문맥 특화 모델

3. 주요 성능 평가 결과

① 검색 (Retrieval) 성능 — NDCG@10

문서 검색 능력을 평가하는 3개 공통 벤치마크(AutoRAG, Ko-StrategyQA, PublicHealthQA)의 결과입니다.

모델 AutoRAG Ko-Strategy PublicHealth 평균
Snowflake-Ko 90.93 80.50 83.37 84.93
Jina-v5 84.09 81.04 86.64 83.92
PPLX-v1 84.06 80.98 82.77 82.60
Harrier 83.05 76.77 81.95 80.59
  • 분석: 검색 특화 환경에서는 Snowflake-Ko가 압도적인 점수(평균 84.93, 특히 AutoRAG에서 90.93)로 1위를 기록했습니다. Jina-v5는 의료 도메인(PublicHealthQA)에서 뛰어난 성적을 보여 특정 전문 지식 검색에 강점이 있음을 확인했습니다.

② 의미 유사도 (STS) 성능 — Spearman

문장과 문장 사이의 의미적 유사성을 얼마나 잘 파악하는지 측정하는 지표(KLUE-STS, KorSTS, STS17 공통 기준)입니다.

모델 KLUE-STS KorSTS STS17 (ko-ko) 평균
Harrier 85.89 81.44 82.25 83.19
PPLX-v1 83.80 76.30 80.19 80.10
PPLX-ctx 79.17 77.55 81.50 79.41
  • 분석: 문장의 의미를 세밀하게 파악하는 능력은 신규 모델인 Harrier가 평균 83.19로 가장 뛰어났습니다. 전 영역에서 타 모델 대비 높은 점수를 기록했습니다.

③ 분류 (Classification) 성능

벤치마크 Harrier PPLX-v1 PPLX-ctx
KLUE-TC (accuracy) 59.86 55.54 57.99
KLUE-NLI (main_score) 67.20* 58.46 59.30

(참고: Harrier는 accuracy+F1, PPLX는 max_ap를 기준으로 측정되어 엄밀한 1:1 비교는 어려우나, 전반적인 경향성 파악을 위해 첨부합니다.)

  • 분석: 분류 태스크에서는 전반적으로 모든 모델이 평이한 수준에 머물렀으나, 그중에서도 Harrier가 비교적 안정적이고 우수한 수치를 보여주었습니다.

4. 종합 요약 및 추천 포인트

이번 자동 평가 파이프라인 테스트 결과를 바탕으로, 각 모델의 특징과 도입 추천 환경을 예시로 정리해 보았습니다. 

사실 이번 비교에서 직접적으로 선상에 두고 비교하기엔 조금 애매한 모델이 하나 껴있습니다. 바로 Snowflake-Ko입니다. 이 모델은 애초에 한국어 데이터셋으로 파인튜닝이 된 임베딩 모델이기 때문에, 한국어 QA 성능이 다른 범용 모델들보다 가장 뛰어난 것이 어찌 보면 당연한 결과입니다. 저 역시 실제 도메인 특화 프로젝트를 진행할 때, 특정 도메인 용어로 인해 검색이 잘되지 않으면 합성 데이터 파이프라인과 유저 로그를 통해 파인튜닝을 진행하여 사용하곤 합니다. 이러한 특성을 감안하여 아래의 추천 포인트를 확인해 주시기 바랍니다.

 

 

  • 밸런스 및 긴 문맥 처리가 중요하다면: Harrier 단순 문서 검색 점수는 한국어 특화 모델보다 다소 낮았지만, 의미 유사도(STS)와 분류 태스크에서 1위를 차지해 범용적인 목적에 가장 잘 맞습니다. 특히 최대 32,768 토큰 길이의 텍스트를 입력받아 1024 차원의 벡터로 압축할 수 있기 때문에, RAG 환경에서 긴 문서를 잘게 쪼개지(Chunking) 않고 문맥을 유지한 채 활용할 수 있다는 점이 강력한 무기입니다. (도입 시 쿼리에 Instruction을 추가하는 세팅을 잊지 마세요. 32k의 긴 문맥을 한 번에 처리할 경우 연산 부하로 인해 지연 시간(Latency)이 길어질 수 있으므로 실제 서비스 적용 전 반드시 latency 테스트를 거치시길 권장합니다.)
  • 한국어 RAG 검색 정확도가 최우선이라면: Snowflake-Ko 다른 복잡한 태스크보다 '한국어 정확한 정보 검색(Retrieval)' 하나가 가장 중요한 환경이라면 Snowflake-Ko가 가장 훌륭한 퍼포먼스를 보여줄 수 있습니다. (파인튜닝이 귀찮다면.. 추천)
  • 전문 도메인 검색 최적화: Jina-v5 전반적인 검색 능력이 준수하며, 특히 의료 등 특정 전문 분야 지식 검색에서 높은 강점을 보였습니다.
  • Perplexity 모델 도입을 고려한다면: 일반적인 목적의 파이프라인에서는 문맥 특화형(ctx)보다 기본형인 PPLX-v1이 검색 및 의미 유사도 지표 모두에서 더 안정적인 결과를 냈습니다.