[LLM] Nemotron-Personas-Korea: 한국 인구통계로 만든 합성 페르소나 데이터셋 공개 (feat. NeMo Data Designer, Gemma 4)

DL/LLM

[LLM] Nemotron-Personas-Korea: 한국 인구통계로 만든 합성 페르소나 데이터셋 공개 (feat. NeMo Data Designer, Gemma 4)

moonzoo 2026. 4. 27. 14:18

NVIDIA가 2026년 4월 21일, 서울 마포 프론트원에서 열린 'Nemotron Developer Days Seoul' 키노트에서 한국 시장 전용 데이터셋 Nemotron-Personas-Korea를 공개했습니다. 같은 날 Hugging Face에도 업로드되었고, 일반인에게 무료로 풀린 합성 페르소나 데이터셋으로는 한국어 기준 첫 사례입니다. 이 글에서는 이 데이터셋이 어떤 배경에서 만들어졌고, 어떻게 구성되어 있으며, 실제로 어떻게 쓸 수 있는지를 자료를 토대로 정리해 보았습니다.

1. 왜 이런 데이터셋이 필요했는가

NVIDIA가 공개한 사례 중 인상적인 부분이 있습니다. 한국에서 활동하는 글로벌 LLM들에게 한국인의 직업 분포를 추론하게 시키면, 어떤 모델은 한국인의 90%를 돌봄 제공자(caregiver)로, 또 다른 모델은 77%를 농부로 분류했다고 합니다. 한국 통계청 자료와 비교하면 현실과 거리가 큰 결과입니다.

이런 편향이 생기는 이유는 단순합니다. 대부분의 LLM은 영어 웹 데이터를 중심으로 학습되었고, 한국의 지역별 직업 분포, 가구 구성, 연령대별 생활 양식 같은 세부 통계가 학습 데이터에 충분히 반영되지 않기 때문입니다. 또한 한국어의 존댓말 체계, 사투리, 세대별 어휘 차이도 잘 다루지 못합니다. 60대 환자에게 반말로 응대하는 의료 상담 에이전트는 사용자가 받아들이기 어렵습니다.

Nemotron-Personas-Korea는 이 간극을 메우기 위해 설계된 데이터셋입니다. 한국 통계청과 대법원 등 공식 통계를 기반으로, 실재하는 한국인의 분포를 반영하는 가상의 인물 데이터를 대량으로 생성한 것이 핵심입니다.

2. 데이터셋 기본 정보

항목	내용
라이선스	CC BY 4.0 (상업적 사용 가능)
언어	한국어
레코드 수	100만 명(unique 페르소나 1M)
페르소나 텍스트 총량	약 700만 건(1M × 7개 페르소나 변형)
토큰 규모	약 17억 토큰
필드 수	26개
지역 커버리지	17개 광역시도, 252개 시·군·구
이름 다양성	약 21만 4천 개 이름(성씨 118개)
직업 분류	2천 개 이상
생애 단계	학생, 군 복무, 재직, 미취업, 은퇴
호스팅	Hugging Face nvidia/Nemotron-Personas-Korea

레코드 수와 페르소나 수가 다른 점은 한 번 짚고 넘어가야 합니다. 한 명의 합성 인물이 7가지 관점(직업, 가족, 운동, 예술, 여행, 음식, 요약)에서 각각 다른 텍스트로 묘사됩니다. 그래서 unique한 사람은 100만 명이지만, 페르소나 텍스트 자체는 700만 건이 만들어진 셈입니다.

3. 데이터 출처

NVIDIA는 한국 공공 부문에서 공개된 통계와 시드 데이터를 활용했다고 밝혔습니다. 주요 출처는 다음과 같습니다.

국가통계포털(KOSIS): 2020년부터 2026년 사이 인구센서스, 노동, 가구 통계
대법원: 한국인 성씨 및 이름 분포 데이터
국민건강보험공단: 건강 관련 데이터
한국농촌경제연구원: 농촌·지역 관련 데이터
네이버 클라우드: 시드 데이터와 도메인 전문성 제공

NVIDIA 측 발표에 따르면 총 62개의 공공 변수와 출처에서 데이터를 가져와 결합했으며, 이 변수 조합으로 표현 가능한 상태 공간이 10^46에 달한다고 설명합니다. 즉 단순히 100만 개 행을 무작위로 만든 것이 아니라, 통계 분포에 맞춰 정합성을 갖도록 설계되어 있다는 의미입니다.

4. 어떻게 생성되었는가

생성 파이프라인은 두 단계로 구성됩니다.

1단계 - 통계적 정합성 확보: NVIDIA의 오픈소스 도구인 NeMo Data Designer가 사용되었습니다. 그 안에서 확률 그래픽 모델(Probabilistic Graphical Model)이 한국 인구통계 분포를 따라 인구학적 속성(나이, 성별, 지역, 직업, 학력, 가구 형태 등)을 샘플링합니다. 라이선스는 Apache-2.0입니다.

2단계 - 자연어 페르소나 생성: 통계적 속성이 정해진 가상의 인물 위에, Gemma-4-31B 모델이 한국어 자연어 서술을 입혀 풍부한 페르소나 텍스트를 만듭니다. 직업 묘사, 가족 관계, 취미, 식습관 같은 7가지 측면을 각각 별도의 글로 풀어냅니다.

이 방식은 두 가지를 동시에 만족시킵니다. 통계적으로는 실제 분포를 따르지만, 텍스트 표현은 사람이 쓴 듯한 자연스러움을 갖습니다.

5. 26개 필드 구성

데이터셋의 모든 행은 26개 필드로 구성됩니다. 크게 네 그룹으로 나뉩니다.

페르소나 텍스트(7개)

professional_persona: 직업 활동과 업무 스타일
sports_persona: 운동·신체 활동 습관
arts_persona: 문화·예술적 취향
travel_persona: 여행 성향
culinary_persona: 식습관과 외식 패턴
family_persona: 가족 관계와 가정에서의 역할
persona: 한 줄 요약 형태의 종합 묘사

페르소나 속성(6개)

cultural_background: 성장 배경과 가치관
skills_and_expertise: 보유 기술·전문성 서술형
skills_and_expertise_list: 같은 내용을 리스트 형태로 정리
hobbies_and_interests: 취미·관심사 서술형
hobbies_and_interests_list: 리스트 형태
career_goals_and_ambitions: 경력 목표

인구통계·지리 정보(12개)

sex: 남자/여자
age: 19~99세 정수
marital_status: 4종(배우자있음, 미혼, 사별, 이혼)
military_status: 비현역/현역
family_type: 39종(혼자 거주, 배우자와 거주, 기타3세대 등)
housing_type: 6종(아파트, 다세대주택 등)
education_level: 7종(초등학교부터 대학원까지)
bachelors_field: 11종(자연과학·수학, 사회과학·언론, 보건·복지 등)
occupation: 2,000개 이상
district: 252개 시·군·구
province: 17개 광역시도
country: 대한민국 고정

고유 식별자(1개)

uuid: 32자리 문자열

리스트 형 필드(*_list)와 서술형 필드를 함께 제공하는 점이 실용적입니다. 모델 학습에 쓸 때는 서술형을, 필터링이나 통계 분석에는 리스트형을 바로 활용할 수 있습니다.

6. 실제 데이터 예시

말로만 설명하면 와닿지 않으니 실제 레코드 하나를 살펴보겠습니다. 광주 서구에 거주하는 74세 남성 '전기태' 씨의 페르소나 일부를 인용하면 다음과 같습니다.

persona: "광주 서구에서 평생 하역 일을 하며 살아온 70대 가장으로, 투박한 손마디에 삶의 흔적이 배어 있는 성실하고 사교적인 인물입니다."

professional_persona: "광주 서구의 하역 현장에서 수십 년간 짐을 쌓아 올리며, 지렛대 원리를 이용해 무거운 자재를 효율적으로 옮기는 베테랑의 면모를 보입니다. (...) 가끔은 고집스럽게 본인의 옛 방식만을 고수하며 젊은 일꾼들과 투닥거리기도 합니다."

sports_persona: "주말마다 무등산 자락을 느릿느릿 걸으며 땀을 흘리고, 내려오는 길에 단골 목욕탕에서 친구들과 엉켜 앉아 정치 이야기를 나누는 것으로 일주일을 마무리합니다."

culinary_persona: "일주일에 한 번 배달 짜장면과 탕수육을 시켜 먹는 날을 손꼽아 기다리며, 2주에 한 번은 아내와 함께 동네 고깃집에서 지글지글 구운 삼겹살에 소주 한 잔을 곁들입니다."

occupation: 하역 및 적재 관련 단순 종사원 / education_level: 초등학교 / family_type: 배우자와 거주

이 예시 한 건만 봐도 무등산, 광주 사투리 뉘앙스, 70대 남성 노동자의 생활상 같은 지역적·세대적 특징이 자연스럽게 녹아 있습니다. 단순히 인구학적 라벨만 있는 것이 아니라, 그 라벨에 어울리는 한국적 맥락의 서사가 함께 제공됩니다.

또 다른 예시로 인천 연수구 33세 여성 가구 공장 경리 사무원의 경우, 송도 센트럴파크 사진 찍기, 가이세키 요리집 탐방 같은 송도 거주자에게 어울릴 법한 디테일이 들어 있습니다. 50대 부산 기장군 부동산 사무원에게는 기장 멸치 쌈밥과 동네 사우나 모임이 등장합니다. 지역 특색이 디테일 단계까지 반영된 점이 다른 일반 페르소나 데이터셋과 차별되는 지점입니다.

7. 개인정보 보호

전 페르소나가 합성 데이터입니다. 실재하는 인물에서 가져온 정보는 없으며, 이름·주소·전화번호 같은 개인 식별 정보(PII)도 포함되지 않습니다. 한국의 개인정보보호법(PIPA) 준수를 염두에 두고 설계되었습니다.

한국은 개인정보보호위원회가 합성데이터 생성 가이드를 공식 발간한 몇 안 되는 국가 중 하나입니다. NVIDIA는 이 가이드의 방향성을 따랐다고 밝혔습니다. 민감 데이터의 통계적 특성은 보존하되 개인을 식별할 수 없도록 합성하는 방식입니다.

8. 활용 방법

NVIDIA 측이 제시한 대표적인 활용 시나리오는 AI 에이전트의 한국적 맥락 그라운딩(grounding)입니다. 페르소나 한 건을 시스템 프롬프트에 넣으면, 에이전트가 그 인물의 지역·직업·생활 양식을 따라 응답하도록 할 수 있습니다.

간단한 코드 흐름은 다음과 같습니다.

from datasets import load_dataset

# 데이터셋 로드
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")

# 보건·의료 직군만 필터링
health_personas = dataset["train"].filter(
    lambda x: "보건" in x["occupation"] 
              or "간호" in x["occupation"] 
              or "의료" in x["occupation"]
)

persona = health_personas[0]

선택한 페르소나로 시스템 프롬프트를 구성한 뒤, 모델에 주입하면 한국 보건소 절차나 존댓말 응대 같은 맥락이 자연스럽게 반영된 답변을 받게 됩니다. NVIDIA 자료에 따르면, "독감 예방접종은 언제 맞아야 하나요?"라는 같은 질문에 대해, 페르소나 그라운딩 없이는 미국 CDC 기준을 인용하는 일반적 답변이 나오는 반면, 페르소나가 들어가면 "가까운 보건소에서 무료 접종이 가능합니다" 식의 한국 공중보건 체계에 맞는 답변이 나오는 차이를 보였습니다.

이 외에도 다음과 같은 용도가 가능합니다.

한국어 LLM 사후 훈련(post-training)용 시드 데이터
도메인별 합성 데이터 추가 생성을 위한 출발점(예: 금융 상담, 교육 튜터링, 행정 민원)
한국어 모델의 페르소나 다양성·편향 평가 벤치마크
특정 지역·연령대를 대상으로 한 사용자 시뮬레이션

9. 다른 국가 데이터셋과의 관계

Nemotron-Personas는 한국만을 위한 데이터셋이 아니라 컬렉션의 일부입니다. 같은 시리즈로 미국(600만), 일본(600만), 인도(2,100만), 싱가포르(88만, AI Singapore 협업), 브라질(WideLabs 협업), 프랑스(Pleias 협업)가 공개되어 있습니다. 한국은 이 흐름의 가장 최근 추가본입니다. 다국어 에이전트를 만든다면 같은 파이프라인 위에서 여러 국가 데이터를 섞어 쓸 수 있도록 설계되어 있습니다.

10. 한계와 고려할 점

데이터셋이 잘 만들어졌다고 해도, 사용 시 유의할 부분이 있습니다.

합성 데이터의 본질적 한계: 통계 분포는 따르지만, 모델이 만들어낸 서술이라 실제 한국인의 다양성을 모두 포착한다고 보기는 어렵습니다. 특히 소수자나 비전형적 생활 양식은 표본이 적을 수 있습니다.

Gemma-4-31B의 문체 편향: 모든 자연어 묘사가 한 모델에서 나왔기 때문에, 비슷한 표현이나 클리셰가 반복될 가능성이 있습니다. 예시들을 살펴보면 '지글지글 구운 삼겹살', '느릿느릿 걸으며' 같은 의성·의태어 패턴이 자주 등장합니다. 학습 데이터로 사용할 경우 이런 문체 편향이 다운스트림 모델에 전이될 수 있습니다.

시점 고정성: KOSIS 2020~2026년 데이터를 기반으로 하기 때문에 그 이후 변화는 반영되어 있지 않습니다. 직업 구조나 지역 분포가 빠르게 바뀌는 분야라면 최신성을 별도로 확인할 필요가 있습니다.

라벨 정확도: 통계 분포에 맞췄더라도, 개별 페르소나 단위에서 직업과 거주 지역, 학력의 조합이 항상 현실적이라는 보장은 없습니다. 특히 희귀한 조합의 페르소나는 검증 후 사용하는 편이 안전합니다.

11. 접근 방법

데이터셋은 다음 경로에서 받을 수 있습니다.

Hugging Face 데이터셋 페이지: huggingface.co/datasets/nvidia/Nemotron-Personas-Korea
라이브러리: datasets, Dask, Polars 지원
형식: Parquet으로 자동 변환되어 제공

상업적 사용이 가능한 CC BY 4.0 라이선스이므로, 출처 표기만 지키면 사내 모델 학습이나 제품 개발에 자유롭게 쓸 수 있습니다.

마무리

Nemotron-Personas-Korea는 한국형 AI 모델·에이전트를 만들 때 자주 부딪히는 한국 사용자 분포가 학습 데이터에 안 들어 있다 문제에 대한 한 가지 답입니다. 결정적인 해법이라기보다는 출발점에 가까운 자원이지만, 공공 통계를 시드로 삼고 PII를 배제한 채 100만 명 단위로 풀린 한국어 페르소나 데이터가 상업 사용 가능한 라이선스로 풀렸다는 점은 의미가 있습니다.

이 데이터셋을 그대로 학습에 쓰는 것보다, 본인이 만들고자 하는 도메인(의료, 금융, 행정 등)에 맞춰 필터링하고, 필요하면 NeMo Data Designer 같은 도구로 추가 합성 데이터를 만들어 결합하는 방식이 가장 자연스러운 활용 흐름으로 보입니다.

참고 자료

nvidia/Nemotron-Personas-Korea (Hugging Face 데이터셋 카드)
"How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas" — Hugging Face Blog, 2026.04.21
NVIDIA Korea Blog: 'NVIDIA Nemotron Developer Days Seoul 2026' 하이라이트
아시아경제, 디지털투데이 등 행사 보도자료 (2026.04.21)

'DL > LLM' 카테고리의 다른 글

[LLM] Qwen3.6 공개 - 오픈 가중치 기반 대규모 언어 모델의 아키텍처 진화와 에이전트 성능 고도화 (feat. gemma 4 비교) (0)	2026.04.23
[LLM] 로컬 vLLM Gemma 4 서빙 팁 (feat. Docker 기반 세팅 가이드) (4)	2026.04.08
[LLM] Google Gemma 4 공개 - 프론티어 모델에 가장 근접한 오픈 모델의 새로운 기준 (feat. 성능 포함) (2)	2026.04.03
[LLM] 프롬프트 엔지니어링: NotebookLM을 활용한 실전팁 (feat. 구글 프롬프트 가이드 등) (2)	2026.02.06
[LLM] RTX 6000 Blackwell vs. H100/H200: 단일/TP 환경별 추론 및 학습 성능 심층 비교 (4)	2026.01.31

현재글[LLM] Nemotron-Personas-Korea: 한국 인구통계로 만든 합성 페르소나 데이터셋 공개 (feat. NeMo Data Designer, Gemma 4)

ML, DL 이것저것 기록하는 블로그

docker, 파이썬, Dash, AICC, 음성인식, ASR, gan, Whisper, CUDA, ChatGPT, 대시보드, STT, ocr, nlp, 딥러닝, vllm, 머신러닝, LLM, rag, Ai,

Today :
Yesterday :

MZ._.GPT