◇ “통계표 못 읽는 AI”… 메타데이터가 열쇠 6일 국가데이터처에 따르면 현재 AI는 블로그·기사 같은 글은 쉽게 읽지만, 정작 국가통계포털(KOSIS)에 공개된 표는 이해하지 못한다. 웰컴론 단박대출 조건 숫자만 줄지어 있으면 ‘이게 무슨 의미인지’ 설명해 줄 안내판이 없기 때문이다. 이 안내판이 바로 ‘메타데이터’다. 예를 들어 ‘최근 40년간 청년 취업률 추세’나 ‘자살률이 가장 낮았던 해’ 같은 질문에 AI가 제대로 답하려면 데이터에 단순한 숫자 이상의 설명이 함께 붙어 있어야 한다. 실업률 통계를 보더라도 단순히 ‘ 원리금체증식상환 몇 퍼센트’라는 수치만 있는 게 아니라, 그 수치가 ‘일할 수 있는 사람 중 실제로 일하지 못하는 비율’이라는 계산식, 적용 연령과 조사 시점, 통계 출처 같은 배경 정보까지 기록돼야 한다. 메타데이터는 이렇게 숫자에 의미와 맥락을 덧붙여주는 ‘사용 설명서’ 역할을 한다. 통계청 관계자는 “지금의 AI는 공식 데이터베이스(DB)에 직접 접 보험비 근하지 못하고 기사나 블로그 같은 2차 출처를 근거로 답한다”며 “겉보기에는 그럴듯해도 실제와 다른 데이터를 제시하는 ‘환각’ 문제가 치명적”이라고 지적했다. 그는 “AI에 어떤 데이터가 신뢰 가능한지, 어디서 꺼내야 하는지를 알려주는 메타데이터 체계가 마련돼야 한다”고 강조했다. 국가데이터처는 올해부터 승인통계를 중심으로 AI 친화적 메 한화생명 전세자금대출 타데이터를 구축한다. 예를 들어 ‘실업률’이라는 개념이 어떤 조사에서 어떤 산식으로 계산되는지를 기계가 이해할 수 있도록 설명서를 붙이는 작업이다. 이를 2028년까지 확산하고, 2029년부터는 범정부 공공데이터로 확대 적용한다는 계획이다. ◇ 데이터센터, AI가 분석 도와주는 ‘정책 실험실’로 AI 도입이 가장 먼저 체감되는 공간은 전국 16곳에 설치된 통계데이터센터(SDC)다. 지금까지는 연구자가 어떤 자료를 연계해야 하는지 일일이 찾아야 했지만, 앞으로 AI가 본격적으로 도입되면 “이 자료와 저 자료를 같이 보면 정책 효과를 알 수 있다”는 식으로 조합을 추천하게 된다. 예컨대 세종시 공무원이 여성 대표자 기업에 대한 지원정책 효과를 확인하려는 경우, AI는 기업통계등록부와 사업체 명부를 연계해 매출 증감을 분석할 수 있다고 안내한다. 이후 분석 코드를 자동으로 작성하고, 결과를 표와 그래프로 시각화해 제공한다. 통계 프로그램을 다룰 줄 모르는 사람도 정책 효과를 손쉽게 파악할 수 있도록 돕는 구조다. 통계데이터센터는 개인정보 보호를 위해 폐쇄망으로 운영된다. 외부 인터넷이 차단된 만큼, 오픈AI의 챗GPT 같은 서비스를 그대로 쓸 수 없다. 통계청은 독립적으로 작동하는 생성형 AI를 도입해 폐쇄망 환경에서도 코딩·시각화까지 지원하는 방식을 검토 중이다. AI 도입은 한국만의 과제가 아니다. 유럽연합(UN) 통계위원회는 지난해 각국에 디지털 전환과 메타데이터 표준화, FAIR 원칙(검색·접근·상호운용·재사용) 강화를 권고했다. 경제협력개발기구(OECD)도 “AI는 통계 혁신의 기회”라며 데이터 구조화와 표준화, 메타데이터 강화 필요성을 강조한다. 특히 OECD는 지난해부터 ‘공식통계를 위한 생성형 AI 프로젝트(Generative AI for Official Statistics Project)’를 추진하며, 대규모 언어모델(LLM)과 같은 생성형 AI 기술이 공식 통계에 미칠 영향을 전략적으로 연구하고 있다. 유럽 통계청(유로스탯)은 ‘온톨로지(ontology)’라는 개념 지도를 도입해 통계 간 관계를 기계가 이해할 수 있도록 표준화된 검색 환경을 제공하고 있다. 온톨로지는 말하자면 ‘통계 지도’다. 예를 들어 실업률이라는 개념이 어떤 변수와 계산식으로 연결되는지 길을 보여주고, 메타데이터는 그 정의·단위·출처를 설명하는 식이다. 두 요소가 결합해야 AI가 통계를 찾아내는 동시에 올바르게 해석할 수 있다. 미국·영국도 AI 활용을 염두에 둔 메타데이터 체계를 갖추며 연구자 접근성을 높이고 있다.
AI 친화적 메타데이터의 핵심 구성요소. /통계청 제공
◇ “신뢰성 확보가 핵심”… AI 대전환 TF 가동 국가데이터처는 현재 ‘인공지능 대전환 전략 TF’를 운영하며, 통계 작성부터 보급·활용까지 전 과정에 AI를 도입하는 중장기 로드맵을 마련 중이다. 올해는 정보화 전략 계획(ISP) 수립과 연구용 재현자료 제작 등에 10억원 안팎이 쓰이며, 본격적인 예산은 내년 이후에 집중될 전망이다. TF는 전략기획분과와 실행과제분과로 나뉘어 운영된다. 전략기획분과는 큰 그림을 그리고, 실행과제분과는 현장에서 당장 필요한 세부 과제를 맡는다. 실제 과제에는 AI 친화적 메타데이터 구축, 통계 생산 효율화, 폐쇄형 AI 실험실 도입, 안전한 통계 활용 체계 마련, 전문가 양성, 윤리·보안 기준 확립 등이 포함된다. 국가데이터처 관계자는 “내년 초쯤에는 전반적인 로드맵을 제시할 계획”이라면서 “AI가 통계 생산의 코딩 과정에서 이미 성과를 내고 있고, 앞으로 서비스 전반으로 확대될 것”이라고 설명했다. 궁극적으로 AI가 ‘정책 두뇌’로 자리 잡으려면 단순 검색을 넘어 정책 설계 단계에서 최적의 데이터를 조합해 주는 시스템이 필요하다. 청년 고용, 자살 예방, 지역산업 정책처럼 복잡한 현안을 다루려면 경제·사회·보건 등 다양한 자료를 연결해야 한다. AI가 추천과 해석을 맡고, 사람은 그 결과를 토대로 정책을 설계하는 구조가 가능해진다. 국가데이터처 관계자는 “AI 활용은 되돌릴 수 없는 흐름인 만큼, 신뢰할 수 있는 데이터 기반을 만드는 것이 무엇보다 중요하다”고 강조했다. - Copyright ⓒ 조선비즈 & Chosun.com -