AI가 읽지 못하는 HWP의 배신, RAG 성능 2배 올리는 데이터 정제 기술

열심히 RAG 챗봇을 구축했는데 답변이 엉망이라 당황하셨을 것 같아요. 분명 문서는 다 넣었는데 AI가 엉뚱한 소리를 하니 정말 답답하시죠. 저도 실무에서 HWP 파일 때문에 며칠 밤을 지새운 적이 있어서 그 기분 잘 알거든요.

왜 HWP만 넣으면 답변이 꼬일까요?

닫힌 생태계의 한계

HWP는 한글과컴퓨터의 독자적인 규격이라서 그래요. 거대 언어 모델인 LLM(Large Language Model)은 기본적으로 웹의 텍스트 데이터를 학습했거든요. 텍스트 추출 도구를 써도 표나 수식 같은 구조가 다 깨져버리더라고요.

결국 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 과정에서 엉뚱한 조각을 가져오게 됩니다. 검색 증강 생성은 문서에서 정답 후보를 찾아 LLM에게 전달하는 방식인데요. 원본 데이터가 엉망이면 아무리 좋은 AI라도 정답을 맞힐 수 없더라고요. 이게 바로 데이터 오염의 무서운 점이죠.

정답률을 2배 올리는 데이터 정제법

마크다운 변환과 표준화

가장 확실한 방법은 HWP를 마크다운(Markdown) 형식으로 바꾸는 거예요. 마크다운은 텍스트 기반이면서도 구조를 유지하는 표준 양식이거든요. 첫째로 전용 파서를 사용해 텍스트를 추출하세요. 둘째로 제목과 본문의 계층 구조를 명확하게 다듬어줘야 하더라고요.

현장에서 보면 많은 분이 그냥 텍스트만 긁어서 넣으시는데요. 그렇게 하면 문맥이 다 끊겨버립니다. 문서 표준화를 통해 제목, 소제목, 본문의 관계를 명시해주면 AI가 훨씬 잘 이해하더라고요. 텍스트의 순서가 뒤섞이지 않게 정돈하는 과정이 필수인 셈이죠.

실무자가 전하는 표 처리 꿀팁

표를 서술형으로 변환하기

솔직히 표 정제가 제일 까다로운 부분이에요. AI는 표의 행과 열 관계를 읽는 데 서툴거든요. 이럴 때는 표를 JSON(JavaScript Object Notation, 데이터 교환 표준 형식) 형태로 변환하거나, 아예 서술형 문장으로 풀어쓰는 게 답이더라고요.

예를 들어 '2024년 예산 10억'이라는 표 내용을 '2024년의 총 예산은 10억 원입니다'라고 바꾸는 거죠. 한마디로, AI가 읽기 편한 언어로 번역해주는 작업인 셈이죠. 이렇게 하면 검색 정확도가 비약적으로 올라가네요. 조금 번거롭더라도 청킹 전략을 짤 때 표 데이터를 어떻게 쪼갤지 고민해보세요.

마지막으로 메타데이터를 추가하는 방법이 있습니다. 파일명이나 생성일, 문서의 카테고리를 텍스트 상단에 명시하는 거예요. 그러면 AI가 문서의 정체성을 더 빠르게 파악하더라고요.

결국 AI 성능의 핵심은 모델이 아니라 데이터의 품질에 달려 있습니다. 지금 바로 가지고 계신 HWP 파일의 텍스트 추출 상태부터 확인해보시는 건 어떨까요?