AI 설교 도구의 신뢰도, 무엇으로 판단할까

한 줄 정의: AI 설교 도구의 신뢰도는 단일 점수로 환원되지 않는다. 신학적 정합성·출처의 투명성·워크플로우 정합성·데이터 프라이버시. 네 영역으로 나눠야 비로소 판단 가능해진다.

1. 28%p의 갭 - "신뢰한다"는 말의 모호함

「한국교회 트렌드 2026」 조사에 따르면, 한국 목사의 80%가 AI를 사용하고, 56%는 매주 설교 준비에 AI를 활용한다. 같은 조사에서 AI 도구에 대한 신뢰도는 83%로 나왔다. 그런데 만족도는 55%에 그친다.

신뢰와 만족 사이 28%p의 갭이 있다. 이 갭은 단순히 도구의 품질이 못 따라가서 생긴 차이가 아니다. "AI를 신뢰한다"고 말할 때 그 신뢰가 정확히 무엇을 가리키는지 모호하기 때문에 생긴 갭이다.

이 글은 그 모호함을 해체한다. 도구 종류를 비교하기 전에, AI 설교 도구의 신뢰도를 어떻게 판단할 것인가, 그 질문 자체에 응답하는 글이다.

2. "신뢰한다"는 말은 4가지 다른 것을 가리킨다

설교를 위해 AI 도구를 평가할 때, 한국 목회자들이 무의식적으로 한 단어로 묶고 있는 것들을 풀어보면 이렇다.

"이 도구의 답이 신학적으로 받아들일 만한가" - 신학적 정합성
"이 도구가 인용한 자료를 추적할 수 있는가" - 출처의 투명성
"이 도구를 쓰는 흐름이 내 분별 과정과 맞는가" - 워크플로우 정합성
"내가 입력한 자료는 어디로 가는가" - 데이터 프라이버시

이 네 가지는 별개의 질문이다. ChatGPT에 대해 "신뢰도 83%"라고 답했을 때, 어떤 영역의 신뢰를 말한 것인지는 응답자도 명확하지 않을 가능성이 높다. 신뢰는 분해될 때 비로소 판단 가능해진다.

아래 네 영역을 차례로 본다. 각 영역에서 도구에게 던질 구체적 질문을 마지막에 정리한다.

3. 신학적 정합성

3.1 무신학적 도구는 평균치를 답한다

ChatGPT, Gemini, Claude 같은 범용 LLM은 종교적·교파적 입장에 의도적으로 중립이다. 한국 보수 교단의 입장과 미국 진보 신학의 입장, 가톨릭의 입장이 모두 학습 데이터에 포함되어 있고, 모델은 이들을 평균해 답한다.

"평균치 신학"이라는 것은 사실상 무신학이다. 어느 입장도 명확하게 가지지 않은 답은 들을 때는 안전해 보이지만, 강단에 올리면 회중이 분별한다. "이 설교는 어느 자리에서 하는 말인가"라는 질문에 답이 없는 설교는, 결국 어느 회중에게도 닿지 않는다.

3.2 교단의 의미를 도구가 모를 때 일어나는 일

같은 마태복음 20장 1-16절을 두고 예장 합동의 보수 개혁주의 입장과 기감의 웨슬리 신학 입장은 강조점이 다르다. 도구가 이 차이를 모른 채 "포도원 일꾼 비유" 설교문을 생성하면, 결과물은 둘 중 어느 쪽도 만족시키지 못하는 평균값이 된다.

신학적 정합성을 가진 도구는 사용자가 자신의 신학 전통을 명시할 수 있게 하고, 그 전통의 강조점을 반영한 결과물을 내놓는다. 이는 단순한 옵션 선택이 아니라, 도구가 신학적 다양성을 인지하고 있다는 증거다.

3.3 점검 질문

이 도구는 어느 신학 전통을 기본값으로 두고 있는가? 그 전통이 명시되어 있는가?
한국 개신교 교단(예장·기감·침례·순복음·성결 등) 옵션을 선택할 수 있는가?
자료의 신학적 균형이 어느 쪽으로 기울어 있는지 검증 가능한가?

4. 출처의 투명성

4.1 할루시네이션은 "그럴듯한 거짓"이다

LLM이 가진 가장 심각한 위험 중 하나는 할루시네이션, 존재하지 않는 인용·구절·주석을 그럴듯하게 만들어내는 현상이다. "박윤선 주석에 따르면…"이라는 문장이 생성되었다고 해서 그 인용이 실제 박윤선 주석에 있다는 보장은 없다.

설교에서 이 위험은 단순한 사실 오류 이상이다. 강단에서 인용된 거짓 주석은 회중에 대한 신뢰 훼손이며, 후에 발견되었을 때 회복이 어렵다.

4.2 추적 가능성이 없으면 신뢰의 근거도 없다

신뢰할 수 있는 도구는 모든 인용에 대해 출처를 추적 가능한 형태로 제공한다.

성경 인용은 어떤 번역본인지 명시 (개역한글 / 개역개정 / 새번역 등)
주석 인용은 저자·출판사·페이지 또는 출처 데이터베이스 명시
사회 자료 인용은 매체·기사 일자·URL 명시

이것이 RAG(Retrieval-Augmented Generation) 구조의 의미다. 도구가 어디서 가져왔는지 사용자가 추적할 수 있어야, 그 인용을 강단에 올릴지 본인이 분별할 수 있다. 출처가 추적 불가능한 인용은, 강단에 올리는 순간 도구가 만든 위험을 사용자가 떠안는 구조가 된다.

4.3 저작권 안전성도 신뢰 항목이다

한국에서 개역개정(1998)은 대한성서공회의 저작권 보호 대상이며, 상업적 활용을 위해서는 별도 라이선스가 필요하다. 반면 개역한글(1961)은 저작권 보호 기간이 만료되어 자유롭게 활용할 수 있다.

도구가 명시 없이 개역개정 본문을 출력한다면, 그것은 사용자가 모르는 사이에 저작권 위반 위험에 노출된다는 의미다. 어떤 번역본이 사용되었는지가 도구의 약관·문서에 명확히 적혀 있어야 한다.

4.4 점검 질문

모든 인용에 출처가 매번 명시되는가? (성경 번역본 / 주석 / 사회 자료)
인용된 자료가 실제 존재하는지 사용자가 확인 가능한가?
사용된 성경 번역본이 저작권상 안전한가?

5. 워크플로우 정합성

이 블로그의 1편 「AI 시대, 목사의 설교는 어떻게 달라져야 하는가」에서 정리한 3대 원칙 중 마지막은 이것이었다.

"분별은 반드시 남아야 한다."

도구가 이 원칙과 정합하는지는, 도구의 사용 흐름 자체에서 드러난다.

5.1 "결과물 받아 끝" vs "초안 → 분별 → 자기 언어"

두 가지 흐름이 있다.

사용자가 주제를 입력하면 완성된 설교문이 출력되고, 사용자가 그것을 그대로 강단에 올리는 흐름. 이 흐름은 분별의 자리를 도구 안에 두지 않는다. 분별이 발생할 시간과 공간이 워크플로우에 없다.
사용자가 출발점을 입력하면 초안이 출력되고, 사용자가 그 초안을 자신의 언어와 신학으로 다시 다듬는 흐름. 이 흐름은 분별을 도구 사용 과정 안에 내장한다.

도구가 무엇을 출력한다고 주장하는지보다, 출력 후 사용자가 무엇을 하도록 흐름이 설계되어 있는지를 봐야 한다.

5.2 편집 도구의 풍부함이 분별의 실현 가능성을 결정한다

분별이 워크플로우에 있어도, 그 분별을 실행할 도구가 없으면 사실상 없는 것과 같다. 다음을 확인하라.

부분 재생성: 한 단락만 다시 쓸 수 있는가, 아니면 전체를 다시 생성해야 하는가?
인라인 편집: 결과물을 일반 에디터처럼 자유롭게 고칠 수 있는가?
부분 추가: 특정 위치에 새 내용(예화·기도문·적용)을 끼워 넣을 수 있는가?

이것은 단순한 편의 기능이 아니라 분별의 실행 인프라다. 분별할 자유는 있는데 분별을 적용할 도구가 없는 경우, 사용자는 결국 결과물을 그대로 사용하게 된다.

5.3 점검 질문

도구의 출력물이 "최종"으로 위치되는가, "초안"으로 위치되는가?
결과물의 일부분만 재생성하거나 다듬을 수 있는가?
결과물에 사용자의 분별 흔적이 남을 자리가 있는가?

6. 데이터 프라이버시

마지막 영역은 자주 간과되지만 가장 실질적이다.

6.1 입력한 자료는 어디로 가는가

설교 준비에 입력한 자료에는 다음이 포함될 수 있다.

본인의 묵상 노트
회중에 대한 관찰 (특정 가족·상황 언급 가능)
교회 내부 갈등에 대한 분별
미공개 설교 초안

이 자료들이 AI 모델 학습에 사용되는지, 외부에 노출되는지는 도구마다 다르다. ChatGPT 일반 계정과 ChatGPT Team/Enterprise 계정만 해도 학습 사용 정책이 다르다. 도구 약관을 읽지 않으면 사용자는 자신이 무엇에 동의했는지 모른다.

6.2 한국에서 적용되는 법

한국에서는 개인정보보호법(PIPA)이 적용된다. 회중의 이름·상황을 입력한 자료가 해외 서버로 전송된다면, 도구의 처리 방식이 PIPA 기준을 충족하는지 확인이 필요하다. 회중 정보가 담긴 자료를 어떤 도구에 입력할지는, 도구 약관의 문제일 뿐 아니라 사용자 본인이 자신의 기준으로 결정해야 할 영역이다.

6.3 점검 질문

이 도구에 입력한 자료가 모델 학습에 사용되는가?
입력한 자료를 사용자가 삭제 요청 시 실제로 삭제되는가?
자료가 저장·처리되는 서버 위치와 보안 정책이 명시되어 있는가?

7. 한 장 체크리스트

위 12개 질문을 한 장으로 정리한다. 어떤 AI 도구를 평가하든(Keryx든, ChatGPT든, 자체 구축한 프롬프트 워크플로우든) 같은 잣대로 적용 가능하다.

영역	점검 질문
신학적 정합성	1. 어느 신학 전통이 기본값인가?
	2. 한국 교단 옵션을 선택할 수 있는가?
	3. 자료의 신학적 균형이 검증 가능한가?
출처의 투명성	4. 인용 출처가 매번 명시되는가?
	5. 인용된 자료가 실제 존재함을 확인 가능한가?
	6. 사용된 성경 번역본이 저작권상 안전한가?
워크플로우 정합성	7. 출력물이 "최종"인가 "초안"인가?
	8. 부분 재생성·인라인 편집이 가능한가?
	9. 사용자의 분별 흔적이 남을 자리가 있는가?
데이터 프라이버시	10. 입력 자료가 모델 학습에 사용되는가?
	11. 삭제 요청이 실제 처리되는가?
	12. 서버 위치·보안 정책이 명시되어 있는가?

12개 중 명확히 답할 수 없는 항목이 많을수록, 그 도구의 신뢰도는 단일 점수로 환원할 수 없는 영역에 머물러 있다는 의미다. "AI를 신뢰하는가"라는 질문은, 사실 이 12개 질문에 각각 답한 후에야 의미를 가진다.

8. 신뢰는 도구가 아니라 도구 사용자가 만든다

1편에서 정리한 3대 원칙은 그대로 유효하다. 강단은 위탁할 수 없고, 서재는 확장될 수 있고, 분별은 반드시 남아야 한다.

AI 설교 도구의 신뢰도는, 결국 도구가 위 네 영역에서 사용자의 분별을 가능하게 하느냐의 문제다. 자료를 추적할 수 있게 하고, 신학 전통을 선택하게 하고, 결과물을 다듬게 하고, 입력 자료를 안전하게 보관할 때 도구는 분별의 인프라가 된다.

신뢰는 도구가 약속하는 것이 아니라, 사용자가 도구의 구조 위에서 실제로 분별할 때 형성된다.

83%의 신뢰와 55%의 만족 사이 28%p의 갭은, 결국 도구가 분별의 자리를 충분히 마련하지 못해서 생긴 갭이다. 그 갭을 메우는 일은, 도구의 책임이자 사용자의 책임이다.

AI 설교 도구의 신뢰도는 단일 점수로 답할 수 없습니다. 신학적 정합성·출처의 투명성·워크플로우 정합성·데이터 프라이버시, 이 네 영역으로 나눠 각각 판단해야 합니다. 각 영역에서 도구가 점검 질문에 명확히 답할 수 있을수록 신뢰의 근거가 분명해집니다. 한국교회 트렌드 2026 조사에서 AI 도구 신뢰도(83%)와 만족도(55%) 사이 28%p의 갭이 나온 이유도, 이 네 영역을 분리하지 않고 하나로 묶어 평가했기 때문입니다.

Q.ChatGPT로 설교 준비해도 괜찮나요?

ChatGPT는 종교적·교파적 입장에 의도적으로 중립적이라, 학습 데이터의 평균치를 답합니다. 한국 개신교 보수 교단의 입장과 미국 진보 신학의 입장이 평균된 답은, 어느 회중에게도 정확히 닿지 않습니다. 또한 ChatGPT는 설교용 RAG 구조가 없어 인용한 주석·구절이 실제 존재하는지 사용자가 직접 검증해야 하며, 입력 자료의 학습 사용 정책도 약관에서 직접 확인해야 합니다. 목회자 전용으로 설계된 도구는 신학 전통 선택, 출처 추적, 데이터 정책 명시를 워크플로우 안에 내장한다는 점에서 차이가 있습니다.

Q.AI 할루시네이션이 무엇이며, 설교 준비에서 어떻게 막나요?

할루시네이션은 LLM이 존재하지 않는 인용·구절·주석을 그럴듯하게 만들어내는 현상입니다. "박윤선 주석에 따르면…"이라는 문장이 생성되었다고 해서 그 인용이 실제 박윤선 주석에 있다는 보장은 없습니다. 강단에서 인용된 거짓 주석은 회중 신뢰를 훼손하며 회복이 어렵습니다. 방어는 세 단계로 합니다. (1) 모든 인용에 출처가 명시되는 RAG 기반 도구 사용, (2) 인용된 자료가 실제 존재하는지 사용자 확인, (3) 강단 사용 전 분별·검토 단계 확보.

Q.AI 설교 도구는 교단별로 다른 결과를 내야 하나요?

같은 마태복음 20장 1-16절(포도원 일꾼 비유)을 두고 예장 합동의 보수 개혁주의와 기감의 웨슬리 신학은 강조점이 다릅니다. 도구가 신학 전통을 명시할 수 있게 하지 않으면 결과물은 어느 입장에도 정확히 서지 못한 평균값이 됩니다. 따라서 도구가 한국 개신교 교단(예장·기감·침례·순복음·성결 등) 옵션을 제공하는지가 신뢰 판단의 중요한 기준입니다.

Q.AI에 입력한 설교 자료는 어디로 가나요?

도구마다 정책이 다릅니다. 일부는 입력 자료를 모델 학습에 사용하고, 일부는 사용하지 않습니다. ChatGPT 일반 계정과 Team/Enterprise 계정도 학습 사용 정책이 다릅니다. 한국에서는 개인정보보호법(PIPA)이 적용되며, 회중의 이름·상황이 담긴 자료를 입력하기 전 도구의 약관·삭제 정책·서버 위치를 확인하는 것이 필요합니다. 목회 노트·회중 정보를 입력하는 도구는 일반 챗봇과 같은 기준으로 평가하기보다, 데이터 처리 정책이 명시된 전용 도구를 선택하는 것이 안전합니다.

Keryx 14일 무료 체험으로 직접 확인해보기