posted by 내.맘.대.로 2026. 3. 13. 15:41

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

http://jikji.duckdns.org:8085/cloud/ThoriumReader_v0.1.0.zip

 

장애인접근성과 팝업 주석을 지원하는 Thorium(토륨) 전자책 뷰어로 만든 플러그인입니다.

리디움 뷰어를 이어받아 개발하고 있는 뷰어로, EPUB3, 장애인접근성이 강화되어 있습니다.

 

장애인접근성 전자책을 제작하거나, 팝업 주석을 넣을 때 기능이 제대로 작동하는지 보려면 불편했어요.

유통사 PC 뷰어는 팝업을 지원하지 않기 때문에 모바일 뷰어에 넣어 보거나

팝업 주석을 지원하는 Thorium PC 뷰어나 캘리버 뷰어를 사용했습니다.

하지만 이제 플러그인으로 팝업 주석을 바로 볼 수 있어요.

아직 베타 버전입니다. 손 볼 곳이 많이 있는데, 토큰이 딸려요 ㅜ.ㅜ

 

뷰어 기본 화면입니다. 여기까지는 별거 없어요.

 

하지만 주석 표시(epub:type="noteref")가 되어 있는 링크를 클릭하면 이렇게 팝업으로 표시됩니다.

 

팝업 주석 영한대역을 만들며 주석 확인이 어려웠어요.

그래서 AI한테 만들어 달라고 했습니다^^

300x250
posted by 내.맘.대.로 2026. 3. 12. 09:04

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

http://jikji.duckdns.org:8085/cloud/pdf2img_demo.zip

* PDF 10페이지를 크롭 할 수 있는 데모 앱입니다.

 

이 앱은 PDF에서 이미지를 크롭하는 기능을 갖고 있습니다.

100% 바이브코딩으로 복붙만 해서 만들었어요.

기능은 아주 단순합니다.

PDF 페이지를 이미지로 저장 하고, 표, 도표, 이미지를 찾아 자동으로 좌표를 지정합니다.

좌표가 잘못 잡히는 경우가 있기 때문에 좌표 수정도 가능합니다.

크롭 할 이미지 좌표를 다 정리한 후 [확인]을 누르면 crop 파일에 크롭 한 이미지가 저장됩니다.

EPUB을 만들 때 PDF에서 이미지를 추출하는 시간이 오래 걸립니다.

그래서 시간을 절약하고자 만들었는데, 이미지가 많은 책은 2시간 넘게 걸리던 작업을 30분, 익숙해 진 후에는 10~15분 만에 정리가 끝납니다.

다른 분들도 참고하실 수 있도록 10쪽 기능 제한을 걸고 데모를 올려드립니다.

 

1. 앱을 실행하면 이런 화면이 나옵니다. [불러오기]를 눌러도 되고, 편하게 PDF 파일을 드래그 하면 파일이 열립니다.

 

2. 작업을 하기 전에 설정을 먼저 맞추세요. 출력 유형, 해상도, 이미지 품질 등을 설정 할 수 있습니다.

 

3. PDF를 불러오면 이미지로 변환을 해 resource 폴더에 저장합니다. 이미 이미지로 변환을 한 상태라면 불러오기로 resource 폴더를 지정 할 수도 있습니다.

 

4. PDF 또는 이미지를 불러온 후 [분석]을 누르면 이미지가 있는 파일을 찾아 이미지 좌표를 잡습니다. 

 

5. 이미지가 있는 페이지는 썸네일에 표시가 되고, 이미지 좌표를 알아서 잡습니다. 이 작업이 이미지를 크롭하는 시간을 절약해줍니다. 도표나 표, 복잡하게 겹쳐 있는 이미지는 좌표가 제대로 집하지 않습니다. del키로 좌표를 삭제 할 수 있고, 레이어 순서를 변경할 수 있습니다. 모서리의 둥근 부분을 클릭해 조절하면 좌표를 수정 할 수 있습니다.

 

6. 좌표 지정이 끝나면, [실행]을 느릅니다. 그럼 crop 폴더에 좌표를 잡은 부분만 크롭해 저장을 합니다. 파일명은 페이지 번호가 붙습니다. 한 페이지에 이미지가 2개 이상이면 끝에 -1, -2...로 숫자가 붙습니다.

 

간단한 프로그램이지만 전자책 만드는 시간을 많이 절약해 줍니다.

전엔 PDF를 이미지로 저장하고, 이미지 사이즈를 조절하고, 이미지가 있는 페이지만 찾아 분리하고, gimp로 불러와 하나씩 이미지를 크롭했어요. 이렇게 하면 40~50개 정도 이미지가 있으면 1시간 이상, 오래 걸리는 책은 2시간 가까이 걸렸습니다.

이 앱을 만든 후에는 50개 정도면 15분 내에 이미지 정리가 끝납니다.

300x250
posted by 내.맘.대.로 2026. 3. 4. 10:14

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

http://jikji.duckdns.org:8085/cloud/pdf2html_demo.zip

 

전자책 제작자가 코딩만 하네요 ^^;

hello world 정도 만드는 수준의 코딩 실력으로 AI를 이용해 만든 앱입니다.

이 앱은 PDF를 EPUB으로 편집하기 위한 XHTML 파일로 변환합니다.

아직 만드는 중이라 PDF 10쪽만 변환하도록 기능을 제한했습니다.

 

인터넷 찾아 보면 PDF를 EPUB으로 변환해 주는 웹서비스나 앱도 많은데 왜 이런 앱이 필요해? 라고 하시는 분도 많을거예요.

네. 그런 앱이 좋다면 그 앱을 사용하시면 됩니다.

 

이 앱은 PDF를 EPUB으로 만들어 출간을해야 하는 출판계에 계신 분들을 위한 앱입니다.

뿐만 아니라 PDF 원고를 html로 저장 후 hwp로 불러와 편집을 할 수 있습니다.

원고 없이 PDF로 보관하고 있는데 개정판 등을 내기 위해 재편집을 해야 할 때 유용합니다.

 

너무나 당연한 얘기지만, 

이미지 PDF나 아웃라인 PDF는 사용 할 수 없습니다. 이런 PDF는 OCR을 이용하세요.

 

이 앱의 특징은, 

1. PDF의 글자 편집 스타일을 그대로 유지해 준다.

    - 글꼴, 글자크기, 색상, 첨자, 기울임, 진하게 등의 기본 스타일을 그대로 유지합니다.

    - 추출하고 싶은 스타일을 직접 지정 할 수 있습니다.

2. 문단/줄 정리

    - PDF에서 텍스트를 추출 할 때 가장 큰 문제가 문단이 잘리는 문제가 있습니다.

다 자란 새들이 둥지를 떠나듯 성장한 자녀는 부모를 떠난
다. 의심의 여지는 추호도 없는, 유구한 본능이며 당연한 사
실이다. 생애 이벤트(교육, 연애, 취업, 결혼, 출산 등)를 거치면
서 아이는 어른이, 자녀는 부모가 된다. 그런데 오늘날 이
현상은 사뭇 달라졌다. 아들딸이 집을 떠나지 않거나, 나갔
다가 되돌아온 경우가 급격히 늘어난 것이다.

 

이렇게 잘린 문단을 정리해야 하는데, 정리를 하면 이런 문제가 생기지요.

다 자란 새들이 둥지를 떠나듯 성장한 자녀는 부모를 떠난 다. 의심의 여지는 추호도 없는, 유구한 본능이며 당연한 사 실이다. 생애 이벤트(교육, 연애, 취업, 결혼, 출산 등)를 거치면 서 아이는 어른이, 자녀는 부모가 된다. 그런데 오늘날 이 현상은 사뭇 달라졌다. 아들딸이 집을 떠나지 않거나, 나갔 다가 되돌아온 경우가 급격히 늘어난 것이다.

 

이렇게 잘린 줄이 신국판 300쪽 기준으로 3000개 ~ 5000개 정도 나옵니다.

제가 표시를 해서 눈에 잘 보이지만, 저런 부분은 찾아 정리하려면 시간이 오래 걸려요.

이런 문단을 정리해 줍니다.

3. 일괄 처리

PDF 한두개라면, 시간 들여 하나씩 정리하면됩니다. 그런데 10개, 20개를 정리하려면 시간이 많이 걸리지요?

여러개의 PDF를 일괄로 처리하는 일괄 처리 기능을 추가했습니다.

일괄 처리는 PDF를 HTML로 추출, 문단 정리, LLM 정리를 알아서 진행합니다.

 

**사용 방법**

1. 앱을 실행하세요.

(윈도우에서 강제로 Xbox Game Bar(ms-gamingoverlay)를 띄우려고 시도하는데, 이걸 막는 방법을 찾지 못했어요. 이와 관련한 메시지가 뜨면, 무시하면 됩니다.)

 

2. PDF를 불러온 후 추출 옵션을 설정하세요.

추출 할 필요 없는 쪽번호나 머리글 영역이 있다면 추출 범위를 설정해 본문만 지정합니다.

추출 할 스타일을 선택 할 수 있습니다. 추출을 원하는 스타일을 선택하세요.

 

3. [XHTM 저장] 버튼을 눌러 XHTML 파일로 저장을 합니다.

저장을 하면 바로 xhtml 정리를 할 것인지 물어봅니다.

YES를 누르면 XHTML 정리로 넙어갑니다.

나중에 작업을 하려면 No를 누르세요. [xhtml 정리] 탭에서 저장한 파일을 불러 올 수 있습니다. 

 

4. xhtml 정리 - 1. 태그 정리.

PDF에서 저장한 xhtml 파일은 문단이 줄 단위로 나눠져 있습니다.

[태그 정리]는 줄 단위로 구분된 문단을 문단 단위로 연결해 주는 기능입니다.

[1. 태그 정리]를 선택한 후 [실행]을 누르세요.

그럼 [PDF 파일명_raw_merged.xhtml]라는 xhtml 파일이 만들어 지고, 아래처럼 before에 단어가 들어갑니다.

단어를 클릭하면 html 편집 창에 단어가 있는 위치로 이동을 해요.

단어를 보고 띄어쓰기 문제가 있는 항목을 수정 할수 있습니다.

하지만, 신국판 300쪽 책 한권에 3000~5000개 정도 있는 단어를 모두 확인하기 힘들지요?

 

5. xhtml 정리 - 2. LLM 정리

단어 띄어쓰기는 LLM을 이용해 정리 할 수 있습니다.

먼저 ollama를 설치하세요. $200 넘는 유료 AI 모델을 사용한다면, 유료 모델을 권해드려요.

https://ollama.com/

저처럼 $20짜리 기본 모델을 쓰거나 유료 모델을 쓰지 않는다면 ollama를 이용해 돈 들이지 않고 LLM을 사용 할 수 있습니다.

Ollama 사용법은 인테넷에 많이 있으니 여기서는 설명하지 않겠습니다.

모델을 다운로드 받아야 하는데 gpt-oss:120b-cloud를 설치하세요.

Ollama를 설치하고, 모델을 다운로드 받았다면 창을 닫으세요.

그리고 LLM 정리로 돌아와 오른쪽 위에 있는 [API/프롬프트 설정]을 누르세요.

모델 명 옆에 있는 [불러오기]를 누르면 gpt-oss:120b:cloud가 나올거예요.

제대로 설정되었는지 확인하고 싶다면 [API 연동 확인]을 눌러보세요. AI가 인사하면 성공입니다.

이제 설정 창을 닫습니다.

 

이제 2. xhtml 정리(LLM) [실행] 버튼을 누릅니다.

시간이 오래 걸릴 수 있어요. 기다리면 됩니다.

 

7. 결과 확인

작어이 끝나면 after에 작업 결과가 표시됩니다.

Before는 수정 전, After는 수정 후 결과입니다.

[sp]는 띄어쓰기(spaced)되어야 할 단어, [nsp]는 붙여야 하는(nospaced)단어, [amb]는  확인이 필요한(ambiguous) 단어를 의미합니다.

결과는 [PDF 파일명_raw_merged_llm_clean.xhtml]으로 자동 저장 됩니다.

만약 단어 정리가 제대로 되지 않는다면 프롬프트를 수정해 보세요. AI 모델에 따라 프롬프트가 결과에 영향을 크게 줍니다.

 

 

 

8. 일괄 처리

여러 개의 PDF를 처리해야 할 때 사용합니다.

PDF 파일을 추가하고, 출력 폴더를 지정 후, [실행]을 누릅니다.

이 때 주의해야 할 것은, PDF 파일 별로 추출 범위가 다를 수 있습니다. 그러니 같은 판형에 시리즈 도서 처럼 편집이 유사한 도서 위주로 작업을 하세요.

300x250
posted by 내.맘.대.로 2026. 3. 3. 08:49

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

tab_pdf.py
0.03MB

PDF는 EPUB으로 변환하기 어렵습니다.

어느정도로 어렵냐 하면, 하나 변환하는 데 한 달 정도 생각을 해야 할 정도로 어렵습니다.

왜?

다음 문단을 보세요. PDF에서 뽑은 텍스트입니다.

===============

나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해
산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전
히 ‘짬뽕’을 좋아한다. 다만 이번에 좋아하는 짬뽕은 음식이 아니라
금융상품이다. 주식의 거래 방식과 펀드의 분산투자 기능을 결합

...

이러한 매력 덕분에 ETF 시장은 폭발적으로 성장했다. 최근 

5년간 글로벌 ETF 자산은 연평균 18% 증가했고,22 2024년 한 해에

만 1.6조 달러, 우리나라 돈으로 약 2,240조 원(환율 1,400원 가정)이 

새로 유입되었다.33 지금은 전 세계적으로 14조 달러 이상이 ETF에 

투자되어 있을 만큼 인기가 높다. 이렇게 인기가 높은 이유는 기존

...

이 책을 덮을 때쯤, 독자들은 다음의 내용들을 온전히 자신의 것으로 만들게 될 것이다.
ETF, 주식, 채권, 금 등 기본 개념의 이해
월배당이 가능한 구조와 원리
세후, 건강보험료, PR까지 고려한 순월배당 개념
국내외 인기 월배당 ETF의 특징과 사례
모든 투자에 필요한 경제 지식과 자산배분 원리
투자자 심리와 편향 교정
이 책은 1장과 2장을 먼저 읽으면 기본 개념을 이해하는 데 도움이 된다.

================

 

이 중에

(환율 1,400원 가정)

22, 33은 주석 위첨자 2이고, 색은 주황색입니다.

는 본문 보다 글자 크기가 작습니다.

 

ETF, 주식, 채권, 금 등 기본 개념의 이해
월배당이 가능한 구조와 원리
세후, 건강보험료, PR까지 고려한 순월배당 개념
국내외 인기 월배당 ETF의 특징과 사례
모든 투자에 필요한 경제 지식과 자산배분 원리
투자자 심리와 편향 교정

 

이 부분은 색과 글꼴이 다르고 앞에 글머리기호가 붙습니다.

여기에 행갈이 된 부분을 자동 정리하면 다음과 깉이 정리됩니다.

 

해 산물이

여전 히

해에 만

 

어떤 단어는 붙여쓰기를, 어떤 단어는 띄어쓰기를 해야 하는데 이를 전부 확인해야하지요.

자동으로 처리 후 띄어쓰기만 확인하면 어떨까요?

=========

나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해 산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전 히 ‘짬뽕’을 좋아한다. 다만 이번에 좋아하는 짬뽕은 음식이 아니라 금융상품이다. 주식의 거래 방식과 펀드의 분산투자 기능을 결합  

=========

여기에서 띄어쓰기가 잘못 된 부분을 찾아야해요. 책 한권에 3~4천줄 정도 되니, 그만큼의 단어를 찾아 확인해야 합니다.

그래서 오래 걸려요.

여기에 한자, 영문 병용표기라도 1000개쯤 들어가 있고, 본문 중간에 다른 글꼴로 단어를 강조한다면 원고를 인디자인으로 편집하는 시간 보다 pdf를 epub으로 변환하는 시간이 훨씬 오래 걸립니다.

 

이 문제를 해결 할 방법이 없을까 고민하다 AI를 이용해 앱을 하나 만들었습니다.

이 앱은 총 3가지 작업을 합니다.

 

1. PDF의 글자 속성을 반영해 HTML로 변환

PDF의 본문 글꼴을 파악해 본문과 다른 스타일을 글자를 자동으로 인식합니다.

제목은 heading 태그로, 기울임, 진하게, 글자색, 첨자 등은 해당 스타일 속성을 적용합니다.

외국어 병용표기가 1000개쯤 된다 해도, 스타일로 구분 할 수 있어 일괄 변경을 할 수 있습니다.

 

2. 줄 병합

이렇게 추출한 html 파일은 2단계로 정리를 합니다.

첫번째는 줄 병합입니다. 

아래와 같이 분리된 줄을

==========

나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해
산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전

==========

아래 처럼 연결해 줍니다.

==========

나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해 산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전

==========

그런데 여기서 문제가 생깁니다. 빨간색 부분, 두 줄이 연결된 부분의 띄어쓰기를 확인해야 하지요.

그래서 정리를 할 때 확인해야 하는 부분을 별도의 태그로 감쌌습니다.

연결 부분은 오른쪽에 목록으로 확인 해 직접 수정 할 수 있습니다. 하지만 수천개를 하나씩 확인하기 어렵지요.

테스트용으로 사용한 이 책만 해도 3700줄이 연결 부위가 있습니다. 이를 해결해야겠지요.

 

3. LLM을 이용한 단어 병합

LLM을 이용해 단어를 병합하도록 합니다. 유료 LLM은 api를 사용하려면 월 200달러 이상 비용을 지불해야합니다.

그래서 ollama를 이용해 로컬 LLM을 사용하도록 만들었습니다.

시간은 오래 걸리지만 비용이 들지 않습니다. 

LLM이 100% 정확하게 문제를 해결해 주지는 않습니다. 

그래서 LLM 분석 전과 후 결과, AI의 분석 결과를 표시했습니다.

 

[채택 된다.]는 LLM이 [채택된다.]로 공백을 제거해야 한다(nsp)고 판단했습니다. 

<em class="llm_gramma_after" data-before="채택 된다." data-result="nospaced">채택된다.</em>

 

[이 해]는 LLM이 모호하다(amb)고 판단을 했습니다. 문맥에 따라 [이해]가 될 수도 [이 해]가 될 수도 있다고 본 것이지요.

<em class="llm_gramma_after" data-before="이 해" data-result="ambiguous">이 해</em>

오른쪽 분석 창에서 목록을 클릭하면 html 파일의 위치로 이동합니다.

내용을 확인하고 html 창에서 수정을 할 수 있습니다.

수정을 마치면 [변경 사항 저장]을 눌러 저장을 할 수 있습니다.

 

LLM 분석은 모델에 따라, 그리고 프롬프트에 따라 결과가 달라집니다.

프롬프트를 잘 설계하면 gemma3 4b 모델도 잘 처리해 줍니다. 

 

4. [일괄 처리]

여기에 기능을 하나 더 추가했습니다.

LLM 정리는 시간이 오래 걸립니다. 2000만원쯤 들여 5090 그래픽카드를 3~4개 정도 달 수 있는 재력이 있거나, 매월 30만원씩 유료 모델을 사용할 재력이 된다면 모르겠지만, 개인 PC에서 LLM을 돌리면 속도가 아주 느립니다.

한 번에 10개정도 되는 PDF를 편집해야 한다면 시간이 정말 오래 걸리겠지요.

그래서 [일괄 처리] 기능을 추가했습니다.

일괄 처리는 여러 PDF를 추가해 실행 할 수 있습니다. 실행을 하면 시간은 오래 걸리겠지만 PDFtoHTML, 줄 병합, LLM 분석을 차례로 진행합니다.

제 컴퓨터에서는 300쪽 내외의 책 2종을 분석하는데 3~4시간 정도 걸렸습니다.

 

이 정도면 PDF도 EPUB으로 빠르게 변환이 가능 할 것 같습니다.

 

참고용으로 PDF를 html로 변환하는 코드 첨부했으니 바이브 코등 공부하시는 분들 참고하시기 바랍니다.

300x250
posted by 내.맘.대.로 2026. 2. 12. 21:39

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

 

출판 편집자에게 필요한 PDF 오탈자 검사 프로그램입니다.

http://jikji.duckdns.org:8085/cloud/gramma_v13.zip

 

인쇄전 PDF로 최종 검수 할 때 오탈자 찾기 힘들거예요.

20~30만자 중에 두세개 있는 오탈자를 찾기 위해 3교, 4교, 5교... 끊임 없이 반복해 원고를 보지만 그래도 눈에 들어오지 않습니다.

최종 검수 끝내고, 인쇄에 들어갔는데 인쇄본에서 중요한 오타가 생기면 난감하지요.

인쇄본 PDF는 맞춤법 검사기로 확인을 할 수도 없기 때문에 LLM을 이용한 맞춤법 및 오탈자 검사기를 만들어 봤습니다.

ollama를 이용한 로컬 AI를 사용하기 때문에 AI 비용도 들지 않습니다.
(다만, 저사양 PC에서는 엄청나게 오랜 시간이 걸린다는 것이 함정)

 

샘플용으로 오타를 몇개 삽입하고 분석한 결과입니다. 

테스트를 위해 3페이지의 PDF에서 1페이지만 골라 임의로 4개의 단어를 맞춤법이 틀리게 하거나,

[솔로몬 왕의 강산] 처럼 맞춤법은 맞지만 문맥에 맞지 않는 단어를 삽입해 검사를 해봤습니다. gemma3:27b 모델을 이용했고요.

4개 중 3개를 찾았고, 하나는 문제가 아닌 부분을 잡아냈습니다.

PDF의 텍스트 추출 문제로 인해 행갈이 부분의 단어 띄어쓰기 문제가 생기는데... 이 부분은 설명을 하려면 길어지니 패스~

 

이렇게 분석 후 [저장]을 누르면 PDF에 [주석]으로 표기가 됩니다. 물론 저장하기 전에 [x]를 눌러 [게 널리] 처럼 잘못 인식된 부분을 삭제 할 수 있습니다.

 

이 프로그램이 맞춤법, 오탈자를 완벽히 찾아내지는 못하겠지만,

사람이 놓친 오탈자 몇개 정도는 찾아 낼 수 있을 거예요.

4교, 5교, 6교 마친 후에 한번 돌려서 최종 확인 하는 용도로 쓰면 됩니다.

 

물론, 고사양 LLM을 사용하고 맞춤법 검사를 위한 최적의 프롬프트를 찾아낸다면 더 정확한 오탈자 검사를 할 수 있습니다.

뿐만 아니라 프롬프트 설정에 따라 어색한 문장의 윤문도 도움을 받을 수 있습니다.

 

[[사용 방법]]

 

1. 앱을 실행하면 다음과 같은 화면이 나옵니다.

 

2. ollama 설정

이 앱은 로컬 LLM을 사용합니다. 

내 컴퓨터에서 실행하는 AI라고 생각하면 이해하기 쉽습니다.

chat gpt나 gemini 처럼 웹 브라우저에서 채팅 형태로만 사용 할 수 습니다.

이런 AI를 채팅 형식이 아닌, 이런 프로그램에 사용하려면 비싼 요금제를 사용해야 합니다.

업체 별로 요금제가 다르지만, 대략 200달러/월 혹은 글자 하나 당 비용을 지불해야 하지요.

https://openai.com/ko-KR/index/openai-api/

 

ollama를 이용하면 이런 비용 없이 AI를 사용 할 수 있습니다.

단, 컴퓨터가 좋아야 해요. 그리고 거대 기업의 AI보다 속도가 느리고 성능도 떨어집니다.

하지만 램 32gb 정도 되면 맞춤법 검사 정도는 할 만한 AI를 사용 할 수 있습니다.

 

2.1 Ollama 설치 및 모델 연결

아래 사이트에 가서 Ollama를 다운로드 하고 설치하세요.

https://ollama.com/

 

Ollama

Ollama is the easiest way to automate your work using open models, while keeping your data safe.

ollama.com

 

2.2 ollama를 실행하고, 대화 할 모델을 선택 후 [안녕]이라고 입력합니다.

처음 사용하면 AI(LLM) 모델을 다운로드 합니다.

용량이 크니, 다운로드 후 채팅창에 답변이 나올 때 까지 기다리세요. ollama 사용법은 인터넷을 검색하면 자세히 나옵니다. 여기서는 이정도로 간단히 설명하겠습니다.

 

추천 모델 :

테스트용으로는 용량이 작은 [gemma3:1b]를 권해드립니다.

PC 메모리가 16gb라면 gemma3:12b 또는 gemma2:9b 모델을 사용하세요.

PC의 메모리 용량이 32gb 이상이라면 gemma3:27b 또는 gpt-oss:20b 모델을 추천합니다.

고사양 컴퓨터라면 gpt-oss:120b를 사용하세요. 맞춤법 검사를 가장 잘 합니다.

 

컴퓨터 사양이 낮으면 질문을 했을 때 답변 하는데 시간이 오래 걸립니다. 이런 컴퓨터는 맞춤법 검사도 오래 걸려요.

컴퓨터 사양이 좋으면 질문을 하자 마자 답변을 합니다. 이런 컴퓨터는 검사를 빨리 해요.

 

2.3 모델을 다운로드 한 후 맞춤법 검사 앱으로 돌아옵니다.

왼쪽 상단에 있는 [설정]을 누르면 아래와 같은 설정 창이 나옵니다.

[모델 목록 가져오기]를 눌러보세요. ollama가 설치되어 있고 사용할 모델을 다운로드 했다면 사용 할 수 있는 모델 목록을 볼 수 있습니다. 설치한 모델을 선택하세요. 그리고 API 연결 테스트를 누릅니다.

처음에는 답변 시간이 오래 걸립니다. 메모리에 AI가 올라가는 시간이 필요해요. 한 번 올라가면 그 다음 부터는 조금 더 빨라집니다.

오류가 나면 다시 한번 API 연결 테스트를 누르세요. 메모리에 올라가는 시간이 오래 걸리면 중간에 답변을 안한다고 생각해 오류가 나옵니다.

 

 

이렇게 AI가 답변을 하면 AI를 사용 할 준비가 된 것입니다.

 

3. 맞춤법 검사 프롬프트 수정

맞춤법 검사 앱에서 가장 중요한 것이 [프롬프트]입니다.

AI한테 맞춤법 검사를 어떻게 하라고 지시를 잘 할 수록 결과물이 좋아집니다.

기본 프롬프트를 사용해 보고, 결과를 확인 후 조금식 개선을 해 보세요.

단, 다음 내용은 ***절대로*** 수정하면 안됩니다.

 

결과는 반드시 오직 JSON 배열 포맷으로만 응답해야 합니다.

형식: [{"원문": "틀린단어", "추천": "수정단어", "이유": "수정 이유"}, ...]

원문 필드는 띄어쓰기를 포함하여 원본 텍스트에 있는 그대로여야 합니다.

설명이나 서론 없이 JSON 데이터만 출력하십시오.

 

기본 프롬프트는 되도록이면 그대로 두고, [새 프롬프트]로 프롬프트를 추가해 사용하세요.

[새 프롬프트]에도 마지막에 아래 내용은 반드시 추가해야 합니다.

결과는 반드시 오직 JSON 배열 포맷으로만 응답해야 합니다.

형식: [{"원문": "틀린단어", "추천": "수정단어", "이유": "수정 이유"}, ...]

원문 필드는 띄어쓰기를 포함하여 원본 텍스트에 있는 그대로여야 합니다.

설명이나 서론 없이 JSON 데이터만 출력하십시오.

 

전처리 프롬프트는 맞춤법 검사 전에 PDF에서 추출한 텍스트의 줄바꿈을 정리하는 기능입니다.

옵션이기 때문에 전처리 옵션을 켰을 때만 사용합니다.

이것 저것 해 봤는데 이 프롬프트가 가장 잘 정리를 해 줘요. 이 부분도 수정 할 수 있습니다.

 

전처리가 필요한 이유는 PDF의 특성 때문입니다.

PDF에서 텍스트를 복사해 메모장에 붙여넣어 보세요.

 

헨리 라이더 해거드(1856–1925)는 영국의 소설가이자 모험문학의 개척자로, ‘솔로
몬 왕의 광산’, ‘그녀’ 등으로 유명하다. 그는 19세기 말 제국주의 시대의 탐험 열
풍 속에서 미지의 아프리카를 배경으로 한 이야기를 통해 인간의 욕망, 신비, 문
명과 야만의 경계를 탐구했다.

 

이렇게 행 끝이 줄바꿈 됩니다. 그럼 AI는 [탐험 열풍]으로 읽지 않고 [탐험 열] [풍 속에서]로 읽어요.

이 문제를 해결하기 위해 줄바꿈 된 부분을 연결해 주는 작업을 먼저 하는 기능이에요.

 

4. 분석 설정

분석 설정은 분석 할 PDF의 페이지, 페이지 내 범위 등을 설정합니다. 

분석 단위는 한 페이지 단위로 할 것인지, 한 문장식 끊어 할 것인지를 결정합니다.

문장 단위로 하면 더 섬세하기 분석하지만 시간이 오래 걸리고, 문장 단위로 하면 정확도는 떨어지지만 빨라집니다.

 

분서 범위는 머리글, 바닥글 영역으로 인한 문제를 해결해 줍니다. 아래 예시 이미지에 바닥글의 [프롤로그]는 모든 페이지에 나옵니다. 하단 여백을 설정하면 [프롤로그] 처럼 장 제목이 표시되는 바닥글을 제외 할 수 있습니다.

 

텍스트 전처리 후 분석을 체크하면 위에서 얘기한 행갈이 문제를 해결해 줍니다.

 

5. 분석

이제 준비가 끝났습니다. PDF를 불러온 후 [분석]을 누르면 맞춤법 검사를 시작합니다.

처음에는 [분석 페이지 설정]에서 2~3페이지만 먼저 분석을 해 보세요.

프롬프트에 따라 분석 결과가 크게 달라집니다.

예를 들어 프롬프트에서

제약 사항:

문장 윤문이나 문체 수정은 엄격히 배제할 것. 문장의 어조나 구조를 변경하지 말고, 객관적인 오류에만 집중할 것.

이 부분을 삭제하고

어색한 문장은 매끄러운 문체로 윤문 할 것

이라고 지시를 하면, 오탈자 뿐 아니라 어색한 문장을 찾아 추천 문장을 제안해 줍니다.

이를 활용하면 오탈자 검사 뿐 아니라 특정 단어만 찾는 등 다른 목적으로도 활용 할 수 있습니다.

 

분석 시간은 컴퓨터 성능에 따라 크게 차이가 납니다.

RTX 5090에 vram 24gb 그래픽카드가 있는 PC라면 gemma3:27b 모델로 아주 빠르고 정확하게 분석을 할 거예요.

그래픽 카드 없고 ram 8gb 달린 컴퓨터라면 gemma3:4b 모델로 속도도 오래 걸리거 정확도도 아주 낮을거예요.

 

제가 테스트 해 본 모델 중 맞춤법 검사를 가장 잘 해준 모델은 gpt-oss:120b입니다.

클라우드 모델을 사용해 봤는데 빠르고 정확해요. 다만, 유료 모델이라 1~2페이지 검사하면 제한에 걸립니다.

 

6. 분석이 끝나면 [저장]을 눌러 PDF로 저장하세요.

분석을 마치면 오탈자가 있는 페이지의 섬네일은 빨간 선으로 표시됩니다. 

오탈자 목록을 보고, 오탈자가 아니라면 [x]를 눌러 삭제 할 수 있습니다.

오탈자는 맞는데 AI가 추천한 단어가 마음에 들지 않는다면 [주석 편집]에서 수정 후 저장을 하세요.

이렇게 2차 편집 후 왼쪽 상단에 있는 [저장]을 누르면 PDF 파일에 주석으로 결과가 저장됩니다.

 

이정도면 대충 사용 법은 아시겠지요^^?

300x250
posted by 내.맘.대.로 2026. 1. 9. 12:51

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

이 프로그램은 아래 사이트의 코드를 참조해 윈도우에서 사용 할 수 있도록 수정하고, 기능을 개선했습니다.

StuffItKoreanConvertTable이 아주 큰 도움이 되었습니다.

https://trip2me.tistory.com/62

 

Sit*fiX : OS 9의 StuffIt 에서 압축한 파일을 OS X에서 풀 때 망가진 한글 파일이름 수정 프로그램

이 프로그램은 클래식 맥에서 StuffIt 으로 압축한 파일을 OS X에서 풀었을 때, 한글 파일이름이 제대로 나오지 않는 경우를 고쳐주는 프로그램 입니다. 이와 함께 반대의 기능으로서, OS X에서 한글

trip2me.tistory.com

 

출판 편집 일을 오래 하신 분들이라면 겪어 봤을, 그리고 앞으로도 겪을 문제를 AI를 이용해 해결해 봤습니다.

대단한 것은 아니지만 없어서 아주 불편했던 문제를 해결 할 앱을 하나 만들어 봤어요.

 

맥에서 만든 파일의 파일명 문제 해결 앱!

맥에서 만든 파일은 윈도우에서 자소가 깨지는 문제가 있습니다.

맥 파일 자소 풀림 수정

그리고 구형 맥에서 작업한 Quark 파일 역시 파일명의 글자가 깨집니다.

구형 Quark 파일은 sit라는 압축파일로 보관을 할거예요.

sit 파일은 stuffit expander 같은 별도의 압축 해제 프로그램을 사용해야 하고,

압축을 풀어도 파일명이 깨져서 아주 귀찮습니다.

sit 압축 해제 후 깨진 파일명구

그래서 이 3가지 문제를 모두 해결해 줄 간단한 앱을 만들었습니다.

아니, AI한테 만들어 달라고 부탁하고 3시간 정도 진지하게 대화를 나눴습니다.

 

- 기능 -

1. 맥에서 윈도우로 넘어온 파일의 자소 풀림 수정

2. sit 파일 압축 해제

3. sit 압축 해제시 깨진 파일명 복구

 

파일 다운로드 : https://bit.ly/3Ndqj7d

 

- 사용법 -

1. 앱을 실행합니다.

2. sit 파일이나 자소 풀림, 파일명 깨진 파일이 있는 폴더를 Drag&Drop 합니다.

    - sit 파일은 용량이 클 경우 창이 잠시 응답 대기 상태가 될 수 있습니다. 이럴 때는 참고 기다려주세요.

    - Drag한 폴더명이 자소가 풀려있거나 깨져있을 경우 이 폴더는 수정되지 않습니다.

    - [파일 선택] 혹은 [폴더 선택]으로 선택을 해도 됩니다.

3. [변환 실행]을 누르면 문제가 있는 파일명을 수정합니다. 끝!

 

 

300x250