내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.
종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.
한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다. 자세한 내용은 여기로: https://www.epubguide.net/notice/309오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.
|
EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서! |
|||
|
클릭 편집 탬플릿 제공, |
|
기초부터 전자책 제작 실습까지 |
PDF는 EPUB으로 변환하기 어렵습니다.
어느정도로 어렵냐 하면, 하나 변환하는 데 한 달 정도 생각을 해야 할 정도로 어렵습니다.
왜?
다음 문단을 보세요. PDF에서 뽑은 텍스트입니다.
===============
나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해
산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전
히 ‘짬뽕’을 좋아한다. 다만 이번에 좋아하는 짬뽕은 음식이 아니라
금융상품이다. 주식의 거래 방식과 펀드의 분산투자 기능을 결합
...
이러한 매력 덕분에 ETF 시장은 폭발적으로 성장했다. 최근
5년간 글로벌 ETF 자산은 연평균 18% 증가했고,22 2024년 한 해에
만 1.6조 달러, 우리나라 돈으로 약 2,240조 원(환율 1,400원 가정)이
새로 유입되었다.33 지금은 전 세계적으로 14조 달러 이상이 ETF에
투자되어 있을 만큼 인기가 높다. 이렇게 인기가 높은 이유는 기존
...
이 책을 덮을 때쯤, 독자들은 다음의 내용들을 온전히 자신의 것으로 만들게 될 것이다.
ETF, 주식, 채권, 금 등 기본 개념의 이해
월배당이 가능한 구조와 원리
세후, 건강보험료, PR까지 고려한 순월배당 개념
국내외 인기 월배당 ETF의 특징과 사례
모든 투자에 필요한 경제 지식과 자산배분 원리
투자자 심리와 편향 교정
이 책은 1장과 2장을 먼저 읽으면 기본 개념을 이해하는 데 도움이 된다.
================
이 중에
(환율 1,400원 가정)
22, 33은 주석 위첨자 2이고, 색은 주황색입니다.
는 본문 보다 글자 크기가 작습니다.
ETF, 주식, 채권, 금 등 기본 개념의 이해
월배당이 가능한 구조와 원리
세후, 건강보험료, PR까지 고려한 순월배당 개념
국내외 인기 월배당 ETF의 특징과 사례
모든 투자에 필요한 경제 지식과 자산배분 원리
투자자 심리와 편향 교정
이 부분은 색과 글꼴이 다르고 앞에 글머리기호가 붙습니다.
여기에 행갈이 된 부분을 자동 정리하면 다음과 깉이 정리됩니다.
해 산물이
여전 히
해에 만
어떤 단어는 붙여쓰기를, 어떤 단어는 띄어쓰기를 해야 하는데 이를 전부 확인해야하지요.
자동으로 처리 후 띄어쓰기만 확인하면 어떨까요?
=========
나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해 산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전 히 ‘짬뽕’을 좋아한다. 다만 이번에 좋아하는 짬뽕은 음식이 아니라 금융상품이다. 주식의 거래 방식과 펀드의 분산투자 기능을 결합
=========
여기에서 띄어쓰기가 잘못 된 부분을 찾아야해요. 책 한권에 3~4천줄 정도 되니, 그만큼의 단어를 찾아 확인해야 합니다.
그래서 오래 걸려요.
여기에 한자, 영문 병용표기라도 1000개쯤 들어가 있고, 본문 중간에 다른 글꼴로 단어를 강조한다면 원고를 인디자인으로 편집하는 시간 보다 pdf를 epub으로 변환하는 시간이 훨씬 오래 걸립니다.
이 문제를 해결 할 방법이 없을까 고민하다 AI를 이용해 앱을 하나 만들었습니다.
이 앱은 총 3가지 작업을 합니다.
1. PDF의 글자 속성을 반영해 HTML로 변환
PDF의 본문 글꼴을 파악해 본문과 다른 스타일을 글자를 자동으로 인식합니다.
제목은 heading 태그로, 기울임, 진하게, 글자색, 첨자 등은 해당 스타일 속성을 적용합니다.
외국어 병용표기가 1000개쯤 된다 해도, 스타일로 구분 할 수 있어 일괄 변경을 할 수 있습니다.

2. 줄 병합
이렇게 추출한 html 파일은 2단계로 정리를 합니다.
첫번째는 줄 병합입니다.
아래와 같이 분리된 줄을
==========
나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해
산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전
==========
아래 처럼 연결해 줍니다.
==========
나는 어릴 적 짬뽕을 무척 좋아했다. 국물 속에 뒤섞여 있는 해 산물이 그렇게 좋았다. 지금도 그때와 크게 다르지 않다. 나는 여전
==========
그런데 여기서 문제가 생깁니다. 빨간색 부분, 두 줄이 연결된 부분의 띄어쓰기를 확인해야 하지요.
그래서 정리를 할 때 확인해야 하는 부분을 별도의 태그로 감쌌습니다.
연결 부분은 오른쪽에 목록으로 확인 해 직접 수정 할 수 있습니다. 하지만 수천개를 하나씩 확인하기 어렵지요.
테스트용으로 사용한 이 책만 해도 3700줄이 연결 부위가 있습니다. 이를 해결해야겠지요.

3. LLM을 이용한 단어 병합
LLM을 이용해 단어를 병합하도록 합니다. 유료 LLM은 api를 사용하려면 월 200달러 이상 비용을 지불해야합니다.
그래서 ollama를 이용해 로컬 LLM을 사용하도록 만들었습니다.
시간은 오래 걸리지만 비용이 들지 않습니다.
LLM이 100% 정확하게 문제를 해결해 주지는 않습니다.
그래서 LLM 분석 전과 후 결과, AI의 분석 결과를 표시했습니다.
[채택 된다.]는 LLM이 [채택된다.]로 공백을 제거해야 한다(nsp)고 판단했습니다.
<em class="llm_gramma_after" data-before="채택 된다." data-result="nospaced">채택된다.</em>
[이 해]는 LLM이 모호하다(amb)고 판단을 했습니다. 문맥에 따라 [이해]가 될 수도 [이 해]가 될 수도 있다고 본 것이지요.
<em class="llm_gramma_after" data-before="이 해" data-result="ambiguous">이 해</em>
오른쪽 분석 창에서 목록을 클릭하면 html 파일의 위치로 이동합니다.
내용을 확인하고 html 창에서 수정을 할 수 있습니다.
수정을 마치면 [변경 사항 저장]을 눌러 저장을 할 수 있습니다.
LLM 분석은 모델에 따라, 그리고 프롬프트에 따라 결과가 달라집니다.
프롬프트를 잘 설계하면 gemma3 4b 모델도 잘 처리해 줍니다.

4. [일괄 처리]
여기에 기능을 하나 더 추가했습니다.
LLM 정리는 시간이 오래 걸립니다. 2000만원쯤 들여 5090 그래픽카드를 3~4개 정도 달 수 있는 재력이 있거나, 매월 30만원씩 유료 모델을 사용할 재력이 된다면 모르겠지만, 개인 PC에서 LLM을 돌리면 속도가 아주 느립니다.
한 번에 10개정도 되는 PDF를 편집해야 한다면 시간이 정말 오래 걸리겠지요.
그래서 [일괄 처리] 기능을 추가했습니다.
일괄 처리는 여러 PDF를 추가해 실행 할 수 있습니다. 실행을 하면 시간은 오래 걸리겠지만 PDFtoHTML, 줄 병합, LLM 분석을 차례로 진행합니다.
제 컴퓨터에서는 300쪽 내외의 책 2종을 분석하는데 3~4시간 정도 걸렸습니다.
이 정도면 PDF도 EPUB으로 빠르게 변환이 가능 할 것 같습니다.
참고용으로 PDF를 html로 변환하는 코드 첨부했으니 바이브 코등 공부하시는 분들 참고하시기 바랍니다.
'생활코딩 > AI를 이용한 코딩' 카테고리의 다른 글
| [바이브코딩]LLM(AI)를 이용한 PDF 오탈자 검사 프로그램 (0) | 2026.02.12 |
|---|---|
| sitfix_v1.2 - 구형 Quark, sit, stuff 압축 풀면 깨지는 파일명 수정 (0) | 2026.01.09 |
| [바이브 코딩 프롬프트] 구글 스프레드+캘린더 일정 관리 (0) | 2025.12.19 |
| [바이브 코딩 프롬프트] 지구 구름 사진 바탕화면 바이브 코딩 (0) | 2025.12.14 |
| AI와 함께 Appscript 만들기 (0) | 2024.02.19 |













