서식을 유지하면서 PDF의 텍스트를 복사하는 방법은 무엇입니까?

유비쿼터스 문서 형식 인 PDF는 글꼴, 이미지 및 플랫폼 전반의 일반 레이아웃을 유지하면서 문서를 공유하는 데 적합합니다. 그러나 문서에서 텍스트를 복사하여 붙여 넣을 때 바로 서식을 유지하는 쉬운 방법이 있습니까??

오늘의 질문 및 답변 세션은 Q & A 웹 사이트의 커뮤니티 중심 그룹 인 Stack Exchange의 하위 부문 인 수퍼 유저의 도움으로 이루어졌습니다..

질문

수퍼 유저 리더 Colen은 서식을 유지하면서 PDF에서 텍스트를 추출하는 방법을 찾고 있습니다.

PDF 파일에서 텍스트 편집기로 텍스트를 복사하면 여러 가지 방법으로 엉망이됩니다. 굵게 또는 기울임 꼴 같은 서식은 손실됩니다. 텍스트 단락 내의 부드러운 줄 바꿈은 단단한 줄 바꿈으로 변환됩니다. 두 줄의 단어를 어기는 대시는 없어야한다고해도 보존됩니다. 작은 따옴표와 큰 따옴표는?로 대체됩니다. 표지판.

이상적으로는 PDF에서 텍스트를 복사하고 HTML 코드로 변환 된 서식을 "스마트 따옴표"를 "and"로 변환하고 줄 바꿈이 제대로 이루어 지도록하고 싶습니다. 이것을 할 수있는 방법이 있습니까??

Colen (및 나머지 사용자)이 서식을 희생하지 않고 텍스트를 가져올 수있는 빠르고 쉬운 방법이 있습니까??

대답

수퍼 유저 기고 가인 Frabjous는 많은 양의주의가 요구되는 솔루션을 제공합니다.

첫째, PDF가 무엇인지 이해해야합니다. PDF는 인쇄 된 페이지를 모방하도록 설계되었으며 입력 형식이 아닌 출력 형식으로 만 설계되었습니다. PDF는 기본적으로 문자의 정확한 위치 (개별 문자 또는 구두점 등) 또는 이미지가 포함 된지도입니다. 대부분의 경우 PDF는 한 단어가 끝나는 위치와 다른 단어가 시작되는 위치에 대한 정보를 저장하지 않으며 단락 결말과 달리 단절과 같은 단점이 있습니다..

(최근의 몇몇 PDF는이 정보에 대한 약간의 정보를 저장하지만, 이는 새로운 기술이며, 그런 PDF를 찾기 란 운이 좋을 것입니다. 그렇게 했더라도 PDF 뷰어는 그것에 대해 알지 못할 수도 있습니다.)

어쨌든 개개인의 문자 위치, 단어의 의미, 단락의 의미 등을 추출하는 일종의 "인공 지능"을 구현하는 것은 소프트웨어에 달려 있습니다. 다른 소프트웨어가 다른 것보다이 작업을 더 잘 수행 할 것이며 PDF가 어떻게 작성되었는지에 달려 있습니다. 어쨌든 완벽한 결과를 기대해서는 안됩니다. 출력 PDF를 갖는 것은 원본 문서를 갖는 것과 동일하지 않습니다. 가능하다면 그걸 얻기 위해 노력하는 것이 훨씬 낫습니다..

문제의 표준 해결책은 PDF를 HTML로 변환하기 위해 Adobe Acrobat Professional (무료 판독기가 아닌 값 비싼 Acrobat)을 사용하는 것입니다. 완벽한 결과를 얻지 못할 수도 있습니다..

포맷팅을 그대로 유지하면서 PDF에서 텍스트를 추출하는 데 사용할 수있는 무료 소프트웨어가 있지만 완벽한 결과는 기대할 수 없습니다. 예를 들어 calibre (RTF 형식으로 변환 가능), pdftohtml / pdfreflow 또는 AbiWord 워드 프로세서 (모든 가져 오기 / 내보내기 플러그인 사용)를 참조하십시오. OpenOffice 용 PDF 가져 오기 플러그인도 있습니다..

그러나 이러한 결과로 완벽을 기대하지 마십시오. 여기 곡물에 대적 할거야. PDF는 편집 가능한 입력 형식이 아닙니다..

어떤 도구를 사용할지 결정하는데 어려움이있는 경우, Caliber는 스위스 군용 칼입니다. 당신은 또한 당신의 ebook 독자에 사용을 위해 PDF 파일을 개조하고 당신의 ebook / document 도서관을 편성하기 위하여 그것을 이용할 수있다.

설명에 추가 할 것이 있습니까? 의견에서 소리가 나지. 다른 기술에 정통한 Stack Exchange 사용자의 답변을 더 읽고 싶습니까? 전체 토론 스레드를 여기에서 확인하십시오..