명령 줄에서 쿼리 할 수 있고 이상적으로는 GUI를 전혀 사용할 필요가없는 전체 텍스트 인덱싱 엔진과 같은 것이 있습니까?
나는 특히 내 전자 책과 논문을 색인화하는 데 관심이 있으므로 pdf, epub 및 몇 가지 djvu가 혼합되어 있습니다. (Open) Office 문서는 멋지지만 내 목록에서 훨씬 낮습니다.
루신이나 스핑크스를 보셨나요? 인덱싱하려는 문서를 처음에 구문 분석해야하지만 완료되면 둘 중 하나가 cli에서 검색 할 수 있습니다.
Lucene의 경우이 작업에 대한 몇 가지 정보가 있습니다 . 사용 가능 .
Sphinx는 조금 더 모호하지만 문서 사용 가능 도 있습니다. xmlpipe2 데이터 소스를 통해 원하는 구조화 된 XML 데이터를 스핑크스에 전달할 수 있습니다.
Lucene은 Java에 의존하는 반면 Sphinx는 외부 종속성없이 C++로 빌드됩니다.
어느 쪽이든 원하는 것을 수행하려면 약간의 작업이 필요하지만 완전히 실행 가능한 솔루션처럼 보입니다.
xapian 을 확인하십시오. 그것은 명령 줄 인터페이스를 가지고 있으며 많은 형식을 색인 할 수 있습니다.
Tracker는 명령 줄에서 호출 할 수 있으며 gtk +는 프로젝트에 대한 하드 종속성이 아닙니다 (그러나 패키지에 대한 것일 수 있음).
현재 Tracker에는 stable (0.8)과 unstable (0.9)의 두 가지 스트림이 있습니다. OS에 0.8 버전이있을 가능성이 높으므로 여유가 있다면 ( bleeding Edge 소프트웨어 종속성이 있음) 최신 tar 파일 (0.9.x)을 가져 오십시오. 많은 개선 사항 0.8 이상, 현재 안정화 중 0.10 (짝수는 안정성을 나타냄)이되기 위해 추가되었습니다. 이 경로로 이동하도록 선택한 경우이 명령을 사용하여 다음을 구성합니다.
./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-Explorer --disable-tracker-status-icon
종속성을 설치하지 않을 가능성이 높으므로 배포판에서 0.8을 설치하고 GUI 비트는 피하는 것이 더 좋습니다. Debian Squeeze, Ubuntu 10.10 및 Ubuntu 11.04에서 이들은 잘 분리되어 있습니다. 따라서 ( 루트로 ) 실행 :
apt-get install --no-install-recommends tracker-utils tracker-miner-fs
이를위한 CLI 도구는 tracker-search
이므로 --help
옵션과 함께 실행하여 활용 방법을 확인하십시오. :-)
참고 :
tracker-applet
, tracker-preferences
등이 포함되어 있기 때문인 것 같습니다. 그러나 GUI 검색 인터페이스 인 tracker-search-tool
에 대한 별도의 패키지가 있습니다.나는 올 여름 Sqlite3를 사용하여 NetBSD의 맨 페이지를 색인화하고 검색하기위한 전체 텍스트 검색 도구 (새로운 방법)를 작성하는 작업을했습니다. 두 개의 명령 줄 도구로 구성됩니다.
유사한 도구를 쉽게 작성할 수 있습니다. pdf의 경우 pdf 문서를 구문 분석하기위한 라이브러리와 마찬가지로 Open Office 문서를 구문 분석하는 유틸리티가 필요합니다.
프로젝트에 대한 자세한 내용은 여기
코드는 여기