kris | OurJS

by kris keys 开源 1399598845541

undefined

by kris keys 分享 1397798170632

undefined

未发布全栈？

by kris keys 瞎扯 1397469805066

undefined

by kris keys 分享 1398257008087

undefined

by kris keys 分享 1398995478355

undefined

by kris keys 展示 1399471780815

undefined

by kris keys JavaScript 1400073455872

undefined

by kris keys 开源 1399511748379

undefined

by kris keys JS学习 Node.JS 1498271495930

这里介绍最新版office文档内容提取的一些简单方法。对于docx/pptx/xlsx文档来说，其本身就是一些zip文件，只需要在node.js先将其解压，再解析其中存放内容的xml即可，如word中的: text.docx\word\document.xml。

我们可以直接使用 unzip 模块，来解压。使用前先安装 unzip。

npm install unzip

by kris keys JS学习 JavaScript 1497519067670

想要做全文搜索引擎，则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。但Word文档的情况则会复杂一些。
我们这里使用了 antiword 开源软件，来提取word2003以前版本的内容，安装同样非常简单：

apt-get install antiword