OurJS


OurJS-我们的JS, 我们的技术-IT文摘; 专注JS相关领域;
我们热爱编程, 我们热爱技术;我们是高大上, 有品味的码农;

欢迎您订阅我们的技术周刊


我们会向您分享我们精心收集整理的,最新的行业资讯,技术动态,外文翻译,热点文章;
我们使用第三方邮件列表向您推送,我们不保存您的任何个人资料,注重您的隐私,您可以随时退订,

欢迎分享您的观点,经验,技巧,心得

让我们一起找寻程序员的快乐,探索技术, 发现IT人生的乐趣;


本网站使用缓存技术每次加载仅需很小流量, 可在手机中流畅浏览;
如果您发现任何BUG,请即时告知我们: ourjs(at)ourjs.com

node.js使用unzip解压zip包指定文件,提取 word/excel (docx/pptx/xlsx) 文本内容


分享到
分类 JS学习   关键字 Node.JS   发布 kris  1498271495930
注意 转载须保留原文链接,译文链接,作者译者等信息。  
因为要实现顽石网盘的全文搜索,所以要提取一些常用办公软件的纯文本内容。对于doc/pdf文件内容的提取可参考:  
Linux下用node.js提取Word(doc/docx)/PDF文本内容

这里介绍最新版office文档内容提取的一些简单方法。对于docx/pptx/xlsx文档来说,其本身就是一些zip文件,只需要在node.js先将其解压,再解析其中存放内容的xml即可,如word中的: text.docx\word\document.xml。

安装解压模块


我们可以直接使用 unzip 模块,来解压。使用前先安装 unzip。

npm install unzip

解压文件函数


然后编写一个解压指定xml文件的函数

var unzip  = require('unzip')
var exactZip = function(filePath, fileName, cb) {
  var contents = []
  fs.createReadStream(filePath)
    .pipe(unzip.Parse())
    .on('entry', function (entry) {
      var file = entry.path;
      var type = entry.type;
      var size = entry.size;
      if (file.indexOf(fileName) === 0) {
        entry.on('data', function(chrunk) {
          contents.push(chrunk)
        })
        // entry.on('end', function() {
        // })
        entry.on('error', function(err) {
          console.log(err)
          cb && cb(err)
        })
      } else {
        entry.autodrain();
      }
    })
    .on('error', function(err) {
      cb && cb(err)
    })
    .on('close', function() {
      var xmlContent = Buffer.concat(contents).toString()
      cb && cb(null, xmlContent)
    })
  return
}

解压文本文件


比如对于docx文件,文本内容存放在document.xml文件中,我们可以直接用exactZip解压:

exactZip(filePath, 'word/document.xml', function(err, xmlContent) {
    //处理xmlContent
})

xmlContent内容大致如下:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<w:document xmlns:wpc="http://schemas.microsoft.com/office/word/2010/wordprocessingCanvas" xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:m="http://schemas.openxmlformats.org/officeDocument/2006/math" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:wp14="http://schemas.microsoft.com/office/word/2010/wordprocessingDrawing" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main" xmlns:w14="http://schemas.microsoft.com/office/word/2010/wordml" xmlns:wpg="http://schemas.microsoft.com/office/word/2010/wordprocessingGroup" xmlns:wpi="http://schemas.microsoft.com/office/word/2010/wordprocessingInk" xmlns:wne="http://schemas.microsoft.com/office/word/2006/wordml" xmlns:wps="http://schemas.microsoft.com/office/word/2010/wordprocessingShape" mc:Ignorable="w14 wp14">
    <w:body>
        <w:p w:rsidR="000B188E" w:rsidRDefault="004932A3" w:rsidP="00D93264">
            <w:pPr>
                <w:pStyle w:val="a3" />
                <w:numPr>
                    <w:ilvl w:val="0" />
                    <w:numId w:val="6" /></w:numPr>
                <w:ind w:firstLineChars="0" /></w:pPr>
            <w:r w:rsidRPr="006B5D2F">
                <w:rPr>
                    <w:rFonts w:hint="eastAsia" /></w:rPr>
                <w:t>从四个选项中选择你认为最适合取代问号的一个。</w:t>
            </w:r>
        </w:p>
        <w:p w:rsidR="006B5D2F" w:rsidRDefault="000B188E" w:rsidP="006B5D2F">
            <w:r>
                <w:rPr>
......

然后用正则或xml解析出所有 <w:t> 中的文本即可。

社区评论 ( Beta版 )
OnceDoc 您自己的企业内容管理系统——文档、流程、知识库、报表、网盘All In One

访问404页面,寻找丢失儿童
 热门文章 - 分享最多
  1. Node.js网页抓取:一个最简单的http请求客户端示例(request client)
  2. Docker改名Moby:急于商业化陷入品牌更名乱象
  3. Java已快过时?斯坦福大学将JavaScript作为计算机科学入门课
  4. Node.JS用Socket实现FTP Server服务器和Client客户端
  5. "永恒之蓝"比特币勒索病毒(WannaCry)的攻击原理
  6. Node.JSv8的5个新特性:支持string padding与async/await和object参数省略
  7. 用JavaScript获取当月第一天和最后一天
  8. Phantom.js维护者Slobodin退出,著名自动化测试与智能爬虫框架前景不明
  9. 用纯Node.JS弹出Windows系统消息提示框(MessageBox)
  10. Node.JS如何调用Chrome打开浏览器链接地址
  11. AirJD-简单好用的免费建站工具

 相关阅读 - JS学习
  1. Linux下用node.js提取Word(doc/docx)/PDF文本内容
  2. 用JavaScript获取当月第一天和最后一天
  3. Node.JSv8的5个新特性:支持string padding与async/await和object参数省略
  4. node.js中fs.stat里的atime,mtime,ctime,birthtime在debian下的更新规则与区别
  5. decodeURIComponent有个BUG,当浏览器请求地址含%+数字时,会解析错误
  6. NodeJS的DNS使用:域名解析,MX记录查询,SPF反垃圾邮件测试
  7. Node.JS如何调用Chrome打开浏览器链接地址
  8. 用纯Node.JS弹出Windows系统消息提示框(MessageBox)
  9. 利用Windows注册表将你的Node.JS程序添加到右健菜单直接运行
  10. JavaScript中splice与slice的区别、数组的复制以及在指定位置添加删除元素

 关键字 - Node.JS
  1. 用纯Node.JS弹出Windows系统消息提示框(MessageBox)
  2. 理解Node.js的事件循环(Event Loop)和线程池
  3. Node.JS中如何快速扫描端口并发现局域网内的Web服务器地址(80)
  4. Express入门教程:一个简单的博客
  5. Node.JS循环递归复制文件夹目录及其子文件夹下的所有文件
  6. Oracle发布官方版Node.JS数据库驱动
  7. 为什么你应该抛弃Express的视图渲染引擎
  8. 在OnceIO(Node.JS)中用Redis储存Session
  9. Node.js中的通用基础设计模式
  10. 沃尔玛为什么要采用Node.js

 欢迎订阅 - 技术周刊

我们热爱编程, 我们热爱技术; 我们是高端, 大气, 上档次, 有品味, 时刻需要和国际接轨的码农; 欢迎您订阅我们的技术周刊; 您只需要在右上角输入您的邮箱即可; 我们注重您的隐私,您可以随时退订.
加入我们吧! 让我们一起找寻码农的快乐,探索技术, 发现IT人生的乐趣;


 关注我们

我们的微信公众号: ourjs-com
打开微信扫一扫即可关注我们:
IT文摘-程序员(码农)技术周刊

ourjs官方微信号