request停止维护:用node.js实现http网页爬虫抓取,模拟ajax\post请求,大文件上传下载


发布者 ourjs  发布时间 1585183607496
关键字 Node.JS  JavaScript 

最近 node.js 一个比较出名的 http request 模块停止维护了。其实这个模块已经变得非常臃肿,模块依赖过多,体积过大,接口不统一。

其实现在node.js的http模块已经非常完善,几行代码就能自己写一个,比如:

Node.js网页抓取:一个最简单的http请求客户端示例(request client)

不过上面的示例并不支持post和文件下载,只要稍加改动即可。

 

源代码

 

var http = require('http')
var https = require('https')
var url = require('url')
var qs = require('querystring')

var filters = []

/*
settings => {
url: '/sync/list'
, data: { a,b,c } / stream
, type: 'qs' / 'json'
, dataType: 'json' / 'qs' / 'raw' / 'stream'
}

cb => (err, res, {})
*/
var request = function(settings, cb) {
if (typeof settings == 'string') {
settings = { url: settings }
}

settings.headers = settings.headers || {}

var data = settings.data || settings.body || settings.json
var dataType = settings.dataType
var stream
var rawData

if (data && data.pipe) {
stream = data
// rawData = data
} else if (typeof data == 'object') {
if (settings.type == 'qs') {
rawData = qs.stringify(data)
} else {
rawData = JSON.stringify(data)
settings.headers['content-type'] = 'application/json'
}
} else if (data) {
rawData = data
}

if (rawData) {
rawData = Buffer.from(rawData)
settings.headers['content-length'] = rawData.length
}

var reqUrl = settings.url
var urlObj = url.parse(reqUrl)

var options = {
hostname : urlObj.hostname
, port : urlObj.port
, path : urlObj.path
, method : settings.method || ((stream || rawData) ? 'POST' : 'GET')
, headers : settings.headers
}

for (var i = 0; i < filters.length; i++) {
var filter = filters[i]
filter(settings, options)
}

var requestHandler = function(res) {
var receives = []
var err = null
var statusCode = res.statusCode
var headers = res.headers

//重定向
if ((statusCode == 302 || statusCode == 301) && headers.location) {
options.url = headers.location
request(options, cb)
return
}

if (statusCode > 300) {
err = new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl)
}

//doesn't parse data
if (dataType == 'stream' || settings.stream) {
cb && cb(err, res, {})
return
}

res.on('data', function(chunk) {
receives.push(chunk)
})

res.on('end', function() {
var resData = Buffer.concat(receives).toString()
if (dataType != 'raw') {
try {
resData = dataType == 'qs'
? qs.parse(resData)
: JSON.parse(resData)
} catch (e) { }
}

cb && cb(err, res, resData)
})
}

var req = urlObj.protocol == 'https:'
? https.request(options, requestHandler)
: http.request(options, requestHandler)

req.on('error', function(e) {
cb && cb(e, null, {})
})

if (stream) {
stream.pipe(req)
} else {
rawData && req.write(rawData)
req.end()
}
}

var addFilter = function(filter) {
if (typeof filter == 'function') {
filters.push(filter)
} else {
console.log('request middware is not a function')
}
}

module.exports = {
request : request
, use : addFilter
}

参数

请求的网址: url: '/sync/list'
请求POST的数据,如果没有则为GET: data: { a,b,c } / stream
请求的数据类型: type: 'qs' / 'json'
返回的数据类型: dataType: 'json' / 'qs' / 'raw' / 'stream'

使用方法

 

模拟GET

const request = require('./request').request

request({ url: 'http://ourjs.com/home' }, function(err, response, data) {
console.log(data)
})

 

模拟POST

指定 data 即可:

request({ url: 'http://ourjs.com/home', data: { abc: 1 } }, function(err, response, data) {
console.log(data)
})

 

 

下载流文件

将请求文件下载到本地,使用流可避免使用进程的缓冲区,可下载大文件

 

const fs = require('fs')

request({ url: 'http://ourjs.com/home', dataType: 'stream' }, function(err, response, data) {
let ws = fs.createWriteStream('./ourjs.text')
response.pipe(ws)
})

 

文件上传到http request流

为简化操作,提高性能,这里并没有使用HTTP from的文件模式,而是直接将文件流输出到http流,需要在http那端直接将流写入文件。一次仅支持上传一个文件。同样支持大文件上传。

var rs = fs.createReadStream('./ourjs.text')
request({ url: 'http://receive.url', data: rs }, function(err, response, data) {
console.log(data)
})

 









 热门文章 - 分享最多
  1. OnceDB:使用Redis全文字符串模糊搜索,多条件查询,创建索引搜索等使用帮助教程
  2. 怎么通过OnceOA免费实现外网访问家庭、企业内网服务器网站、网盘、办公系统
  3. 用CSS实现分页符,控制Web网页打印时自动强制分页:page-break-after教程
  4. 用node.js在Windows或Linux平台上高性能解压/压缩zip、tar大文件,输出到文件或Stream流
  5. SVG矢量图视窗viewBox,嵌套HTML综合实例:建立用户自定义相对坐标系统
  6. Node.JS中回调嵌套和async/await执行空函数性能效率对比测试
  7. Node.JS如何按顺序调用async函数,如何判断是否为async函数,在mocha中自动化测试async/await代码
  8. node.js将回调函数嵌套,用promise改造成async/await顺序执行:异常处理和返回多个参数
  9. 用旺司OnceOA免费搭建企业多人知识文档管理协作办公软件
  10. 基于Node.JS和Electron编写的集成开发环境 VS Code,成为最受欢迎的IDE

 相关阅读
  1. 使用node.js和oAuth2协议集成Github/LinkedIn第三方登录以OnceOA模块源码为例
  2. Node.JS发送http请求批量检查文件中的网页地址、服务是否有效可用
  3. Node.JS的竞争对手?QuickJS入门教程,使用os模块读写文件,并将JavaScript编绎成可执行文件
  4. Node.JS用RSA签名算法公钥加密私钥解密,实现License软件授权验证
  5. Node.JS借助OS模块获取当前Windows系统用户登录名
  6. Node.JS在命令行中检查Chrome浏览器是否安装,并打开指定网址
  7. node.js中将console.log日志内容输出到文件
  8. 使用Node.JS批量查找替换目录下文本文件中图片地址内容
  9. 判断Node.JS TCP Socket当前连接状态
  10. Node.JS进程间通讯的几种方法:Redis Publish/Subscribe 和 UDP Socket

  开源的 OurJS
OurJS开源博客已经迁移到 OnceOA 平台。

  关注我们
扫一扫即可关注我们:
OnceJS

OnceOA