请选择 进入手机版|继续访问电脑版
ByPython 首页 头条 查看内容

Python网页正文结构化提取库:jparser 0.0.11发布

2017-8-5 13:09| 发布者: 江海志| 查看: 500| 评论: 0

摘要: jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:Bug fix:title提取错误正文区 ...

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:

Bug fix:


title提取错误


正文区域判断失误bad case


li标签内容遗漏


在线测试Demo:http://jparser.duapp.com/


代码实例:

import urllib2from jparser import PageModelhtml = urllib2.urlopen("http://www.pythontab.com").read().decode('gb18030')pm = PageModel(html)result = pm.extract()print "**title**"print result['title']print "==content=="for x in result['content']:    if x['type'] == 'text':        print x['data']    if x['type'] == 'image':        print "[IMAGE]", x['data']['src']



鲜花

握手

雷人

路过

鸡蛋
收藏 邀请

最新评论

相关分类

返回顶部