XPath2Doc(通用网站数据采集及Doc生成工具)
v1.0.0.0- 软件大小:18M
- 更新日期:2019/6/24
- 软件语言:简体
- 软件类别:网页辅助
- 软件授权:免费软件
- 软件官网:暂无
- 适用平台:WinAll
软件介绍精品推荐相关视频人气软件相关文章评论0下载地址
XPath2Doc通用网站数据采集及Doc生成工具是一个半自动采集网页生成WordDocx文件的工具,带企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登录,并找到需要的数据页面,然后点击程序按钮进行采集,所以是个半自动的网页数据填充Docx工具。。
相关软件软件大小版本说明下载地址
- IDM ToolBox(访问管理工具) v2020官方版7.9Mv2020官方版查看
XPath2Doc(通用网站数据采集及Doc生成工具)是一个半自动采集网页生成Word docx文件的工具,带企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登录,并找到需要的数据页面,然后点击程序按钮进行采集,所以是个半自动的网页数据填充Docx工具。
工作原理
网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过XPath语句得到网页元素中的文本。
XPath语句的获取办法:
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的XPath语句。
这里需要说明一点:如果拷贝出来的XPath语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。
运行环境
Windows7 Sp1操作系统请安装下面的组件(重要:VC库如果不安装,本程序无法启动):
.net framework 4.5.2
在Windows10系统下上述组件一般自带,不需要单独安装。Windows10 1903运行通过。
不支持Windows XP操作系统。
操作说明
1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。
General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。
自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。
2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)
需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。
使用方法
启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。
如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。
列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。
如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。
需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。
精品推荐数据采集软件数据采集软件
- 更多 (20个) >>数据采集软件数据采集软件或者叫采集器,就是采集的机器或者工具。网页采集软件就是为了解决从网页上采集信息的需求而由专业的互联网软件公司研发的一整套工具软件。用于实现自动化采集从大批量网页上采集数据。数据采集软件是用
火车采集器(LocoySpider)33.4M
/简体八爪鱼采集器89.3M
/简体网探1.3M
/简体网络矿工数据采集软件25.7M
/简体云流电影采集器1.0M
/简体守望数据采集器2.9M
/简体友益网站数据采集器671KB
/简体零视界域名回收采集器968KB
/简体麒麟网站图片采集器2.4M
/简体水淼网络图片采集器1.1M
/简体
- 更多 (55个) >>数据采集软件数据采集软件是一类专门用于各方面的功能全面准确稳定易用的采集软件,支持多种灵活的任务调度方式,实现无人值守采集,支持多任务,支持任务导入和导出,还有仅针对一般纳税人的通用税务数据采集软件,这样就能很好
八爪鱼采集器89.3M
/简体后羿采集器47.6M
/简体天音阿里巴巴数据采集软件4.3M
/简体火车采集器(LocoySpider)33.4M
/简体通用税务数据采集软件2.1M
/简体淘你妹淘宝客数据采集大师4.6M
/简体淘宝成交数据采集工具48KB
/简体淘客数据采集器1.2M
/简体Soukey采摘1.4M
/简体守望数据采集器2.9M
/简体
其他版本下载
相关视频
-
没有数据
人气软件
易媒助手13.8M
/简体5866游戏商城上号器76M
/简体后羿采集器47.6M
/简体巅峰爱抢购39.4M
/简体心蓝12306订票助手171KB
/简体搜狗推广管家35.4M
/简体postman windows64位153.4M
/英文Chrome清理工具12.7M
/简体12306订票助手.NET版9.8M
/简体京东抢购助手13.8M
/简体
厂商其他下载
- 电脑版安卓版IOS版Mac版
-
快车(FlashGet)7.4M
/简体VeryCD 电驴(easyMule)4.1M
/简体Opera浏览器81.8M
/简体光影魔术手19.1M
/简体360安全浏览器7.044.6M
/简体格式工厂103.0M
/多国语言[中文]365桌面日历9.6M
/简体福昕PDF阅读器(Foxit Reader)88.4M
/简体快播(QvodPlayer)12.2M
/简体快玩游戏盒31.7M
/简体
优志愿57.2M
/简体全民枪战2.01.40G
/简体北京公交103.2M
/简体泰拉瑞亚245.9M
/简体迷你世界582.3M
/简体江苏高考16.0M
/简体小米枪战1.31G
/简体腾讯疯狂贪吃蛇48.3M
/简体腾讯街头篮球544.2M
/简体深海大作战手机版30.9M
/简体
跑跑卡丁车40.7M
/简体高考志愿君app63.9M
/简体传奇战域手游491M
/简体像素车超改iphone版370.4M
/简体代号英雄iphone版371.2M
/简体人vs导弹游戏iphone版224.5M
/简体北京公交16.5M
/简体熊猫看书iPad版32.9M
/简体影音先锋iPad版0KB
/简体WPS iPad版228M
/简体
Betterzip Mac23.9M
/简体IINA Mac版77M
/英文多宝游戏盒Mac版90.2M
/简体eZip Mac版15.7M
/简体ios5.1固件802M
/简体Adobe Photoshop CS6 Mac版1.05G
/简体英雄联盟Mac版66.2M
/英文magican for mac12.1M
/简体虾歌Mac版9M
/简体欧朋浏览器for mac169.3M
/简体
相关文章
查看所有评论>>网友评论共0条
热门关键词
精彩评论