最新推荐
-
齐鲁银行网银助手3.0.0.5官方版 安全软件 / 3.0M
-
360安全卫士U盘病毒专杀(Autorun.inf专杀)13.0.0.213简体中文绿色免费版 安全软件 / 86.1M
-
360安全卫士U盘病毒专杀工具v13.0.0.213绿色免费版 安全软件 / 86.1M
-
360安全卫士修复工具v13.0.0.213免费版 安全软件 / 86.1M
-
360安全卫士超强查杀V13.0.0.213安装版 安全软件 / 86.1M
精品推荐
-
You123浏览器v5.10.12.116官方版 网络工具 / 57.9M
查看 -
LogViewPlus(日志分析工具)v2.5.51官方版 网络工具 / 31.3M
查看 -
RayLink(远程控制)v6.0.1.7官方版 网络工具 / 18.3M
查看 -
喜马拉雅v4.0.0官方免费版 网络工具 / 65.3M
查看 -
向日葵远程控制v13.2.0.55335官方版 网络工具 / 32.3M
查看
本类排行
详情介绍
水淼关键词URL收集器是一款网站信息收集软件。该软件通过输入关键词来收集各个搜索引擎的URL、域名、标题、描述等信息。采集速度快,质量高。
水淼关键词URL收集器是一款网站信息收集软件。该软件通过输入关键词来收集各个搜索引擎的URL、域名、标题、描述等信息。采集速度快,质量高。
指示
[搜索引擎] 百度、搜狗、谷歌支持每页100条结果。当勾选“每页10 个结果”时,将为10 个结果。
[仅收集指定排名] 例如,如果您要收集排名为2、3、5的URL,请输入“2|3|5”(不包括引号)。如果未启用此选项,将收集所有URL。
[输入关键词列表] 每行一个关键词
[收集页数]设置为0以收集所有搜索页。
【每页数量】不同的搜索引擎对每页的页数限制不同。百度最多50个,谷歌、搜狗100个,其他基本都是10、20个。
[Google Bing 英文站] 勾选此框,使用Google Bing 的全球英文站搜索,否则将是中文站搜索。
【Google Bing No Waiting】勾选复选框可以让这三个引擎无需等待即可采集,即高速采集。否则,每次收集一个页面时,都会自动等待一定的时间。之所以添加这个选项,是因为最近(2015年8月8日)测试了这三个引擎的搜索间隔设置,似乎没什么用。 Bing测试了十多个关键字,没有等待搜索,没有出现验证码,因此无法使用验证码。处理。谷歌一开始只显示几次验证码,后来不等大量搜索就不再出现验证码。然而,谷歌可以自动确定验证码的出现,并让用户删除它们。
【保存目录】采集结果将保存在该目录中。保存的文件名为:search engine_keywords
【重要提示】右键单击保存目录的选择按钮“.”,定位到该目录。
常见问题
1、为什么采集一段时间后采集不到数据?
这可能会收集太多并受到搜索引擎的限制。一般情况下可以通过更改IP来继续采集。如果不改变,只能等搜索引擎解封后才能继续采集。百度的屏蔽时间一般是半小时到几个小时。
不过,现在即使验证码被屏蔽,软件也会弹出需要手动输入的验证码(百度、谷歌)
2、为什么不同批次的关键词采集结果中有些URL会重叠?
尤其是只引用#域名#或#顶级域名#后,出现部分URL重复的情况较多。这也很正常,因为每个网站的内部页面可能包含很多主题,并且从网站的不同内部页面可能收集到不同的关键词。当域名被引用时,同一网站的不同内部页面的域名结果自然会是相同的。
另外,软件中的自动去重,就是对本次采集的结果进行去重。之前收集的结果不在本次去重范围内。如果两个集合的结果中有一些重复的URL,可以将它们合并在一起,并使用软件去重。
3. 为什么采集到的URL主题和关键词不匹配?
这是因为在#domainname#或#topleveldomain#被引用之后,域名部分被取走。域名打开网站首页,采集到的原始URL可能不是首页,而是网站文章的内页。内页包含关键词主题,因此被搜索引擎收录,可以被软件采集。但获取域名后,您打开的域名首页不一定包含该关键字。
为了比较采集是否正确,可以在保存的模板中输入:a href='#url#' target='_blank'#title#/a,保存为htm文件,采集完成后,你可以自己打开文件查看对比。