搜索到79篇“ WEB爬虫“的相关文章
一种防WEB爬虫的方法和装置
本发明提供了一种防WEB爬虫的方法和装置,涉及网络安全的技术领域,包括:取目标网页的第一目标数据和第一目标数据对应的HTTP响应数据;对第一目标数据的原始DOM树形结构中的目标锚标签的原始href属性值进行改写,得到包含...
陆波 范渊
基于访问行为的Web爬虫检测方法的研究与实现
随着互联网Web爬虫流量的增长以及恶意Web爬虫行为的日益复杂化,为保障网站应用的安全,Web爬虫的检测及其类型的辨识十分必要。现有的Web爬虫检测方法大多针对结构复杂度较高的网站,而高校政府等机构需要对外提供上百个网站...
屈阳
关键词:URLK-MEANSCART
基于Web爬虫技术的电子病历信息聚合工具的开发及验证被引量:5
2021年
目的:以放疗科的临床和科研工作需求为导向,开发和验证一种基于Web爬虫技术的电子病历信息聚合工具。方法:基于Selenium框架和Python编程语言,设计一种基于Web爬虫的病历信息聚合工具,并列举两个实际应用场景:回顾性研究中的数据准备工作以及聚合报告新入院患者的常规临床检查结果作为例子进行说明。测试该工具对临床工作流程的益处,比较自动化方法和手动方法的效率和准确性。结果:与人工方法相比,自动信息聚合工具表现出优秀的效率和准确性。对于第一个场景,自动化工具从3541例患者中提取出110例放射性肺炎的病例,平均每例患者耗时54 s;而人工方法提取出相同数量的病例,平均每例患者耗时90 s。对于另一个例子,自动化方法平均每例患者耗时10 s,而人工方法平均每例患者耗时75 s。结论:本工作开发的工具可以在较低访问权限下实现临床和科研工作所需的数据检索、分类汇总等特殊功能,具有安全、高效、准确、跨平台、易拓展等优势。
刘宏嘉王静黄宇亮李晨光吴昊吴昊曹文田曹文田
关键词:网络爬虫大数据医院信息系统
一种基于web爬虫的网页信息获取系统被引量:1
2020年
本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与BeautifulSoup简介urllib2在python3中即为urllib.request。由于urllib2默认的User-Agent即Python-urllib/2.7,容易被检查误判为爬虫,因此需要构造一个请求对象,即需要使用Request方法。
张洪豪赵泽宁姚世春
关键词:信息获取系统爬虫网址网页REQUEST
一种防WEB爬虫的方法和装置
本发明提供了一种防WEB爬虫的方法和装置,涉及网络安全的技术领域,包括:取目标网页的第一目标数据和第一目标数据对应的HTTP响应数据;对第一目标数据的原始DOM树形结构中的目标锚标签的原始href属性值进行改写,得到包含...
陆波 范渊
基于Web爬虫的学习资源采集系统设计与实现被引量:1
2019年
为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现数据可视化展示,最终设计实现学习资源自动采集系统.经过功能测试和性能测试,系统能够满足实际工作需要,具有稳定性和适应性,能够有效提升学习水平,具有较高应用价值.
刘长琦
关键词:WEB爬虫
一种自动识别web爬虫的方法
本发明公开了一种自动识别web爬虫的方法,包括以下步骤:步骤1:服务器首页返回只包含JS代码的页面,这段代码位于onload函数中,在页面完全加载后被执行;步骤2:步骤1所述的JS代码采用某种算法设定一个cookie字段...
周雨晨
基于Web爬虫的课程推荐系统研究
本文以《基于云平台的网络影视在线教育培训系统》研究项目为背景,探索社会热点与网络教学相融合的新模式,实现根据最新热点推荐相关网络课程的目标。针对新闻内容的获取问题,本文重点对网络爬虫技术进行了分析和研究,设计并实现了基于...
李慧
关键词:中文分词关键词抽取
一种Deep Web爬虫爬行策略被引量:4
2012年
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
刘徽黄宽娜余建桥
关键词:DEEPWEB页面聚焦爬虫网络数据库
支持Ajax的Deep Web爬虫研究与设计被引量:1
2012年
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。
周杨
关键词:DEEPWEB爬虫AJAX搜索引擎

相关作者

郭若飞
作品数:4被引量:7H指数:1
供职机构:苏州大学计算机科学与技术学院智能化信息处理技术研究所
研究主题:查询接口 DEEP_WEB WEB爬虫 AJAX WEB论坛
张岭
作品数:10被引量:136H指数:5
供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系
研究主题:搜索引擎 分布式系统 分布式 信息检索 WEB爬虫
于水
作品数:33被引量:198H指数:8
供职机构:上海交通大学
研究主题:发动机 混合动力 分布式系统 分布式 静电喷雾
马范援
作品数:82被引量:677H指数:15
供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系
研究主题:计算机网络 信息检索 搜索引擎 电子商务 WWW
叶允明
作品数:19被引量:140H指数:6
供职机构:哈尔滨工业大学深圳研究生院
研究主题:分布式系统 分布式 基于WEB 推技术 数据传送