正则表达式 数据抓取

问题描述

最近在做网页信息抓取,但遇到了几个问题,好不纠结,具体问题如下,请给为帮忙解决一下: 在一个长字符串中(HTML文件内容),如何用正则表达式抓取class含有cls_num的对象属性name的值 在一个长字符串中(HTML文件内容),如何抓取所有可见的标签input、textarea、checkbox、radio、select

解决方案

jsoup 神器..百度一下就可以..不用正则了
解决方案二:
xpath试试http://developer.51cto.com/art/201111/304184.htm
解决方案三:
http://www.189works.com/article-40082-1.html 用HtmlAgilityPack来得处理更方便!
解决方案四:
汗,楼主,你这个起码得懂一点正则表达式啊!看你的问题怎么好像你一点都不懂似的??java处理的话有两个类,pattern和matcher,学点正则,看看这两个类的api和例子就懂啦····

时间: 2024-10-01 20:10:14

正则表达式 数据抓取的相关文章

《用Python写网络爬虫》——第2章 数据抓取 2.1 分析网页

第2章 数据抓取 在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载我们所需的网页.虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了.现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping). 首先,我们会介绍一个叫做Firebug Lite的浏览器扩展,用于检查网页内容,如果你有一些网络开发背景的话,可能已经对该扩展十分熟悉了.然后,我们会介绍三种抽取网页数据的方法,分别是正则表达式.Beautiful Sou

百万级别知乎用户数据抓取与分析之PHP开发_php实例

这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl.pcntl扩展. 使用PHP的curl扩展抓取页面数据 PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库. 本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问.当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置

数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什么东东,最后才是析出规则.编写代码.运行程序来抓取数据.所以说,其实数据抓取的学习路线,不但很长而且很杂.     为了一个特定的目的,我需要爬取G

07-爬虫的多线程调度 | 01.数据抓取 | Python

07-爬虫的多线程调度 郑昀 201005 隶属于<01.数据抓取>小节 一般让爬虫在一个进程内多线程并发,有几种方法: Stackless :Stackless Python是Python的一个增强版本.Stackless Python修改了Python的代码,提供了对微线程的支持.微线程是轻量级的线程,与前边所讲的线程相比,微线程在多个线程间切换所需的时间更多,占用资源也更少. Twisted :主要利用 Twisted 中的异步编程能力.如 addCallback , callLater

用javascript解决外部数据抓取中的乱码问题_应用技巧

我们一般会在两个地方用到外部数据抓取,一个是在asp中,一个是在hta中.如果外部数据是gb2312编码的,就涉及到转码的问题,但是传统的用vbs函数进行处理的方法,运算量比较大,有些特殊字符还会出错.    如果用adodb.stream控件来进行转码,就简单多了,不需要借助vbs的二进制处理函数了,同时速度快了很多. 复制代码 代码如下: <script>  function loadData(sUrl){      var xh      xh=new ActiveXObject(&qu

数据抓取的一个类,包含一些常用的方法

原文:数据抓取的一个类,包含一些常用的方法 using System;using System.Configuration;using System.IO;using System.Net;using System.Text;using System.Text.RegularExpressions; namespace XXX{    /// <summary>    /// Func 的摘要说明.    /// </summary>    public class Func   

数据抓取的艺术(二):数据抓取程序优化

      续前文:<数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置>. 程序优化:第一步开始: for i in range(startx,total):     for j in range(starty,total):         BASE_URL = createTheUrl([item[i],item[j]])         driver.get(BASE_URL)         driver = webdriver.PhantomJS()    

10-穿墙代理的设置 | 01.数据抓取 | Python

10-穿墙代理的设置 郑昀 201005 隶属于<01.数据抓取>小节   我们访问 Twitter 等被封掉的网站时,需要设置 Proxy . 1.使用HTTP Proxy 下面是普通HTTP Proxy的设置方式: 1.1.pycurl 的设置 _proxy_connect = "http://127.0.0.1:1984" c = pycurl.Curl() - c.setopt(pycurl.PROXY, _proxy_connect)   1.2.urllib2

一淘网的数据抓取和插件屏蔽涉及的法律问题

今天探讨B2C购物网站京东商城和阿里巴巴集团旗下的比价网站一淘网的数据抓取和插件屏蔽涉及的法律问题.说明下,笔者和两网站均无业务关系和联系.先介绍背景: 2011年11月,京东商城采取技术措施,屏蔽一淘网搜索引擎,一淘网随后在微博表示不再直接抓取京东商城的价格数据,但近期又在京东商城与苏宁的价格战中实时公布京东商城和其他购物网站商品价格比较.近日,京东商城又在其网站屏蔽了一淘网的浏览器插件,该插件向用户实时提供包括京东商城在内的各大购物网站同款商品价格,一淘网方面表示京东商城是在破坏其软件运行.