当前位置：漫夜 > Android&java > SeimiCrawler V2.0 发布，Java 爬虫框架

SeimiCrawler V2.0 发布，Java 爬虫框架

2018-06-26 22:29 作者：漫夜分类：Android&java 2.85K

新版变动

完美支持SpringBoot，可以尽情的集成SpringBoot现有生态，demo参考
回调函数支持方法引用，设置起来更自然

    push(Request.build(s.toString(),Basic::getTitle));

非SpringBoot模式全局配置项通过SeimiConfig进行配置，包括 Redis集群信息，SeimiAgent信息等，SpringBoot模式则通过SpringBoot标准模式配置

常规模式：

SeimiConfig config = new SeimiConfig();
config.setSeimiAgentHost("127.0.0.1");
//config.redisSingleServer().setAddress("redis://127.0.0.1:6379");
Seimi s = new Seimi(config);
s.goRun("basic");

SpringBoot模式，在application.properties中配置

seimi.crawler.enabled=true
# 指定要发起start请求的crawler的name
seimi.crawler.names=basic,test

seimi.crawler.seimi-agent-host=xx
seimi.crawler.seimi-agent-port=xx

#开启分布式队列
seimi.crawler.enable-redisson-queue=true
#自定义bloomFilter预期插入次数，不设置用默认值 （）
#seimi.crawler.bloom-filter-expected-insertions=
#自定义bloomFilter预期的错误率，0.001为1000个允许有一个判断错误的。不设置用默认值（0.001）
#seimi.crawler.bloom-filter-false-probability=

默认的分布式队列改用Redisson实现，底层依旧为redis，去重引入BloomFilter以提高空间利用率，一个线上的BloomFilter调参模拟器地址
JDK要求 1.8+

文章地址：漫夜 » SeimiCrawler V2.0 发布，Java 爬虫框架

BloomFilter SpringBoot

分享到：

赞(3) 打赏

猜你喜欢