CD刘延林

也曾鲜衣怒马少年时,一夜忘尽长安路!
私信 关注
刘延林 | 梦陆
码龄5年

一个IT界富有灵魂的业余哲学家、思想家兼吹牛皮专家,乃当代程序猿中不可多得的一个旷世奇葩!个人出版作品《Python网络爬虫开发从入门到精通》

  • 2,358,757
    被访问量
  • 149
    原创文章
  • 1,601
    作者排名
  • 156
    粉丝数量
  • 于 2015-11-02 加入CSDN
获得成就
  • 博客专家认证
  • 获得141次点赞
  • 内容获得217次评论
  • 获得551次收藏
荣誉勋章
TA的专栏
  • Python自动化之降龙十八掌
    付费
  • 开发相关
    5篇
  • python
    31篇
  • 爬虫技术分享
    1篇
  • 爬虫
    6篇
  • nginx
    2篇
  • Python爬虫入门教程
    1篇
  • go语言学习
    3篇
  • Python
    82篇
  • java
    1篇
  • javascript
    1篇
  • jquery
    1篇
  • django
    15篇
  • websocket
    1篇
  • mysql
    6篇
  • linux
    20篇
  • mongodb
    2篇
  • flume
    1篇
  • appium
  • go语言
    3篇
个人展示区

有需要以下爬虫数据的可联系博主Q:2215857915

MT外卖APP端店铺

EL外卖APP端店铺

商标网

天眼工商

纽约工商网

智联招聘网

小红书APP

携程机票

通常旅游网

淘宝

沉浸冒险岛

  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

Navicat Premium v12_解压版

从网上搜刮了很久才找到的一个免费使用版本,直接解压,找到Navicat Premium目录下的navicat.exe启动便可正常使用,无需填入注册码
rar
发布资源于 2 月前

windows 10上安装svn软件提示2503错误解决方案

在win 10系统上部分用户在安装svn时,会提示2503之类的错误,导致安装失败,例如下面的图所示解决方案:1.首先在左下角的“开始”菜单栏上鼠标【右键】选择【命令提示符(管理员)】如下图所示:2.在打开的命令提示符窗口中输入以下命令:msiexec /package "你的msi文件的路径"例如我这里输入的为:msiexec /package C:\Users\MyPC\Downloads\TortoiseSVN-1.14.0.28885-x64-svn-1.14.0
原创
40阅读
1评论
0点赞
发布博客于 2 月前

Python获取指定日期范围内所有日期列表示例代码

import datetime'''获取指定日期范围所有日期列表'''def date_range(beginDate, endDate): dates = [] dt = datetime.datetime.strptime(beginDate, "%Y-%m-%d") date = beginDate[:] while date <= endDate: dates.append(date) dt = dt + datetime.
原创
177阅读
0评论
0点赞
发布博客于 2 月前

最全搭建自己的SOCKS代理服务器

1,SOCKS是什么? 它是一种防火墙安全会话转换协议,该协议提供一个框架,为在 TCP 和 UDP 域中的客户机/服务器应用程序能更方便安全地使用网络防火墙所提供的服务。这个协议从概念上来讲是介于应用层和传输层之间的 “中介层(shim-layer)”,因而不提供如传递 ICMP 信息之类的网络层网关服务。在编写网络爬虫的时候,我们平常所接触使用到的代理IP都是HTTP或者HTTPS的代理,很少应用到SOCKS代理。socks分别有4和5两个版本,现在5为主流,所以本文所要讲解的版本为...
原创
3015阅读
0评论
0点赞
发布博客于 4 月前

windows下通过cmd命令强行杀掉指定exe程序

测试命令如下:taskkill /f /im test.exe
原创
6171阅读
0评论
0点赞
发布博客于 5 月前

沉浸彩虹岛登录器_1.0版

使用Python原创编写的一个彩虹岛游戏登录器,仅供学习交流,切勿用于它用,如需Python源码可联系作者
exe
发布资源于 5 月前

使用uiautomatorviewer获取APP页面中的元素坐标

当我们在使用adb进行操作APP行为的时候,往往会遇到需要定位到页面指定的元素进行点击、滑动等操作,例如下面的图所示的场景。作者这里的使用场景是,使用adb打开抖音app,打开时,会出现一个弹出框,下面需要做的是,adb模拟点击取消按钮使弹窗消失,关于模拟点击,adb中有提供 input tap 500 500 方法进行点击,后面的两个500分别表示要点击的元素x和y轴的坐标。由此可知,要想点击页面某个元素,得需要先知道这个元素在页面中的坐标位置,那么如何得到这个坐标位置了,这里介绍一个工具:uia
原创
6331阅读
0评论
0点赞
发布博客于 5 月前

adb操控夜神模拟器设置剪切板

作者偶然间在做一个小单子的时候,遇到这么一个需求场景:用手机通过其他途径比如微信或者qq等复制到了一个抖音视频链接目的是用于去抖音里面给其点赞,通过复制之后,此时这个视频链接在手机的剪切板中,然后打开抖音APP,抖音会自动识别剪切板中的内容,一但识别到剪切板中的内容属于抖音视频链接,怎会弹出如下图所示的弹出框。通过点击打开看看按钮,则会进入到具体视频界面,可对其进行查看。下面我们需要使用程序进行模拟这个过程,关于写自动化程序可用的自动化框架有很多,比如:appium,ADB,auto.js,按键精灵
原创
6245阅读
0评论
1点赞
发布博客于 5 月前

如何缺心眼的在代码里下毒

偶然看到一篇脑洞大开的文章,转载过来乐呵一下,原文地址:https://www.jianshu.com/p/635fcf4fe594下毒要点独特的算法,个性的变量命名。 复杂的结构,畸形的文件路径。 无常的缩进,空空如也的注释。 混乱的格式,从不换行的语句。 磅礴的代码,无数的羊肠小道。 意外的编译,庞大的黄色感叹。一、程序命名容易输入的变量名。比如:Fred,asdf 单字母的变量名。比如:a,b,c, x,y,z(如果不够用,可以考虑a1,a2,a3,a4,….)&
转载
6626阅读
0评论
0点赞
发布博客于 6 月前

Python3 sqlite3数据操作简易封装

# -*- coding:utf8 -*-import sqlite3'''sqlite3数据操作简易封装'''class DBHP(): def __init__(self,db_name=None): self.conn = sqlite3.connect(db_name if db_name else 'CattleSpider.db') self.cursor = self.conn.cursor() print("初始化打开数.
原创
6305阅读
0评论
0点赞
发布博客于 6 月前

关于冒险岛,8090的不二游戏

朋友,忙碌的一天天,终于又熬到了你放飞自我的周末,那么这个周末,你是打算躺着过呢还是躺着过呢,还是躺着过?那么,我不禁就要叨叨躺着过的你了,祖国的大好山河,伟岸基业你不去一一游览观赏,整天就知道熬日子睡懒觉,没!出!息!想想小时候敢于冒险的你,想想那时候满怀梦想,沉浸在环岛遨游的你,那时候的你,勇敢活力,像一个永远都满电的小怪兽,难道你不怀念那时候的你吗?还有你当年暗恋的校花琳琳,再不出击马上就要嫁人妻了,你还有什么理由不努力?我知道,一周的上班时间给你带来了很多的压力,你想释放,想解压,有
原创
6215阅读
0评论
0点赞
发布博客于 6 月前

震惊!网瘾少年在冒险岛的逆袭之路

李华同学在高中时期,曾是一个整日沉浸在冒险岛的同学,也就是我们通常所说的网瘾少年。老师的劝阻,父母的无奈,同学的嘲笑,让每每在英语课上的李华同学总恨不得找个地洞钻进去,因为英语考试作文题上,假定你是李华这六个字真的是太刺眼太刺眼,仿佛在嘲笑整日堕落的李华自己。直到高三,一个女生转来,李华后来才知道,她叫琳琳,她是一名复读生,离理想的重本大学仅仅差了一分,她不愿将就,于是选择复读。从见到琳琳的第一眼开始,李华便决定痛改前非,决心抽离沉浸冒险岛,因为琳琳是他更冒险的梦。一年的汗水浇灌,李华没有和
原创
5825阅读
2评论
0点赞
发布博客于 6 月前

使用 Python3 实现系统代理IP

在写爬虫的时候,偶尔会遇到需要将自己电脑上的系统代理自动设置定时刷新等。在这种场景下,可以采用以下脚本进行自动设置,以下脚本仅限于windows电脑:mport winregimport ctypes#如果从来没有开过代理 有可能健不存在 会报错INTERNET_SETTINGS = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'Software\Microsoft\Windows\CurrentVersion\Internet Settings',0,
原创
6239阅读
3评论
0点赞
发布博客于 7 月前

python将网页源码中的table表格元素导出成csv中的表格

做爬虫的时候,针对于爬取的网页中有很多表格时,如有需要将网页上表格中内容原封不动的保存到csv文件中,可以参考以下方式,下面前面给的是一个测试源码,复制全部内容到py文件中即可进行测试:import csvfrom bs4 import BeautifulSoupimport re#可使用后面网站中的源码进行测试:https://www.landchina.com/DesktopModule/BizframeExtendMdl/workList/bulWorkView.aspx?wmguid=
原创
6148阅读
0评论
0点赞
发布博客于 7 月前

电视节目rtmp推流地址搜集

CCTV-1综合:rtmp://58.200.131.2:1935/livetv/cctv1CCTV-2财经:rtmp://58.200.131.2:1935/livetv/cctv2CCTV-3综艺:rtmp://58.200.131.2:1935/livetv/cctv3CCTV-4中文国际:rtmp://58.200.131.2:1935/livetv/cctv4CCTV-5体育:rtmp://58.200.131.2:1935/livetv/cctv5CCTV-6电影:rtmp://58.
原创
8613阅读
2评论
4点赞
发布博客于 8 月前

Python根据地名获取经纬度

以下是通过访问高德地图接口获取指定地名的经纬度信息代码:import requestsimport reimport json'''获取地址坐标'''def get_get_location_m(name): url="https://restapi.amap.com/v3/place/text?s=rsv3" \ "&children=&key=8325164e247e15eea68b59e89200988b&page=1" \
原创
6628阅读
2评论
1点赞
发布博客于 8 月前

冒险岛079登录器 PY 网页版源码

import sysfrom PyQt5.QtCore import *from PyQt5.QtGui import *from PyQt5.QtWidgets import *from PyQt5.QtWebEngineWidgets import *from flask import Flask,render_templatefrom flask import requestimport jsonfrom threading import Threadimport osimpor.
原创
7194阅读
0评论
0点赞
发布博客于 8 月前

centos7下安装pg数据库

由于别人这里已经有一个比较靠谱的步骤,我就不再重复写了,推荐大家进:https://blog.51cto.com/12924846/2344334?source=dra查看
转载
6074阅读
0评论
0点赞
发布博客于 9 月前

冒险岛历代版本科普(干货)-琳琳冒险岛

每个版本都有一个 故事 文章来源,琳琳冒险发布地址: mxd.liuyanlin.cn2004-07-23封测2004-08-23公测2004-08-31开放商城2004-09-14更新至V013,开放宠物和个人商店2004-10-21更新至V015,开放仓库、背包扩充功能2004-11-19更新至V016,开放废弃都市组队任务、新任务、各类雪板、双倍经验卡、增加新怪物 新增BOSS——绿水灵王2004-12-07官方网站公告声明严厉打击恶性外挂2004-12-09版本.
原创
7930阅读
0评论
1点赞
发布博客于 9 月前

琳琳冒险岛

琳琳冒险岛发布地址:http://mxd.liuyanlin.cn/游戏已经巨变,但是冒险家的心没有变换,琳琳冒险发布站秉持着圣洁的冒险觉醒之心,帮助冒险家在繁忙工作之余回到多彩的冒险世界,畅谈大家的冒险经历与升级要诀,让冒险岛这个艺术品更加的熠熠生辉。开源PY版登录器部分源代码:if __name__ == '__main__': root = tk.Tk() root.title('樱木冒险岛登录引导') width = 816 height = 458
原创
6579阅读
0评论
0点赞
发布博客于 9 月前

Appium教程

Appium 是移动端的自动化测试工具,利用它可以驱动 Android或者iOS 设备完成自动化测试,比如模拟点击 滑动 输入等操作,其官方网站为:http://appium.io/ 。本文中我们,我们就来了解一下 Appium 安装方式。 GitHub: https://github.com/appium/appium 官方网站 http ://appium.io 官方文档: http:// Appium.io/introduction.html 下载链接:https: //gith...
原创
6375阅读
0评论
2点赞
发布博客于 9 月前

Python3在线读取PDF内容

环境:Python3.8pip install pdfminer3k==1.0.2示例代码:import importlibimport sysimport timeimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp imp...
原创
6482阅读
0评论
0点赞
发布博客于 10 月前

琳琳冒险岛家族任务指南

冒险岛玩家交流群:http://mxd.liuyanlin.cn任务要求:时间:90分钟地点:遗迹发掘队营地参加条件:1、6人以上的公会员一起参加(至少法师1名、飞侠1名、30级以下玩家1名)2、由公会会长或副会长作为指挥官参加3、请注意参加过程中如果公会员不足6人,或指挥官中断的话,则不能继续任务过程:准备阶段:守护之峡谷每人打一个守护石耳环戴上即可第1阶段:城门的考...
原创
6762阅读
0评论
0点赞
发布博客于 10 月前

Python3之海象运算符

海象运算符是Python3.8中推出的一个新特性,它可以在表达式内部为变量赋值,例如在 if 或者while循环中等,其语法格式为:=根据官方文档的描述,该符号因比较像海象的眼睛和长牙所以被称之为“海象运算符”。下面通过一个示例来看看:1.通过 if 语句判断一个变量 num 的值是否大于30,如果大于则输出为True#传统的写法num=34if num>30: ...
原创
6254阅读
0评论
1点赞
发布博客于 10 月前

pyinstaller 打包Python脚本成 exe 时加 -w 参数的坑

在使用pyinstaller进行打包Python脚本成exe程序带 -w参数时,如果程序中有用到 以下一些方法,会导致一些坑:subprocess.Popen()os.popen()pyinstaller打包exe程序时,一般的语法示例如下,假如作者这里有个脚本叫:冒险岛登录器.py 现在要将它打包成:冒险岛登录器.exe可执行程序。常见的做法是:pyinstaller -F 冒...
原创
6771阅读
3评论
1点赞
发布博客于 10 月前

Python3获取谷歌翻译

import execjsimport requests'''爬取谷歌翻译结果pip install PyExecJS'''def get_js_result(): htmlstr = ''' function VL(a) { var b = a.trim(); return TL(b); } ...
原创
5971阅读
1评论
0点赞
发布博客于 10 月前

使用python3编写冒险岛079登录器

使用Python3开发冒险岛登录器,特别简单效果图:源码如下:#!/usr/bin/env python3# encoding=utf-8from tkinter import *from tkinter import messagebox as tkMessageBoximport base64import webbrowserimport hashlibimpo...
原创
6675阅读
1评论
1点赞
发布博客于 10 月前

冒险岛079登录器-自制PY版.rar

使用Python编写的一款冒险岛079登录器工具,冒险岛爱好者可以参考-
rar
发布资源于 10 月前

琳琳冒险岛新手攻略

沉浸萌新入门攻略(必读)冒险岛Q群入驻链接:mxd.liuyanlin.cn(一)基本设置沉浸岛赞助介绍:本岛赞助比例1:110 多赞助,无VIP无礼包无PY;盈利多数为充值后抽奖,赞助充值请联系QQ群主、管理员,抽奖设置了保底回馈让脸黑的您不再失望!服务器经验倍率介绍:本岛为100级别之前:1倍经验【1倍怪物数量、1倍爆率】100-150级:2...
原创
6395阅读
0评论
0点赞
发布博客于 1 年前

python requests库爬取冒险岛发布站数据

今天来给大家讲解一下,Python爬虫经常会用到的一个基本库 requests来请求网页,获取数据。爬取目标:冒险岛发布站:http://mxd.liuyanlin.cnimport requestsurl="http://mxd.liuyanlin.cn"res=requests.get(url)print(res.text)...
原创
5998阅读
1评论
0点赞
发布博客于 1 年前

Python3将文件压缩成zip格式

例如我这里将 upload_load.py 文件压缩成upload_load.zip ,运行代码,在指定目的下就会生成:upload_load.zip 文件#压缩文件import time,zipfileclass zip: def get_zip(self,files,zip_name): zp=zipfile.ZipFile(zip_name,'w', zi...
原创
7077阅读
0评论
0点赞
发布博客于 1 年前

nat123内网穿透

在做开发的时候,因为自己没有服务器,想要自己的网站啥的可以外网访问怎么办,这时候咱们可以通过一个工具:nat123来做个内网穿透,非常简单,下面这里做个简单的示范,nat123安装包,我这里上传了百度云盘,可以下载,下载地址为:https://pan.baidu.com/s/1hA6UG7jXtmWeN7TT4sFZNg系统环境:win10步骤1:下载安装包,并且解压,如下图所示,双击...
原创
6456阅读
0评论
0点赞
发布博客于 1 年前

python3获取13位当前时间戳

import timemillis = int(round(time.time() * 1000))print(millis)运行打印结果:通过验证发现是正确的
原创
8250阅读
1评论
0点赞
发布博客于 1 年前

git提交用户名密码输入错误,重新修改

第一次提交git的时候需要配置email和name。然后输入仓库的账号密码。通常只需要输入一次,会进行保存。如果输入错误,不会再弹出密码输入框。导致后面使用git push 无法提交。报类似下面的错误:Enumerating objects: 20, done.Counting objects: 100% (20/20), done.Delta compression usin...
原创
7246阅读
0评论
0点赞
发布博客于 1 年前

Python在win环境下杀掉指定端口示例代码

import osimport re'''功能:python实现杀掉指定端口win10系统环境下python版本:3.6'''def kill_port(port): # 查找端口的pid find_port = 'netstat -aon | findstr %s' % port result = os.popen(find_port) text...
原创
6074阅读
0评论
0点赞
发布博客于 2 年前

Wireshark抓包工具介绍

在编写爬虫抓取app数据的时候,往往需要通过抓包工具对app进行抓包分析,例如:Fiddler、Charles等,但是在偶尔的情况下,你会发现通过这些工具抓包抓取失败,一启用抓包工具,就会显示网络错误。为什么会这样了?我个人的了解和分析来看,应该是以下原因: 像Fiddler、Charles等这些大多数的抓包工具都是通过代理机制来抓包的,然而现在很多app对特定的敏感接...
原创
6286阅读
0评论
0点赞
发布博客于 2 年前

app反编译

在进行安卓开发或者爬虫开发过程中,偶尔会遇到需要将app进行反编译分析参考源码的需求,接下来,笔者将自己实践过程记录下来,給需要的朋友一个参考。仅供学习之用,勿做坏事儿,哈哈哈!准备工作:确保电脑已经配置好了java环境,最好是jdk1.8以上使用工具:apktool(作用:资源文件获取,可以提取出图片文件和布局文件进行使用查看) 下载地址:https://bitbucket.or...
原创
7062阅读
0评论
5点赞
发布博客于 2 年前

全球216个国家信息.xls

国家信息数据,里面包含国家中文名、英文名、中英文简写、二字码、三字码、时区、区号、国土面积等字段信息
xls
发布资源于 2 年前

Nginx负载均衡最简单的配置demo

将请求负载的5个不同的端口上,每个端口的分数为2worker_processes 1;events { worker_connections 1024;}http{ upstream proxy_ip_api{ #ip_hash; server 127.0.0.1:5001 weight=2; ...
原创
6112阅读
0评论
0点赞
发布博客于 2 年前

centos7 编译安装greenplum5.7

一、配置系统安装是以一个主节点,三个子节点进行安装。gp是在github上下载的5.7的源码。地址https://github.com/greenplum-db/gpdb/tree/5.7.0。1、Greenplum集群介绍这里使用1个master,3个segment的集群,ip为196.168.12.101196.168.12.102196.168.12.103196...
转载
6100阅读
0评论
0点赞
发布博客于 2 年前

Python爬虫之骚操作,破解扫码登录

来給大家分享一种破解扫码登录的方法,这里以淘宝为例,特别的骚气,老铁快双击666,哈哈哈哈准备工作:1,一台不常用的手机,下载安装好淘宝app,并使用一个不常用的账号登录。2,确保电脑已经配置好了 appium和selenium 环境3,准备一个支架,将手机固定在电脑屏幕前,并且确保使用数据线能正确连接appium4,破解思路:编写代码,使用selenium跳转到淘宝登录界面,...
原创
10207阅读
2评论
1点赞
发布博客于 2 年前

使用 aiowebsocket 库获取websocket数据

在写爬虫的时候,偶尔会碰到要爬取的网站或者app数据是通过websocket返回的,这时候,我们可以通过Python的 aiowebsocket这个库来进行爬取,下面是一个简单的示例代码,获取指定ws地址的数据并打印:import asyncioimport loggingfrom aiowebsocket.converses import AioWebSocketimport jso...
原创
7116阅读
1评论
0点赞
发布博客于 2 年前

好奇心驱使下的OceanBase分布式数据库尝鲜

OceanBase是一个支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务,由淘宝核心系统研发、运维、DBA、广告、应用研发等部门共同完成。在设计和实现OceanBase的时候暂时摒弃了不紧急的DBMS的功能,例如临时表,视图(view),研发团队把有限的资源集中到关键点上,当前 OceanBase主要解决数据更新一致性、高性能的跨表读事务、范围查...
原创
6179阅读
0评论
0点赞
发布博客于 2 年前

Python+Selenium+Browsermob-Proxy 爬虫-获取浏览器Network请求和响应

1.问题 自从发现Selenium这块新大陆后,许多异步加载、js加密、动态Cookie等问题都变得非常简单,大大简化了爬虫的难度。但是有些时候使用Selenium仍然有一些缺陷,比如现在很多网站数据都是通过json结构的接口来交互,通过分析报文的方式直接发包可以直接拿到json数据,数据不但全而且还很好解析,这比解析html网页容易多了。另一个非常重要的问题就...
原创
17129阅读
25评论
10点赞
发布博客于 2 年前

Python调用百度语音合成api将文字转换成音频文件并播放代码示例

from aip import AipSpeechimport wave,pygameimport timeimport randomimport os'''pip install baidu-aip调用百度语音合成api将文字转换成音频文件'''def get_video(msg): APP_ID = '17264707' API_KEY = '59xxwY...
原创
6864阅读
0评论
0点赞
发布博客于 2 年前

python使用pyhdfs上传文件到hdfs

本文属于转载,仅用于做个笔记。# -*- coding:utf-8 -*-import pyhdfs'''pip install pyhdfs'''class FileManager(object): # upload file to hdfs from local file system def file_upload(self, host, user_name...
转载
7757阅读
4评论
1点赞
发布博客于 2 年前

使用python将指定文件夹下的全部文件上传到 hdfs 的指定路径

因在公司业务上遇到一个需求,需要将指定服务器上的指定路径下的所有文件,例如:test.csv 上传到hdfs上,参考了网上的一些大佬的帖子实现了需求,故做个笔记方便以后查看,参考地址:https://www.cnblogs.com/SmallCaff/p/10650699.htmlimport osimport platformimport logging as lgfrom...
转载
6944阅读
0评论
0点赞
发布博客于 2 年前

liunx下 Kafka与Kafka-manager在CentOS7下的安装与使用

kafka安装参考地址:https://blog.csdn.net/kisscatforever/article/details/86091136kafka-manger安装参考地址:https://blog.csdn.net/weixin_38187317/article/details/80037218
转载
6214阅读
0评论
0点赞
发布博客于 2 年前

centos下zokeeper安装

参考地址:https://www.52xbc.cn/linuxjishu/324.html
转载
6034阅读
0评论
0点赞
发布博客于 2 年前

appPackage和appActivity参数获取方法

以大众点评app为例:我们使用Appium连接并启动大众点评App进行模拟登陆,不知道有没有细心的读者发现,有两个特别重要的参数值appPackage 和 appActivity 。下面分别讲解这个两个参数的值获取方法。1.appPackageappPackage 方法的获取,可以通过一个工具来获取,这个工具的名字叫“GT”,GT的界面中自带了获取appPackage 的功能,使用手机从应...
原创
6679阅读
0评论
0点赞
发布博客于 2 年前

Elasticsearch from+size 超过10000结果解决方法

转发地址:https://blog.csdn.net/asdasdasd123123123/article/details/86601671方法一:如果需要搜索分页,可以通过from size组合来进行。from表示从第几行开始,size表示查询多少条文档。from默认为0,size默认为10,如果搜索size大于10000,需要设置index.max_result_window参数...
转载
8835阅读
1评论
0点赞
发布博客于 2 年前

解决liunx下静态文件中如果名字包含中文访问不了报404错误问题

步骤1:安装字符编码sudo locale-gen zh_CN.UTF-8打开/etc/default/locale修改为:LANG=zh_CN.UTF-8LANGUAGE=zh_CN:zh:en_US:en步骤2:yum install convmv -y 或者apt-get install convmv -yconvmv -f GBK -t UTF8 -r --note...
原创
7477阅读
1评论
0点赞
发布博客于 2 年前

Squid搭建代理ip服务器并使用python requests库进行连接测试

作者这里由于爬虫业务需要,所以向云立方购买了几台adsl拨号代理搭建自己的代理服气器,云立方地址:https://www.yunlifang.cn/具体搭建步骤如下:环境准备:购买 adsl 拨号服务器:centos7.x版本以上 如下图所示:步骤1:安装squidyum install -y openssl squid步骤2:配置 squid 用户名密码验证...
原创
7172阅读
0评论
0点赞
发布博客于 2 年前

Python下APScheduler的快速指南

原文转载地址:https://blog.csdn.net/luanpeng825485697/article/details/84395302APScheduler介绍APScheduler是基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。APScheduler...
转载
6160阅读
0评论
0点赞
发布博客于 2 年前

selenium优化禁止图片和css加载

在使用 selenium 模拟抓取网页的时候,速度效率其实是非常慢的,可以稍微优化一下,禁止不必要的图片加载和css加载,示例代码如下:from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timeimport randomoptions = Options...
原创
12615阅读
2评论
0点赞
发布博客于 2 年前

ubuntu/深度系统下安装python3.6.4

背景开发使用python3.6.4 但是系统自己带的是2.7 和3.5版本的 不仅要安装python3.6 还要将环境隔离开下载安装下载python3.6编译安装1 、建立一个soft 文件夹 用来存放下载文件mkdir soft环境准备sudo apt-get install opensslsudo apt-get install libssl-dev2 进入...
原创
6982阅读
0评论
1点赞
发布博客于 2 年前

go语言批量检测代理ip是否可用

在做爬虫的时候,经常会用到代理ip,然而代理ip也会经常会去检测是否有效,所以假设我在redis中有如下几个ip:下面需要做的是使用go去读取出来,然后依次去请求如下地址:http://icanhazip.com如果有成功返回ip则表示此代理ip有效,相关的参考代码如下:package mainimport ( "encoding/json" "fmt" ...
原创
7088阅读
0评论
1点赞
发布博客于 2 年前

go操作redis set集合简单demo

连接redis之前,需安装go get github.com/garyburd/redigo/redis然后参考以下示例:package mainimport ( "fmt" "github.com/garyburd/redigo/redis")func main() { //连接redis conn,err := redis.Dial("tcp...
原创
7039阅读
0评论
0点赞
发布博客于 2 年前

go语言请求url测试代理ip是否可用简单demo

package mainimport ( "fmt" "io/ioutil" "log" "net/http" "net/url" "time")/*验证代理ip是否可用通过传入一个代理ip,然后使用它去访问一个url看看是否访问成功,以此为依据进行判断当前代理ip是否有效。参数:proxy_addr 要验证的ip返回:ip 验证通过的ip、...
原创
7250阅读
0评论
0点赞
发布博客于 2 年前

使用go的 iris 框架编写一个从mysql查询数据并返回的web接口简单demo

package mainimport ( "database/sql" _ "github.com/go-sql-driver/mysql" "github.com/kataras/iris")//数据库配置const ( userName = "root" password = "123456lyl" ip = "125.200.93.154" ...
原创
7970阅读
0评论
0点赞
发布博客于 2 年前

go连接mysql进行查询测试demo

mysql数据库go驱动安装golang连接数据库用户的驱动是:go-sql-driver安装方式:打开命令行,执行go命令:go get -u github.com/go-sql-driver/mysql示例代码:package mainimport ( "database/sql" "fmt" _ "github.com/go-sql-driver/...
原创
6640阅读
0评论
1点赞
发布博客于 2 年前

6个Go语言Web框架

原文地址:https://blog.csdn.net/dev_csdn/article/details/78740990GO 语言爱好者的最佳Web框架如果你是自己写一个小应用程序,那你可能不需要Web框架。但是如果你要做产品,那么你肯定需要一个好的框架。如果你认为你有相应的知识和经验,你会自己编写所有的这些代码么?你有时间找到一个产品级的外部包来完成工作吗?你确定这与你应用程序的其它...
转载
6131阅读
0评论
1点赞
发布博客于 2 年前

python 获取未来指定天数的日期

from datetime import timedelta, datedef get_day_of_day(n=0): ''''' if n>=0,date is larger than today if n<0,date is less than today date format = "YYYY-MM-DD" ''' if(n...
原创
6692阅读
0评论
0点赞
发布博客于 2 年前

ubuntu安装appium

在liunx环境下安装appium建议使用node方式方式安装,可以减少一些必要的麻烦:1.node安装:在node官网:https://nodejs.org/en/download/下载对应的安装包(这里建议下载最新的版本)下载好后放在liunx指定路径下,参考以下命令设置 node 和 npm 的软连接方式ln -s ~/install/node/bin/node /user/l...
原创
7180阅读
4评论
0点赞
发布博客于 2 年前

介绍一款python类型检查工具pyright

原文转载地址:https://mp.weixin.qq.com/s__biz=MzUyOTk2MTcwNg==&mid=2247484111&idx=1&sn=dde34ed721a990c26d98fdcb19e56363&chksm近日,微软在 Github 上开源了一个 Python 静态类型检查工具:pyright,引起了社区内的多方关注。微软在开...
转载
7479阅读
0评论
1点赞
发布博客于 2 年前

python3 装饰器传参和函数传参结合使用demo

def record_request(data_param): def func_outer(func): def func_inner(*args, **kwargs): print("获取到的函数参数:",args[0]) print("---------函数运行之前-----") func(*a...
原创
6477阅读
0评论
0点赞
发布博客于 2 年前

ubuntu下的nginx常用命令

nginx-s reload :修改配置后重新加载生效nginx -s reopen :重新打开日志文件nginx -t -c /path/to/nginx.conf 测试nginx配置文件是否正确关闭nginx:nginx -s stop :快速停止nginx quit :完整有序的停止nginx其他的停止nginx 方式:ps -ef | grep n...
转载
6133阅读
0评论
0点赞
发布博客于 2 年前

django-suit时间不准

在settings.py里面USE_TZ = False将USE_TZ改成Flase即可。如果settings.py里面没有改配置,则加上。
原创
5951阅读
0评论
0点赞
发布博客于 2 年前

限制django admin后台系统的表格文字显示长度

由于我这里是使用的django-suit插件,所以我需要先将suit包下的admin拷贝到项目的templates路径下,然后在base.html的头部加入以下图片中所示的css样式即可。最终运行项目,效果如图所示:...
原创
7169阅读
1评论
0点赞
发布博客于 2 年前

lyl-回首往事

 回首往事,我发现自己失去了很多宝贵的东西。但我并不难过,因为我知道,以后会失去的更多
转载
6762阅读
2评论
0点赞
发布博客于 2 年前

centos7下安装ElasticHD实现对ES进行可视化监控管理

ElasticHD 支持 ES监控、实时搜索,Index template快捷替换修改,索引列表信息查看, SQL converts to DSL工具等,体验下来感觉还是比较强大的!**项目地址:**https://github.com/360EntSecGroup-Skylar/ElasticHD直接安装方式:首先打开https://github.com/360EntSecGroup-...
原创
10832阅读
3评论
1点赞
发布博客于 2 年前

python3从ES中以分词方式查询数据并实现分页的demo

实现效果:前提是已经配置好了ES IK分词扩展的和创建好了索引并导入了数据的情况下,实现分页查询。demo代码如下:from elasticsearch import Elasticsearch'''@:param page_szie:每页显示条数@:param page_index:当前第几页@:param where_list:查询条件,格式如:[{"article_conten...
原创
7675阅读
0评论
0点赞
发布博客于 2 年前

Python3使用ES常见问题记录

1.使用Elasticsearch 6.x版本以上进行查询字段排序的时候,遇到报类似如下错误:elasticsearch.exceptions.RequestError: RequestError(400, 'search_phase_execution_exception', 'Fielddata is disabled on text fields by default. Set fiel...
原创
8471阅读
0评论
0点赞
发布博客于 2 年前

ES创建索引映射指定分词策略

本文参考自:https://blog.csdn.net/diyiday/article/details/82153780在es中使用我们自定义的IK分词插件的时候,创建索引时指定分词,如{  "settings": {    "index.analysis.analyzer.default.type": "ik_max_word"   //对应 IK 的 ik_max_word 和 i...
原创
12325阅读
1评论
0点赞
发布博客于 2 年前

ES IK自定义分词词库配置

参考地址:https://blog.csdn.net/whb3299065/article/details/80104323一、业务场景在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行筛选,举个例子:当我要将“我是中国人,我想测试一下”这句话通过分词,将“我想测试一下”分为一个词的时候,就需要利用ik的自定义词库进行灌入指定的词。...
原创
10273阅读
0评论
0点赞
发布博客于 2 年前

Elasticsearch 安装IK Analysis分词插件

原文参考地址:https://blog.csdn.net/u011499747/article/details/78917718到此地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/ 找到与自己安装Elasticsearch对应的版本,例如我这里我下载的是v6.5.4的版本,如图所示:下载好之后,拖到es服务器...
原创
7186阅读
0评论
0点赞
发布博客于 2 年前

centos7下开启Elasticsearch远程访问常见问题

此文只是个人随手转载收藏的笔记。原文地址:https://blog.csdn.net/hbtj_1216/article/details/84728582
转载
8599阅读
0评论
0点赞
发布博客于 2 年前

CentOS7安装并运行Elasticsearch_6.5.4

原文参考地址:https://blog.csdn.net/hbtj_1216/article/details/847285821 准备工作新装 CentOS 7 64位系统 安装jdk 1.8,这个是最低要求 从官网上下载 elasticsearch-6.5.4.tar.gz 压缩包2 安装和运行(1)解压压缩包。tar -zxvf elasticsearch-6.5.4....
原创
8063阅读
1评论
0点赞
发布博客于 2 年前

在centos7上部署selenium(基于chrome驱动)的爬虫项目

 相信大家在写爬虫的时候,经常会遇到爬取的网站是动态渲染的,而且各自反爬加密参数,难以破解,所以不得已采用使用了python+selenium进行模拟人为操作爬取。免去了一些繁琐步骤。但是我们大多数都是在windows或者Mac下进行开发和测试。开发完了之后。最终要部署到服务器上去。那么服务器常用的就有liunx。至于liunx服务器我们都知道,它并没有一个像windows上的桌面,而是一个纯...
原创
10366阅读
1评论
3点赞
发布博客于 3 年前

使用python+selenium爬取同城旅游网机票信息

 最近使用python+selenium爬取了同城旅游网机票信息相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了。from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfro...
原创
8351阅读
0评论
0点赞
发布博客于 3 年前

flume向hdfs中写入会生成很多小文件

问题:flume监控的目录写入大文件的时候不能同步记录在hdfs中flume监控的目录写入大文件的时候,同步记录到hdfs中后变成多个小文件flume从kafka中读取数据下沉到hdfs中会生成很多小文件解决办法:更改flume的配置信息(主要更改滚动方式),滚动的意思是当flume监控的目录达到了配置信息中的某一条滚动方式的时候,会触发flume提交一个文件到hdfs中(即在hdfs...
原创
10459阅读
4评论
0点赞
发布博客于 3 年前

arbari中创建新flume配置文件

我们都知道,在使用flume的时候,会针对不同的项目创建多个不同的配置文件运行。那么在使用arbari管理flume的时候,怎么在页面上动态创建配置文件并启动了。可按以下的步骤创建。选择到默认配置文件这个地方,右边有个小加号,点击如图然后选择Create a new Flume Configuration Group 输入名称,点击ok就可以完成创建啦。创建完成之后就可以在如下图划...
原创
7552阅读
0评论
0点赞
发布博客于 3 年前

解决Flume采集数据时在HDFS上产生大量小文件的问题

原文地址:https://blog.csdn.net/whdxjbw/article/details/80606917问题:flume指定HDFS类型的Sink时,采集数据至HDFS指定目录,会产生大量小文件。如下图所示:问题重现:1、创建flume配置文件flume-env.sh,:flume配置文件如下(根据自身需要修改):    因为flume可以配置多种采集方式,每...
转载
8302阅读
0评论
0点赞
发布博客于 3 年前

python3实现socket客户端通信demo

1.创建server.py文件作为服务端,代码如下:#服务端import socketserverclient_list=[]class TCPHandler(socketserver.BaseRequestHandler): # 所有请求的交互都是在handle里执行的, def handle(self): while True: ...
原创
11076阅读
3评论
0点赞
发布博客于 3 年前

python3实现多进程并发任务

在python开发中,有时候会有这样的需求,比如说我后很多个任务,需要并行执行,也就是说有一个任务队列,大家都知道,在python中的多线程,它其实从严格意义上来讲,并不是真正的多线程。所以用多线程我们还不如使用多进程。使用多进程的有什么好处了,它可以实现分布式多机并行。多个客户端共享一个任务队列。可以大大提高任务执行效率,下面我我将使用python中的multiprocessing库实现一个多...
原创
13916阅读
4评论
3点赞
发布博客于 3 年前

pg数据库日期字段索引查询优化

有时候我们在使用sql查询的时候,会涉及到根据日期查询内容,通常做法都是通过日期字段 &gt;= 来判断日期范围的,当数据量大了,你会发现查询速度就会很慢,这时候我们可以做些优化,给日期字段建立索引,更改查询语句,如下例子:        select * from fcz_moment where dep_airport_code='CTU' and air_date ~'2018-02|2...
原创
12097阅读
0评论
0点赞
发布博客于 3 年前

Python3实现获取指定日期范围内的月份列表

import datetimefrom dateutil import rruleclass TimeHelper(): def getMonthRangList(self, start_month, end_month): """ 从开始日期到结束日期查询存在的月份列表,除去本月的数据 :param start_month: ...
原创
11958阅读
0评论
0点赞
发布博客于 3 年前

git创建新分支并push到远程服务器

1. 切换到被copy的分支(master),并且从远端拉取最新版本    $git checkout master$git pull2. 从当前分支拉copy开发分支,例如我要创建新分支v2为例    $git checkout -b v2Switched to a new branch 'v2'3. 把新建的分支push到远端    $git push origin v2...
转载
13904阅读
0评论
0点赞
发布博客于 3 年前

centos7防火墙端口设置

1.防火墙操作启动: systemctl start firewalld查看状态: systemctl status firewalld 停止: systemctl disable firewalld禁用: systemctl stop firewalld2.开放指定端口firewall-cmd --zone=public --add-port=8000/tcp --permanent...
原创
9829阅读
0评论
0点赞
发布博客于 3 年前

网页上放置按钮分享到朋友圈、空间等

有时候我们在做网页的时候,希望可用实现用户点击分享按钮,可以将网页内容分享到微信朋友圈或者QQ空间等,我从网上找到一个地址,别人弄好的一个插件,可以将它直接复制到网页上就可以用了,地址如下:http://share.baidu.com/code...
原创
10592阅读
0评论
0点赞
发布博客于 3 年前

python3.6实现mysql数据库连接池

首先安装数据连接池模块pip3 install DBUtils然后安装mysql驱动包pip3 install PyMySQL安装完成之后,在项目中settings文件里面配置好数据连接信息,如下图:新建一个myql_help文件,名称自己取,然后复制参考以下代码,我这里简单做了一下封装:import pymysqlfrom pymysql.cursors im...
原创
10654阅读
0评论
0点赞
发布博客于 3 年前

收藏大佬liunx使用的笔记

1.网络扫描 嗅探工具:         nmap(跨平台 命令行,可识别操作系统)        sniffer(windows)2.抓包工具:        网络层: wireshark、tcpdump        应用层:Burpsiute(跨平台)、fiddler(windows)3.域名解析命令:  nslookup(跨平台)、dig(跨平台)4.外部路由诊断:tra...
转载
9516阅读
0评论
0点赞
发布博客于 3 年前

Ubuntu 16.04 搭建自己的 gogs git服务器

原文地址:https://blog.csdn.net/u013615904/article/details/80519349gogs是一款极易搭建的自助 Git 服务。相当于自己的github网站,搭建了就可以更新维护自己的私有仓库,不然github上私有仓库可是要收费的。这里先在根目录下创建一个叫web的文件夹,专门存放wget命令下载的网络资源。mkdir web然后进...
转载
9937阅读
0评论
0点赞
发布博客于 3 年前

Python网络爬虫第1章Python基础

快速入门篇网络爬虫(又被称为网页蜘蛛Spider,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本书将使用Python语言作为开发工具从Python基础开始由浅入深的讲解爬虫的开发流程及设计思路。Python基础★本章导读★有句老话说得好,“工欲善其事,必先...
原创
11227阅读
0评论
0点赞
发布博客于 3 年前

向指定的excel文件中追加数据

首先 pip install xlutilsimport xlrdfrom xlwt import *import osfile_name="E:\\test_file\\test.xls"#打开指定路径excelbk = xlrd.open_workbook(file_name)#复制一份wb=copy(bk)#获取Sheet1sheet=wb.get_sheet(...
原创
13161阅读
0评论
1点赞
发布博客于 3 年前

centos7 下安装 python3.6.4 安装virtualenv 来隔离python2 和python3 的环境

原文地址:https://blog.csdn.net/yangxiaodong88/article/details/79128119背景开发使用python3.6.4 但是系统自己带的是2.7 版本的 不仅要安装python3.6 还要将环境隔离开下载安装下载python3.6编译安装 1 、建立一个soft 文件夹 用来存放下载文件 mkdir soft环境准备 yum i...
转载
10999阅读
0评论
0点赞
发布博客于 3 年前

centos7上安装PyGreSQL-5.0.6

在centos上或者其它liunx系列下安装不管我是通过pip install PyGreSQL==5.0.6或者手动下载PyGreSQL安装包运行python setup.py install安装 PyGreSQL-5.0.6的时候总会遇到各种各样的坑,各种错误,错误如下:我这里是在的centos7环境下,我成功的解决办法是:首先 yum install gcc然后 yum ...
原创
11347阅读
0评论
0点赞
发布博客于 3 年前

unbutu 系统下python虚拟环境的创建, 进入及退出

首先下载python虚拟环境工具sudo apt install python-virtualenv然后下载虚拟环境管理工具pip install virtualenvwrapper然后在~/.bashrc中(打开vim ~/.bashrc    在行最后插入 shift+g 跳转到最后, 输入i 进入插入模式)# 配置虚拟文件夹路径export WORKON_HOME=$...
转载
11209阅读
0评论
0点赞
发布博客于 3 年前

Azkaban——使用指南

原文链接:https://blog.csdn.net/djd1234567/article/details/51438385?locationNum=10&amp;fps=1 
转载
12063阅读
0评论
0点赞
发布博客于 3 年前

全国所有城市身份证前6位json

国内所有城市的身份证前6位json数据,不包含港澳台。
json
发布资源于 3 年前