怎么退出建设银行网站,百度联盟广告收益,电子商务平台经营者不能是,提高百度搜索排名随着大数据时代的到来#xff0c;我们每天都在接触爬虫相关的事情#xff0c;这其中就不得不提及Python这门编程语言。我已经使用Python编程有多年了#xff0c;即使今天我仍然惊奇于这种语言所能让代码表现出的整洁和对DRY编程原则的适用。这些年来的经历让我学到了很多的小… 随着大数据时代的到来我们每天都在接触爬虫相关的事情这其中就不得不提及Python这门编程语言。我已经使用Python编程有多年了即使今天我仍然惊奇于这种语言所能让代码表现出的整洁和对DRY编程原则的适用。这些年来的经历让我学到了很多的小技巧和知识大多数是通过阅读很流行的开源软件如Django, Flask,Requests中获得的。 1. 字典推导(Dictionary comprehensions)和集合推导(Set comprehensions)
大多数的Python程序员都知道且使用过列表推导(list comprehensions)。如果你对list comprehensions概念不是很熟悉——一个list comprehension就是一个更简短、简洁的创建一个list的方法。 some_list [1, 2, 3, 4, 5]another_list [ x 1 for x in some_list ]another_list
[2, 3, 4, 5, 6]自从python 3.1 (甚至是Python 2.7)起我们可以用同样的语法来创建集合和字典表 # Set Comprehensionssome_list [1, 2, 3, 4, 5, 2, 5, 1, 4, 8]even_set { x for x in some_list if x % 2 0 }even_set
set([8, 2, 4])# Dict Comprehensionsd { x: x % 2 0 for x in range(1, 11) }d
{1: False, 2: True, 3: False, 4: True, 5: False, 6: True, 7: False, 8: True, 9: False, 10: True}在第一个例子里我们以some_list为基础创建了一个具有不重复元素的集合而且集合里只包含偶数。而在字典表的例子里我们创建了一个key是不重复的1到10之间的整数value是布尔型用来指示key是否是偶数。
这里另外一个值得注意的事情是集合的字面量表示法。我们可以简单的用这种方法创建一个集合 my_set {1, 2, 1, 2, 3, 4}my_set
set([1, 2, 3, 4])而不需要使用内置函数set()。
2. 计数时使用Counter计数对象
这听起来显而易见但经常被人忘记。对于大多数程序员来说数一个东西是一项很常见的任务而且在大多数情况下并不是很有挑战性的事情——这里有几种方法能更简单的完成这种任务。
Python的collections类库里有个内置的dict类的子类是专门来干这种事情的 from collections import Counterc Counter(hello world)c
Counter({l: 3, o: 2, : 1, e: 1, d: 1, h: 1, r: 1, w: 1})c.most_common(2)
[(l, 3), (o, 2)]3. 漂亮的打印出JSON
JSON是一种非常好的数据序列化的形式被如今的各种API和web service大量的使用。使用python内置的json处理可以使JSON串具有一定的可读性但当遇到大型数据时它表现成一个很长的、连续的一行时人的肉眼就很难观看了。
为了能让JSON数据表现的更友好我们可以使用indent参数来输出漂亮的JSON。当在控制台交互式编程或做日志时这尤其有用 import jsonprint(json.dumps(data)) # No indention
{status: OK, count: 2, results: [{age: 27, name: Oz, lactose_intolerant: true}, {age: 29, name: Joe, lactose_intolerant: false}]}print(json.dumps(data, indent2)) # With indention
{status: OK,count: 2,results: [{age: 27,name: Oz,lactose_intolerant: true},{age: 29,name: Joe,lactose_intolerant: false}]
}同样使用内置的print模块也可以让其它任何东西打印输出的更漂亮。
4. 创建一次性的、快速的小型web服务
有时候我们需要在两台机器或服务之间做一些简便的、很基础的RPC之类的交互。我们希望用一种简单的方式使用B程序调用A程序里的一个方法——有时是在另一台机器上。仅内部使用。
我并不鼓励将这里介绍的方法用在非内部的、一次性的编程中。我们可以使用一种叫做XML-RPC的协议 (相对应的是这个Python库)来做这种事情。
下面是一个使用SimpleXMLRPCServer模块建立一个快速的小的文件读取服务器的例子
from SimpleXMLRPCServer import SimpleXMLRPCServer
def file_reader(file_name):with open(file_name, r) as f:return f.read()
server SimpleXMLRPCServer((localhost, 8000))
server.register_introspection_functions()
server.register_function(file_reader)
server.serve_forever()客户端
import xmlrpclib
proxy xmlrpclib.ServerProxy(http://localhost:8000/)
proxy.file_reader(/tmp/secret.txt)我们这样就得到了一个远程文件读取工具没有外部的依赖只有几句代码(当然没有任何安全措施所以只可以在家里这样做)。
5. Python神奇的开源社区
这里我提到的几个东西都是Python标准库里的如果你安装了Python你就已经可以这样使用了。而对于很多其它类型的任务这里有大量的社区维护的第三方库可供你使用。
最后
分享一份Python的学习资料但由于篇幅有限完整文档可以扫码免费领取 1Python所有方向的学习路线新版
总结的Python爬虫和数据分析等各个方向应该学习的技术栈。 比如说爬虫这一块很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫其实路还有很长比如说移动端爬虫和JS逆向等等。 2Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频总共100多个虽然达不到大佬的程度但是精通python是没有问题的学完这些之后你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。 3100多个练手项目
我们在看视频学习的时候不能光动眼动脑不动手比较科学的学习方法是在理解之后运用它们这时候练手项目就很适合了只是里面的项目比较多水平也是参差不齐大家可以挑自己能做的项目去练练。 。