电影票python_怎样用python获取电影

A. python怎么爬取最受欢迎的电影数据

在开发者工具中观察到该请求的Status Code是302，Response Headers中Location是该预告片的真正地址（该地址是时间的函数，不唯一！但测试表明不同时间生成的不同的地址都能下载该预告片！

B. Python通过编程完成电影信息数据整理

这个看具体数据什么样子还有统计哪些方面，
可以帮写

C. 话说Python语言可以用来作为电影大片的特效计算，比如：阿凡达和复仇者联盟等电影。是真的么国内没这技

有一个叫blender的软件是用python写的，可以干这个。比如参考里链接的图片就是用blender来处理的一个电影里的截图。

D. 有个会用python爬虫搜电影的男票是一种什么体验

哪个方便用哪个，python连接数据库都有对应的包的，如果你嫌麻烦，可以用自带的sqlite3包。

E. 怎样用python获取电影

实验室这段时间要采集电影的信息，给出了一个很大的数据集，数据集包含了4000多个电影名，需要我写一个爬虫来爬取电影名对应的电影信息。

其实在实际运作中，根本就不需要爬虫，只需要一点简单的Python基础就可以了。

前置需求：

Python3语法基础

HTTP网络基础

===================================

第一步，确定API的提供方。IMDb是最大的电影数据库，与其相对的，有一个OMDb的网站提供了API供使用。这家网站的API非常友好，易于使用。

第二步，确定网址的格式。

第三步，了解基本的Requests库的使用方法。

F. Python爬虫工程师为什么要花钱看电影

这个问题问的，Python爬虫工程师为什么能不花钱看电影，爬虫是抓取网页内容，又不是P2P分享，当然要去看电影也要花钱呀。

G. python抓取VIP电影违法吗

一般来说，抓取本身并不会违法。问题是，你把抓取的信息放在自己的网站/app里面，进行传播、引流、获利。因为你并不拥有这些内容的版权，直接使用很容易触犯相关法律法规。

简介：

Python是一种广泛使用的解释型、高级和通用的编程语言。Python由荷兰数学和计算机科学研究学会的Guido van Rossum创造，第一版发布于1991年，它是ABC语言的后继者，也可以视之为一种使用传统中缀表达式的LISP方言。

Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。

Python支持多种编程范型，包括函数式、指令式、结构化、面向对象和反射式编程。Python解释器易于扩展，可以使用C或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python也可用于可定制化软件中的扩展程序语言。

Python拥有动态类型系统和垃圾回收功能，能够自动管理内存使用，并且其本身拥有一个巨大而广泛的标准库，提供了适用于各个主要系统平台的源码或机器码。

H. 求Python高手解答基本Python习题

#!/usr/bin/env python
# coding = utf-8

KNOWTREE = dict(
# does it have a backhone?
True = dict(
# does it give birth to live babies
True = "Mammal",
False = dict(
# does it have feathers
True = "Bird",
False = dict(
# does it have gills
True = "Fish",
False = dict(
# does it lay eggs in water
True = "Amphibian",
Flase = "Reptile",
),
),
),
),
False = dict(
# does it have a shell
True = "Mollusc",
False = dict(
# does it have 6 legs
True = "Insect",
False = "Arachind",
),
),
)

def which_animal(ans):
know = KNOWTREE
while isinstance(know, dict):
know = know[repr(ans.pop(0))]
return know

def movie_price(weekday, dayhour):
if weekday == "Tuesday":
return 10.75
elif weekday == "Wednesday":
return 5.75
elif weekday in ("Monday","Thursday","Friday") and dayhour < 17:
return 12.75
else:
return 15.75

print which_animal([True,True,True,True,True,True,True,])
print which_animal([False,False,False,False,False,False,False,])
print movie_price("Tuesday", 4)
print movie_price("Saturday", 15)
print movie_price("Friday", 17)
print movie_price("Friday", 16)

I. python爬虫抓取电影top20排名怎么写

初步接触python爬虫(其实python也是才起步)，发现一段代码研究了一下，觉得还比较有用处，Mark下。
上代码：

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender：cy"""
一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称
Anthor: Andrew_liu
mender：cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""类的简要说明
主要用于抓取豆瓣Top100的电影名称

Attributes:
page: 用于表示当前所处的抓取页面
cur_url: 用于表示当前争取抓取页面的url
datas: 存储处理好的抓取到的电影名称
_top_num: 用于记录当前的top号码
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣电影爬虫准备就绪, 准备爬取数据..."

def get_page(self, cur_page):
"""
根据当前页码爬取网页HTML
Args:
cur_page: 表示当前所抓取的网站页码
Returns:
返回抓取到整个页面的HTML(unicode编码)
Raises:
URLError:url引发的异常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通过返回的整个网页HTML, 正则匹配前100的电影名称

Args:
my_page: 传入页面的HTML文本用于正则匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬虫入口, 并控制爬虫抓取页面的范围
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一个简单的豆瓣电影前100爬虫
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬虫爬取完成"if __name__ == '__main__':
main()

运行结果：

J. Python抓取豆瓣电影排行榜

1.观察url
首先观察一下网址的结构 http://movie.douban.com/top250?start=0&filter=&type= ：
可以看到，问号?后有三个参数 start、filter、type，其中start代表页码，每页展示25部电影，0代表第一页，以此类推25代表第二页，50代表第三页...
filter顾名思义，是过滤已经看过的电影，filter和type在这里不重要，可以不管。
2.查看网页源代码
打开上面的网址，查看源代码，可以看到信息的展示结构如下：
1 <ol class="grid_view"> 2 <li> 3 <div class="item"> 4 <div class="pic"> 5 <em class="">1</em> 6 <a href="http://movie.douban.com/subject/1292052/"> 7 <img alt="肖申克的救赎" src="http://img3.douban.com/view/movie_poster_cover/ipst/public/p480747492.jpg" class=""> 8 </a> 9 </div>10 <div class="info">11 <div class="hd">12 <a href="http://movie.douban.com/subject/1292052/" class="">13 <span class="title">肖申克的救赎</span>14 <span class="title"> / The Shawshank Redemption</span>15 <span class="other"> / 月黑高飞(港) / 刺激1995(台)</span>16 </a>17 18 19 <span class="playable">[可播放]</span>20 </div>21 <div class="bd">22 <p class="">23 导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...<br>24 1994 / 美国 / 犯罪剧情25 </p>26 27 28 <div class="star">29 <span class="rating5-t"><em>9.6</em></span>30 <span>646374人评价</span>31 </div>32 33 <p class="quote">34 <span class="inq">希望让人自由。</span>35 </p>36 </div>37 </div>38 </div>39 </li>
其中<em class="">1</em>代表排名，<span class="title">肖申克的救赎</span>代表电影名，其他信息的含义也很容易能看出来。
于是接下来可以写正则表达式：
1 pattern = re.compile(u'<div.*?class="item">.*?<div.*?class="pic">.*?' 2 + u'<em.*?class="">(.*?)</em>.*?' 3 + u'<div.*?class="info">.*?<span.*?class="title">(.*?)' 4 + u'</span>.*?<span.*?class="title">(.*?)</span>.*?' 5 + u'<span.*?class="other">(.*?)</span>.*?</a>.*?' 6 + u'<div.*?class="bd">.*?<p.*?class="">.*?' 7 + u'导演: (.*?) ' 8 + u'主演: (.*?)<br>' 9 + u'(.*?) / (.*?) / '10 + u'(.*?)</p>'11 + u'.*?<div.*?class="star">.*?<em>(.*?)</em>'12 + u'.*?<span>(.*?)人评价</span>.*?<p.*?class="quote">.*?'13 + u'<span.*?class="inq">(.*?)</span>.*?</p>', re.S)
在此处flag参数re.S代表多行匹配。
3.使用面向对象的设计模式编码
代码如下：
1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 import sys 6 7 class MovieTop250: 8 def __init__(self): 9 #设置默认编码格式为utf-810 reload(sys)11 sys.setdefaultencoding('utf-8')12 self.start = 013 self.param = '&filter=&type='14 self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'}15 self.movieList = []16 self.filePath = 'D:/coding_file/python_file/File/DoubanTop250.txt'17 18 def getPage(self):19 try:20 URL = 'http://movie.douban.com/top250?start=' + str(self.start)21 request = urllib2.Request(url = URL, headers = self.headers)22 response = urllib2.urlopen(request)23 page = response.read().decode('utf-8')24 pageNum = (self.start + 25)/2525 print '正在抓取第' + str(pageNum) + '页数据...' 26 self.start += 2527 return page28 except urllib2.URLError, e:29 if hasattr(e, 'reason'):30 print '抓取失败，具体原因：', e.reason31 32 def getMovie(self):33 pattern = re.compile(u'<div.*?class="item">.*?<div.*?class="pic">.*?'34 + u'<em.*?class="">(.*?)</em>.*?'35 + u'<div.*?class="info">.*?<span.*?class="title">(.*?)'36 + u'</span>.*?<span.*?class="title">(.*?)</span>.*?'37 + u'<span.*?class="other">(.*?)</span>.*?</a>.*?'38 + u'<div.*?class="bd">.*?<p.*?class="">.*?'39 + u'导演: (.*?) '40 + u'主演: (.*?)<br>'41 + u'(.*?) / (.*?) / '42 + u'(.*?)</p>'43 + u'.*?<div.*?class="star">.*?<em>(.*?)</em>'44 + u'.*?<span>(.*?)人评价</span>.*?<p.*?class="quote">.*?'45 + u'<span.*?class="inq">(.*?)</span>.*?</p>', re.S)46 while self.start <= 225:47 page = self.getPage()48 movies = re.findall(pattern, page)49 for movie in movies:50 self.movieList.append([movie[0], movie[1], movie[2].lstrip(' / '),
51 movie[3].lstrip(' / '), movie[4],
52 movie[5], movie[6].lstrip(), movie[7], movie[8].rstrip(),53 movie[9], movie[10], movie[11]])54 55 def writeTxt(self):56 fileTop250 = open(self.filePath, 'w')57 try:58 for movie in self.movieList:59 fileTop250.write('电影排名：' + movie[0] + '\r\n')60 fileTop250.write('电影名称：' + movie[1] + '\r\n')61 fileTop250.write('外文名称：' + movie[2] + '\r\n')62 fileTop250.write('电影别名：' + movie[3] + '\r\n')63 fileTop250.write('导演姓名：' + movie[4] + '\r\n')64 fileTop250.write('参与主演：' + movie[5] + '\r\n')65 fileTop250.write('上映年份：' + movie[6] + '\r\n')66 fileTop250.write('制作国家/地区：' + movie[7] + '\r\n')67 fileTop250.write('电影类别：' + movie[8] + '\r\n')68 fileTop250.write('电影评分：' + movie[9] + '\r\n')69 fileTop250.write('参评人数：' + movie[10] + '\r\n')70 fileTop250.write('简短影评：' + movie[11] + '\r\n\r\n')71 print '文件写入成功...'72 finally:73 fileTop250.close()74 75 def main(self):76 print '正在从豆瓣电影Top250抓取数据...'77 self.getMovie()78 self.writeTxt()79 print '抓取完毕...'80 81 DouBanSpider = MovieTop250()82 DouBanSpider.main()

代码比较简单，最后将信息写入一个文件，没有什么需要解释的地方。

导航:首页 > 观影体验 > 电影票python

电影票python

与电影票python相关的资料