文档中心对象存储操作指南使用python boto3 SDK访问S3对象存储

使用python boto3 SDK访问S3对象存储

boto3 SDK简介

Boto3是亚马逊AWS提供的python SDK，最为常用的功能是S3对象存储的访问。交大云对象存储兼容S3 API, 可以使用该标准的S3 SDK进行访问。本文介绍如何使用 Boto3 SDK访问对象存储服务，包括软件安装、管理存储空间、管理文件。更多boto3访问对象存储的介绍，请参看：https://boto3.amazonaws.com/v1/documentation/api/latest/index.html

示例中本地操作系统为CentOS8，其他系统请按需修改准备工作中软件安装命令。

本文部分结果的验证用到了s3 browser，了解如何使用s3 browser访问对象存储：https://jcloud.sjtu.edu.cn/document/detail.html?mod=cos&id=1232 。

软件安装

安装python，建议使用Python 3.6及以后的版本。
1
dnf install python3
要验证安装，请输入以下命令检查Python版本。
1
python3 --version
安装python s3 boto3 SDK软件包
1
pip3 install boto3

初始化

Python SDK几乎所有的操作都是通过session.client()进行的。下面将详细说明如何初始化这个类。

获取AK/SK

使用boto3之前，需要先通过云平台控制台获取项目的的access key和secret_key，用于访问验证。

登录交大云平台：https://home.jcloud.sjtu.edu.cn。
选择并确认需要创建对象存储的项目。
点击界面左侧的：存储、对象存储条目，进入对象存储管理界面。

点击管理界面左上方的：获取AK/SK

确定EndPoint

EndPoint是对象存储服务提供的服务地址及端口，交大云对象存储统一为：”https://s3.jcloud.sjtu.edu.cn:443"

初始化session.client类

from boto3.session import Session
import boto3   # 加载boto3 skd包

# session.client初始化, access_key和secret_key填入上文获取的内容
access_key = "您的AccessKey"
secret_key = "您的SecretKey"
url = "https://s3.jcloud.sjtu.edu.cn:443"		# 交大云对象存储URL
session = Session(access_key, secret_key)
s3_client = session.client('s3', endpoint_url=url)

代码解释:

access_key和secret_key是在对象存储服务中申请到的用于访问对象存储的认证信息。
url是对象存储服务提供的服务地址及端口，固定为：https://s3.jcloud.sjtu.edu.cn:443。
session对象承载了用户的认证信息。
session.client()对象用于服务相关的操作。

管理存储空间

存储空间（Bucket）是对象存储服务器上的命名空间，也是计费，权限控制，日志记录等高级功能的管理实体。

1. 查看Bucket列表

创建python文件ls_bucket.py 输入以下内容，并保存。

... #初始化session.client()

if __name__ == '__main__':
    for bucket in s3_client.list_buckets()['Buckets']:
        print([bucket['Name']])

执行命令：

1	python3 ls_bucket.py

执行结果：

1	['01-bucket']

2. 创建Bucket

桶的名字必须是唯一的，如果Bucket已经被其他用户使用，则会创建失败。

创建python文件create_bucket.py ，输入以下内容，并保存。

... #初始化session.client()

if __name__ == '__main__':
    # 默认创建私有桶
    s3_client.create_bucket(Bucket = 'private_own_bucket')

    # 创建公开可读桶
    s3_client.create_bucket(Bucket = '02-bucket', ACL = 'public-read')

ACL可选：private, public-read, public-read-write authenticated-read。

执行命令：

1	$python3 create_bucket.py

查看结果：

$python3 ls_bucket.py
['01-bucket']
['02-bucket']
['private_own_bucket']

3. 查看Bucket内对象个数和使用空间

... #初始化session.client()

if __name__ == '__main__':
    resp = s3_client.head_bucket(Bucket = "first-bucket")
    print('使用空间(字节):' + str(resp['ResponseMetadata']['HTTPHeaders']['x-rgw-bytes-used']))
    print('桶内对象个数: '+ str(resp['ResponseMetadata']['HTTPHeaders']['x-rgw-object-count']))

执行命令：

1
2
3

$python3 resource_bucket.py 
使用空间(字节):532
桶内对象个数: 4

4. 查看Bucket访问权限

创建python文件query_acl.py 输入以下内容，并保存。

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.get_bucket_acl(Bucket = '02-bucket')
    print(res['Grants'])

执行命令：

1	python3 query_acl.py

执行结果：

1
2
3

[{'Grantee': {'Type': 'Group', 'URI': 'http://acs.amazonaws.com/groups/global/AllUsers'},
'Permission': 'READ'}, {'Grantee': {'DisplayName': '****_project', 'ID': '*************',
'Type': 'CanonicalUser'}, 'Permission': 'FULL_CONTROL'}]

5. 设置Bucket访问权限

创建python文件set_acl.py 输入以下内容，并保存。

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.put_bucket_acl(Bucket = '02-bucket', ACL = 'public-read-write')

执行命令：

1	python3 set_acl.py

查看结果：

$python3 query_acl.py 
[{'Grantee': {'Type': 'Group', 'URI': 'http://acs.amazonaws.com/groups/global/AllUsers'},
'Permission': 'READ'}, {'Grantee': {'Type': 'Group', 'URI': 
'http://acs.amazonaws.com/groups/global/AllUsers'}, 'Permission': 'WRITE'}, {'Grantee': 
{'DisplayName': '****_project', 'ID': '*************', 'Type': 'CanonicalUser'}, 
'Permission': 'FULL_CONTROL'}]

6. 删除bucket

删除指定的桶。只有该桶中所有的对象被删除了，该桶才能被删除。另外，只有该桶的拥有者才能删除它，与桶的访问控制权限无关。

创建python文件del_bucket.py 输入以下内容，并保存。

... #初始化session.client()
from botocore.exceptions import ClientError

if __name__ == '__main__':
   try:
        res = s3_client.delete_bucket(Bucket = '01-bucket')
    except ClientError as e:
        print (e.response['Error']['Code'])

执行命令：

1	python3 del_bucket.py

查看结果：

1
2
3

$python3 ls_bucket.py 
['02-bucket']
['private_own_bucket']

管理文件

通过Python SDK 用户可以上传、下载、罗列、删除、拷贝文件。也可以查看文件信息，更改文件元信息等。

1. 上传文件

对象存储有多种上传方式，不同的上传方式能够上传的数据大小也不一样。普通上传（PutObject）最多只能上传小于或者等于5GB的文件；而分片上传（MultipartUpload）每个分片可以达到5GB，合并后的文件能够达到5TB.

首先介绍普通上传，我们会详细展示提供数据的各种方式，即方法中的data参数。其他上传接口类似的data参数。

上传字符串

上传内存中的字符串

... #初始化session.client()

if __name__ == '__main__':
    # 上传内存中的字符串
    res = s3_client.put_object(Bucket = '02-bucket', Key = 'local01.txt', Body = 
    'local01')

	# 可以执行上传的是bytes
    res = s3_client.put_object(Bucket = '02-bucket', Key = 'local02.txt', Body = b'0101')

	# 可以执行为unicode
    res = s3_client.put_object(Bucket = '02-bucket', Key = 'local03.txt', Body = u'嗨，你
    好')

执行命令：

1	python3 upload_str.py

执行结果：

# 利用s3cmd查看文件列表
$ s3cmd ls s3://02-bucket
2021-12-31 05:30          133  s3://02-bucket/local01.txt
2021-12-31 05:27            4  s3://02-bucket/local02.txt
2021-12-31 05:27           12  s3://02-bucket/local03.txt

上传本地文件

把当前目录下的local01.txt文件上传到对象存储服务器

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.put_object(Bucket = '02-bucket', Key = 'local01.txt', Body = 
    open("local01.txt")

执行命令：

1	python3 upload_file.py

执行结果：

# 利用s3cmd查看文件列表
$ s3cmd ls s3://02-bucket
2021-12-31 05:36          133  s3://02-bucket/local.txt
2021-12-31 05:30          133  s3://02-bucket/local01.txt
2021-12-31 05:27            4  s3://02-bucket/local02.txt
2021-12-31 05:27           12  s3://02-bucket/local03.txt

分片上传

当需要上传的本地文件很大，或者网络状况不理想，往往会出现上传到中途就失败了。此时，如果对已经上传的数据重新上传，既浪费时间又占用了网络资源。Python SDK提供了分片上传接口，用于断点续传本地文件或者并发上传文件不同的区域块来加速上传。

采用分片上传，用户可以对上传做更为精细的控制。这适用于诸如预先不知道文件大小、并发上传、自定义断点续传等场景。一次分片上传可以分为三个步骤:

初始化（createMultipartUpload）：获得Upload ID。
上传分片(uploadPart) ：这一步可以并发执行。
完成上传（completeMultipartUpload）：合并分片，生成文件。

... #初始化session.client()

from boto3.session import Session
import boto3

#准备上传的文件
file = open('./testfile.docx','rb')
part_info = {
    'Parts': []
}
#分片上传功能的函数
def create_multipart_upld():
	# step1:初始化
    response = s3_client.create_multipart_upload(
        Bucket = '02-bucket', Key = 'testfile')  
    part_no = 1     # 用于标识分片上传时的数据块号，即 PartNumber
    with open('/root/testfile.docx', 'rb') as f:
        while True:
            bytes_data = f.read(1024 * 1024 * 6)
            if not bytes_data:
                break
            print('upload ID:', response['UploadId'])
            #step2：上传分片
            part = s3_client.upload_part(
                Body=bytes_data,
                Bucket='02-bucket',
                Key='testfile',
                PartNumber=part_no,     # 这个号要唯一，否则会把前面相同的PartNumber数据覆盖掉
                UploadId=response['UploadId'],
            )
           # 每个 PartNumber 和 ETag 要对应起来
            part_info['Parts'].append({
                'PartNumber': part_no,
                'ETag': part['ETag']
            })
            part_no += 1
    print('part_info:', part_info)

    # step3：完成上传
    complete_rsp = s3_client.complete_multipart_upload(Bucket='02-bucket',
                                                    Key='testfile',
                                                    UploadId=response['UploadId'],
                                                    MultipartUpload=part_info)
    print('complete_rsp:', complete_rsp)

if __name__ == '__main__':
	create_multipart_upld()

执行命令：

1	python3 multi_upload_file.py

执行结果：

part_info: {'Parts': [{'PartNumber': 1, 'ETag': '"fad477c7c37c930be51b07f35dfda1de"'},
{'PartNumber': 2, 'ETag': '"eb6cc5a24133f05681cd6725b4e22ca7"'}]}
complete_rsp: {'ResponseMetadata': {'RequestId': 'tx000000000000010fa604d-0061d53872-
41dd138-zone-00864d', 'HostId': '', 'HTTPStatusCode': 200, 'HTTPHeaders': {'server': 
'openresty/1.13.6.1', 'date': 'Wed, 05 Jan 2022 06:19:30 GMT', 'content-type': 
'application/xml', 'content-length': '253', 'connection': 'keep-alive', 'x-amz-request-
id': 'tx000000000000010fa604d-0061d53872-41dd138-zone-00864d', 'access-control-allow-
origin': '*', 'access-control-allow-methods': 'POST, GET, OPTIONS, DELETE, PUT, PATCH', 
'access-control-allow-headers': 'content-type,x-amz-server-side-encryption,range,x-amz-
user-agent,x-amz-copy-source,x-amz-content-sha256,x-amz-date,authorization,x-amz-
acl,etag,content-encoding,x-requested-with'}, 'RetryAttempts': 0}, 'Bucket': '02-bucket',
'Key': 'testfile', 'ETag': '"282963790da05e43425250eb604359ed-2"'}

2. 下载文件

下载到本地文件

把对象存储服务器上指定bucket里面的文件下载到本地文件

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.get_object(Bucket = '02-bucket', Key = 'local03.txt')
    with open('down-local-03.txt', 'wb') as f:
        f.write(res['Body'].read())

执行命令：

1	python3 download_file.py

查看结果:

1 2	$ cat down-local-03.txt 嗨，你好

下载部分内容

下载对象存储服务器上指定bucket里面的文件的前10个字节:

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.get_object(Bucket = '02-bucket', Key = 'local03.txt', Range='bytes=0-
    4')
    with open('down-local-03.txt', 'wb') as f:
        f.write(res['Body'].read())

执行命令：

1	python3 download_part.py

查看结果:

1 2	cat down-local-03.txt 嗨

断点续传

当需要下载的文件很大，或者网络状况不够理想，往往下载到中途就失败了。如果下次重试，还需要重新下载，就会浪费时间和带宽。断点续传的过程大致如下:

1
2
3

1. 在本地创建一个临时文件，文件名由原始文件名加上一个随机的后缀组成。
2. 通过制定HTTP请求的Range头，按照范围读取对象存储服务器上的文件，并写入到文件里相应的位置。
3. 下载完成后，把临时文件重命名为目标文件。

3.查看文件

罗列全部文件列表

查看指定bucket里所有文件列表

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.list_objects(Bucket = '02-bucket')
    for obj in res['Contents']:
        print (obj['Key'])

执行结果:

$ python ls_bucket_file.py
local.txt
local01.txt
local02.txt
local03.txt

按前缀罗列文件列表

只列举前缀为’local0’的所有文件

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.list_objects(Bucket = '02-bucket', Prefix = 'local0')
    for obj in res['Contents']:
        print (obj['Key'])

执行结果:

$ python3 ls_bucket_file_part.py
local01.txt
local02.txt
local03.txt

模拟文件夹

对象存储的存储空间（Bucket）本身是扁平结构，并没有文件夹或目录的概念。用户可以通过在文件名里加入“/”来模拟文件夹。在列举的时候，则要设置delimiter参数（目录分隔符）为“/”，并通过是否“在CommonPrefixes”来判断是否为文件夹，例如：02-bucket下结构如下:

s3cmd ls s3://02-bucket/
                          DIR  s3://02-bucket/test/
2021-12-31 05:36          133  s3://02-bucket/local.txt
2021-12-31 05:30          133  s3://02-bucket/local01.txt
2021-12-31 05:27            4  s3://02-bucket/local02.txt
2021-12-31 05:27           12  s3://02-bucket/local03.txt

列举02-bucket下的文件夹和文件（不递归列出子文件夹下的文件和子文件夹）

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.list_objects(Bucket = '02-bucket', Delimiter = '/')
    for obj in res.get('CommonPrefixes'):
        print(obj.get('Prefix'))
    for obj in res.get('Contents'):
        print(obj.get('Key'))

执行结果:

$ python ls_bucket_file.py
/
test/
local.txt
local01.txt
local02.txt
local03.txt

列举出02-bucket下的文件夹test下的文件夹和文件（不递归列出文件夹下的文件和文件夹）

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.list_objects(Bucket = '02-bucket', Delimiter = '/', Prefix='test/')
    for obj in res.get('CommonPrefixes'):
        print(obj.get('Prefix'))
    for obj in res.get('Contents'):
        print(obj.get('Key'))

执行结果:

1
2
3

python ls_bucket_file.py
test/sub_tags/
test/local0-01.txt

查看文件是否存在

... #初始化session.client()
from botocore.exceptions import ClientError

if __name__ == '__main__':
    try:
        s3_client.head_object(Bucket = '02-bucket', Key = 'local01.txt')
        print('EXITS')
    except:
        print('NOT FOUND')

查询结果:

1 2	$ python has_file.py EXITS

查看文件访问权限

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.get_object_acl(Bucket = '01-bucket', Key = 'local03.txt')
    print(res['Grants'])
    print(res['Owner'])

执行结果:

$  python3 query_acl_file.py 
[{'Grantee': {'DisplayName': '****_project', 'ID': '7a3856dc8df348c1ae22dd58d4197749', 
'Type': 'CanonicalUser'}, 'Permission': 'FULL_CONTROL'}]
{'DisplayName': '****_project', 'ID': '7a3856dc8df348c1ae22dd58d4197749'}

4. 设置文件

设置文件访问权限

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.put_object_acl(Bucket = '02-bucket', ACL = 'public-read-write', 
    Key = 'local03.txt')

执行结果

$ s3cmd info s3://02-bucket/local03.txt
s3://02-bucket/local03.txt (object):
   File size: 12
   Last mod:  Fri, 31 Dec 2021 06:42:58 GMT
   MIME type: binary/octet-stream
   Storage:   STANDARD
   MD5 sum:   402cd29fb7d4d73855c517d3e7acee0a
   SSE:       none
   Policy:    none
   CORS:      none
   ACL:       *anon*: READ
   ACL:       *anon*: WRITE
   ACL:       ***_project: FULL_CONTROL
   URL:       http://s3.jcloud.sjtu.edu.cn:443/02-bucket/local03.txt

设置元数据

上传文件并且设置元数据

... #初始化session.client()

if __name__ == '__main__':
    #上传对象并且设置元数据
    s3_client.put_object(Bucket = '02-bucket', Key = 'big-file', Metadata = { 
    'key1': 'value1', 'key2': 'value2'}, Body = 'big-file.txt')

查看结果:

s3cmd info s3://02-bucket/big-file
s3://02-bucket/big-file (object):
   File size: 12
   Last mod:  Fri, 31 Dec 2021 06:25:30 GMT
   MIME type: binary/octet-stream
   Storage:   STANDARD
   MD5 sum:   03b038e5fbb30eaa5077e21ce1df44d2
   SSE:       none
   Policy:    none
   CORS:      none
   ACL:       ****_project: FULL_CONTROL
   x-amz-meta-key1: value1
   x-amz-meta-key2: value2

修改已有对象的元数据

... #初始化session.client()

if __name__ == '__main__':
    #python sdk目前对象没有post方法，因此建议在上传对象时就设置下面使用copy来实现对
    #已有的对象的元数据更新
    s3_client.copy_object(Bucket = '02-bucket', Key = 'big-file', 
    CopySource = str('02-bucket/big-file'), MetadataDirective = 'REPLACE', Metadata =  
    {'key1': 'replace-value1'})

执行结果

$ s3cmd info s3://02-bucket/big-file
s3://02-bucket/big-file (object):
   File size: 12
   Last mod:  Fri, 31 Dec 2021 06:28:43 GMT
   MIME type: binary/octet-stream
   Storage:   STANDARD
   MD5 sum:   03b038e5fbb30eaa5077e21ce1df44d2
   SSE:       none
   Policy:    none
   CORS:      none
   ACL:       ****_project: FULL_CONTROL
   x-amz-meta-key1: replace-value1

5. 删除文件

删除单个文件

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.delete_object(Bucket = '02-bucket', Key = 'big-file')

执行命令：

1	$ python3 delete_file.py

查看结果:

$ s3cmd ls s3://02-bucket
2021-12-31 05:36          133  s3://02-bucket/local.txt
2021-12-31 05:30          133  s3://02-bucket/local01.txt
2021-12-31 05:27            4  s3://02-bucket/local02.txt
2021-12-31 05:27           12  s3://02-bucket/local03.txt

删除多个文件

... #初始化session.client()

if __name__ == '__main__':
    objects_to_delete = [{'Key': 'local01.txt'}, {'Key': 'local02.txt'}]

    s3_client.delete_objects(
        Bucket = '02-bucket',
        Delete={
            'Objects': objects_to_delete
        }
    )

执行命令：

1	$ python3 delete_files.py

查看结果:

1
2
3

$ s3cmd ls s3://02-bucket
2021-12-31 05:36          133  s3://02-bucket/local.txt
2021-12-31 05:27           12  s3://02-bucket/local03.txt

6. 拷贝文件

将02-bucket下的local03.txt文件拷贝到first-bucket下且命名为target.txt文件

... #初始化session.client()

if __name__ == '__main__':
    res = s3_client.copy_object(Bucket = 'first-bucket', Key = 'target.txt', 
                    CopySource = str('02-bucket' + '/' + 'local03.txt'))

执行命令：

1	$ python3 copy_file.py

查看结果:

$ s3cmd ls s3://first-bucket
2021-12-31 06:02          133  s3://first-bucket/local.txt
2021-12-31 06:04          133  s3://first-bucket/local01.txt
2021-12-31 06:04          133  s3://first-bucket/local02.txt
2021-12-31 06:04          133  s3://first-bucket/local03.txt
2021-12-31 06:37           12  s3://first-bucket/target.txt

上一篇：对象存储跨域访问设置下一篇：没有了

文档中心

计算与网络

云主机

裸机

vpn

查看全部 >

网络

负载均衡

存储与CDN

对象存储

云硬盘

对象存储

使用python boto3 SDK访问S3对象存储

boto3 SDK简介

软件安装

初始化

获取AK/SK

确定EndPoint

初始化session.client类

管理存储空间

1. 查看Bucket列表

2. 创建Bucket

3. 查看Bucket内对象个数和使用空间

4. 查看Bucket访问权限

5. 设置Bucket访问权限

6. 删除bucket

管理文件

1. 上传文件

上传字符串

上传本地文件

分片上传

2. 下载文件

下载到本地文件

下载部分内容

断点续传

3.查看文件

罗列全部文件列表

按前缀罗列文件列表

模拟文件夹

查看文件是否存在

查看文件访问权限

4. 设置文件

设置文件访问权限

设置元数据

5. 删除文件

删除单个文件

删除多个文件

6. 拷贝文件

文档中心 计算与网络 云主机 裸机 vpn 查看全部 > 网络 负载均衡 存储与CDN 对象存储 云硬盘

计算与网络

云主机

裸机

vpn

网络

负载均衡

存储与CDN

对象存储

云硬盘

文档中心

计算与网络

云主机

裸机

vpn

查看全部 >

网络

负载均衡

存储与CDN

对象存储

云硬盘