22： IO文件读写

数据处理概述

数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。当下数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。数据处理也是大数据，数据分析等后续科学的基本环节

文件处理

文件是保存在持久化存储设备(硬盘、U盘、光盘..)上的一段数据，一个文本，一个py文件，一张图片，视频音频等这些都是文件

字节串类型

概念：在python3中引入了字节串的概念，与str不同，字节串以字节序列值表达数据，更方便用来处理二进程数据

- 普通的英文字符字符串常量可以在前面加b转换为字节串，例如：b'hello'
- 变量或者包含非英文字符的字符串转换为字节串方法 ：str.encode()
- 字节串转换为字符串方法 : bytes.decode() 

注意：python字符串用来表达utf8字符，因为并不是所有二进制内容都可以转化为utf8字符，所以不是所有字节串都能转化为字符串，但是所有字符串都能转化成二进制，所以所有字符串都能转换为字节串。

文件读写操作

使用程序操作文件，无外乎对文件进行读或者写

打开文件

file_object = open(file_name, access_mode='r', buffering=-1，encoding=None)
功能：打开一个文件，返回一个文件对象。
参数：file_name  文件名；
     access_mode  打开文件的方式,如果不写默认为‘r’ 
     buffering  1表示有行缓冲，默认则表示使用系统默认提供的缓冲机制。
     encoding='UTF-8'  设置打开文件的编码方式，一般Linux下不需要
返回值：成功返回文件操作对象。

打开模式	效果
r	以读方式打开，文件必须存在
w	以写方式打开，文件不存在则创建，存在清空原有内容
a	以追加模式打开，文件不存在则创建，存在则继续进行写操作
r+	以读写模式打开文件必须存在
w+	以读写模式打开文件，不存在则创建，存在清空原有内容
a+	追加并可读模式，文件不存在则创建，存在则继续进行写操作
rb	以二进制读模式打开同r
wb	以二进制写模式打开同w
ab	以二进制追加模式打开同a
rb+	以二进制读写模式打开同r+
wb+	以二进制读写模式打开同w+
ab+	以二进制读写模式打开同a+

以二进制方式打开文件，读取内容为字节串，写入也需要写入字节串
无论什么文件都可以使用二进制方式打开，但是二进制文件则不能以文本方式打开，否则后续读写会报错

文件打开代码示例：open_file.py

# 读方式打开文件
# file = open("../day02/2.txt","r")

# 写方法打开
# file = open("file.txt","w") # 清除原来内容
file = open("file.txt","a") # 不会清除原来内容

# 操作文件

# 关闭
file.close()

读取文件

方法1

文件过大时候不建议直接读取到文件结尾，占用内存较多，效率较低
读到文件结尾如果继续进行读操作会返回空字符串

read([size])
功能： 来直接读取文件中字符。
参数： 如果没有给定size参数（默认值为-1）或者size值为负，文件将被读取直至末尾，给定size最多读取给定数目个字符（字节）。
返回值： 返回读取到的内容

方法2

readline([size])
功能： 用来读取文件中一行
参数： 如果没有给定size参数（默认值为-1）或者size值为负，表示读取一行，给定size表示最多读取制定的字符（字节）。
返回值： 返回读取到的内容

方法3

readlines([sizeint])
功能： 读取文件中的每一行作为列表中的一项
参数： 如果没有给定size参数（默认值为-1）或者size值为负，文件将被读取直至末尾，给定size表示读取到size字符所在行为止。
返回值： 返回读取到的内容列表

方法4

# 文件对象本身也是一个可迭代对象，在for循环中可以迭代文件的每一行。

for line in f:
     print(line)

文件读操作代码示例


# 打开文件
# file = open("file.txt","r")

file = open("file.txt","rb")

# 读取内容
data = file.read()
print(data.decode())

# 每次读取一个字符,将文件内容原样打印出来
# while True:
#     data = file.read(1)
#     if data == "":
#         break
#     print(data,end="")

# 按行读取
# data = file.readline()
# print(data)

# 读取所有行内容
# data_list = file.readlines()
# print(data_list) # 内容列表

# 迭代每次获取一行
# for line in file:
#     print(line)


file.close()

写入文件

方法1

write(data)
功能: 把文本数据或二进制数据块的字符串写入到文件中去
参数：要写入的内容
返回值：写入的字符个数

注意：如果需要换行要自己在写入内容中添加\n

方法2

writelines(str_list)
功能：接受一个字符串列表作为参数，将它们写入文件。
参数: 要写入的内容列表

文件写操作代码示例



# 写打开
file = open("file.txt","w")
# file = open("file.txt","a") # 追加

# 写操作
# n = file.write("hello,死鬼\n".encode())
# file.write("哎呀,干啥\n".encode())
# print("写入字符数:",n)

# 将列表每一项写入到文件
data = [
    "接着奏乐\n",
    "接着舞\n"
]

file.writelines(data)

file.close()

关闭文件

打开一个文件后我们就可以通过文件对象对文件进行操作了，当操作结束后可以关闭文件操作

方法

file_object.close()

好处

可以销毁对象节省资源，（当然如果不关闭程序结束后对象也会被销毁）
防止后面对这个对象的误操作。

with操作

python中的with语句也可以用于访问文件，在语句块结束后会自动释放资源

with语句格式

with context_expression [as obj]:
    with-body

with访问文件

with open('file','r+') as f:
    f.read()

注意： with语句块结束后会自动释放所以不再需要close()

with 使用示例

# 临时打开文件简单使用 file = open()
with open("file.txt") as file:
    data = file.read()
    print(data)

# 语句块结束 file 被销毁

读写缓冲区

系统自动的在内存中为每一个正在使用的文件开辟一个空间，在对文件读写时都是先将文件内容加载到缓冲区，再进行读写

减少和磁盘的交互次数，保护磁盘
提高了对文件的读写效率

缓冲区设置

类型	设置方法	注意事项
系统自定义	buffering=-1
行缓冲	buffering=1	当遇到\n时会刷新缓冲
指定缓冲区大小	buffering>1	必须以二进制方式打开

刷新缓冲区条件

缓冲区被写满
程序执行结束或者文件对象被关闭
程序中调用flush()函数

file_obj.flush()

文件读写缓冲示例



# buffering=1 行缓冲
# file = open("file.txt","w",buffering=1)

# buffering > 1 指定缓冲大小
file = open("file.txt","wb",buffering=10)

while True:
    data = input(">>")
    if not data:
        break
    file.write(data.encode())
    # file.flush() # 刷新缓冲

file.close()

文件偏移量

打开一个文件进行操作时系统会自动生成一个记录，记录每次读写操作时所处的文件位置，每次文件的读写操作都是从这个位置开始进行的。

r或者w方式打开，文件偏移量在文件开始位置
a方式打开，文件偏移量在文件结尾位置

文件偏移量控制

tell()
功能：获取文件偏移量大小
返回值：文件偏移量

seek(offset[,whence])
功能: 移动文件偏移量位置
参数：offset  代表相对于某个位置移动的字节数。负数表示向前移动，正数表示向后移动。
whence是基准位置的默认值为 0，代表从文件开头算起，1代表从当前位置算起，2 代表从文件末尾算起。

注意：必须以二进制方式打开文件时，基准位置才能是1或者2

文件偏移量示例：seek.py

# 可读可写
file = open("file.txt","wb+")

file.write("你好".encode())
file.flush()

# print("文件偏移位置:",file.tell())
# 移动偏移量
file.seek(-3,2)

# file.write("你好".encode())

data = file.read()
print("读取:",data.decode())

file.close()

os模块

os模块是Python标准库模块，包含了大量的文件处理函数

获取文件大小

os.path.getsize(file)
功能： 获取文件大小
参数： 指定文件
返回值： 文件大小

查看文件列表

os.listdir(dir)
功能： 查看文件列表
参数： 指定目录
返回值：目录中的文件名列表

判断文件是否存在

os.path.exists(file)
功能： 判断文件是否存在
参数： 指定文件
返回值： 布尔值

删除文件

os.remove(file)
功能： 删除文件 
参数： 指定文件

os模块使用示例：file.py

import os

print("文件大小:",os.path.getsize("file.txt"))
print("文件列表:",os.listdir("."))
print("文件是否存在:",os.path.exists("file.txt"))
os.remove("file.txt")

手机上阅读

最后一次更新于2022-11-10 10:35

神出鬼没的Enderman

long long ago,I was born.

数据处理概述

文件处理

文件读写操作

打开文件

读取文件

写入文件

关闭文件

with操作

读写缓冲区

文件偏移量

os模块

21： shell 命令

23：正则表达式应用

22： IO文件读写

数据处理概述

文件处理

文件读写操作

打开文件

读取文件

写入文件

关闭文件

with操作

读写缓冲区

文件偏移量

os模块

21： shell 命令

23： 正则表达式应用

23：正则表达式应用