如何用Python辅助磁盘清理

如何用Python辅助磁盘清理,Python如何遍历文件并计算文件大小。

· 5 min read
如何用Python辅助磁盘清理
Photo by Samsung Memory / Unsplash

个需求的来源就是Windows系统用多了,C盘空间就很不够用。当然这个就是用户目录里面存放的各种应用数据,虽然有时候把应用删除了,但其C盘的数据还在。当然可以逐个目录的排查。我的想法是找到那个可以删除并且占用空间大的目录或文件,然后把它删掉。之前的方法就是选中当前目录下一半的目录,然后查看属性里面的大小。如果满足要求,然后再选中其中的一半,这样迭代找到占用空间大的目录进行清理。

那么如果可以使用Python来计算每一个目录的大小,并打印出来,那这个不是节省了很多时间吗,而且这正是Python所擅长的。当然其他的编程语言也可以实现,但Python的优势就是可以快速简单的实现。

实现逻辑

好吧,这个功能很简单,就是输入一个目录,然后遍历当前的目录下的所有子目录,打印子目录的名字和磁盘占用大小。所使用的核心组件就如下两个:

os.walk(dir) #遍历当前目录的所有字目录和文件,可以得到所有文件的文件名
os.path.getsize(path) # 获取文件大小 单位是 Byte

好了,有了以上这两个核心的工具,我们就可以开始写一个简单的目录大小占用计算和结果输出的程序了。

基本流程

首先,读取用户输入的目录。然后,当前目录的子目录,并返回子目录的大小并输出,最后记录目录总大小并输出。废话不多说咱们先看看代码:

import os

def get_directory_size(path):

    total_size = 0

    for dirpath, dirnames, filenames in os.walk(path):
        for f in filenames:
            fp = os.path.join(dirpath, f)
            if os.path.exists(fp):
                total_size += os.path.getsize(fp)

    return total_size / (1024 * 1024)  # Convert to MB

def display_directory_sizes(root_dir):

    print(f"Sizes in '{root_dir}':")
    total_size = 0

    for item in os.listdir(root_dir):
        item_path = os.path.join(root_dir, item)
        if os.path.isdir(item_path):
            size = get_directory_size(item_path)
            print(f"{item}: {size:.2f} MB")
            total_size += size

    print(f"\nTotal size of '{root_dir}': {total_size:.2f} MB")

if __name__ == "__main__":
    root_directory = input("Enter the root directory: ")
    display_directory_sizes(root_directory)

总共不到30行代码,其中get_directory_size这个函数就是就是实现计算目录大小的功能,使用了之前说的两个核心功能:目录遍历和大小计算的。现在可以实际运行一下看看效果.


可以看到,这个准确计算了我电脑上D盘目录及对应的大小,那么如果我需要清理C盘AppData对应目录的化,就可以输入对应的目录。然后,对比哪个目录占用空间比较大,再进行对应的清理就可以了。

细心的你一定发现这个输出结果还是不敬人意的。哪个目录占用空间大,还不是那么一目了然。因为这个输出是按照文件名字排名输出 ,并不是文件占用大小的。下一节咱们就来优化一下输出结果。

界面优化

到目前为止,我们实现了可以计算目录大小的功能。但其输出排版不利于找到占用空间靠前的目录。因此,需要实现一个基于文件大小的排序,然后从大到小输出目录名称和对应的大小。这里我想到的方法就是使用Map数据类型,key 是文件名,那么value就是对应的文件大小了。
然后再使用 sorted() 函数从大到小以文件大小作为关键字进行排序:


directory_sizes = {
	'dir_1': 323,
	'dir_2': 333,
	....
}

sorted_sizes = sorted(directory_sizes.items(), key=lambda x:x[1], reverse=True)

sorted函数的第一个参数就是文件名和对应大小的键值对,第二个参数是一个表达式,输入是第一个参数的每一个元组,输入是元组的第二个元素,也就是文件大小。第三个参数表示从大到小进行排序。

完整代码如下:

import os

def get_directory_size(path):
    total_size = 0
    for dirpath, dirnames, filenames in os.walk(path):
        for f in filenames:
            fp = os.path.join(dirpath, f)
            if os.path.exists(fp):
                total_size += os.path.getsize(fp)
    return total_size / (1024 * 1024)  # Convert to MB

def display_directory_sizes(root_dir):
    print(f"Sizes in '{root_dir}':")
    directory_sizes = {}

    for item in os.listdir(root_dir):
        item_path = os.path.join(root_dir, item)
        if os.path.isdir(item_path):
            size = get_directory_size(item_path)
            directory_sizes[item] = size

    # Sort the directory sizes from big to small
    sorted_sizes = sorted(directory_sizes.items(), key=lambda x: x[1], reverse=True)

    for dir_name, size in sorted_sizes:
        print(f"{dir_name}: {size:.2f} MB")

    total_size = sum(directory_sizes.values())
    print(f"\nTotal size of '{root_dir}': {total_size:.2f} MB")

if __name__ == "__main__":
    root_directory = input("Enter the root directory: ")
    display_directory_sizes(root_directory)

具体运行效果大家可自行尝试,这里就不展示了。

思考总结

好了,今天的分享就到这里,咱们来稍微总结一下吧。虽然是一个很简单的脚本,但却是给我带来了一些便利。代码逻辑主要用到了Python的文件目录遍历功能和文件目录大小计算功能。另外,对于Python自带的排序函数和结构体也给我们带来了不少的便利。