提取txt文本中的章节

在络上的小说,一般是txt格式的,并且往往是没有目录的。

那么有没办法提取出小说的目录呢?

怎么提取页上的小说内容(提取电子书文字的软件分享)

下面是一个示例代码,用于提取txt文本中的章节作为目录:

import re

定义章节标题的正则表达式
将【正则表达式的字符串形式】编译为一个【正则表达式对象】
pattern = re.compile(r第[一二三四五六七八九十百千万壹贰叁肆伍陆柒捌玖拾佰仟]{1,6}章)

读取txt文件内容
with open(book.txt, r, encoding=utf-8) as f:
content = f.read()

查找所有匹配的章节标题
for match inpattern.finditer(): content为需要查找的内容
print(match.group()) 打印找到的str

这段代码使用正则表达式来查找文本中所有章节标题,并将它们输出到控制台。

在这个例子中,章节标题的格式为 “第X章”,其中X表示章节数,可能是中文数字。

如果您的文本中的章节格式不同,请修改正则表达式以匹配您的格式。

怎么提取页上的小说内容(提取电子书文字的软件分享)

re.compile()

re.compile() 是 Python 中正则表达式库 re 中的一个函数。

它的作用是将【正则表达式的字符串形式】编译为一个【正则表达式对象】,这样可以提高正则匹配的效率。

使用 re.compile() 后,可以使用该对象的方法进行匹配和替换操作。

语法:

re.compile(pattern[, flags])

参数说明:

pattern:要编译的正则表达式字符串flags:正则表达式的标志位,可选参数,如IGNORECASE,DOTALL,MULTILINE等

返回值:返回编译后的正则表达式对象

示例:

import re

pattern = re.compile(rd+)

可以看出,re.compile() 函数是将正则表达式的字符串形式转化为正则表达式对象,以便使用其方法(match,search,findall…)更的进行正则匹配。

re.finditer()

re.finditer() 是 Python 中正则表达式模块 re中的一个函数,它可以在字符串中查找所有与模式匹配的部分,并返回一个迭代器。

这个迭代器返回每个匹配项作为一个 match 对象,它有一些有用的属性,如 start()end(),可以用来确定匹配的文本的位置。

语法:

re.finditer(pattern, string, flags=0)

参数:

pattern : 正则表达式模式字符串。string : 要查找的字符串。flags : 可选,正则表达式的标志参数,如 re.IGNORECASE, re.MULTILINE 等。

示例:

import re

string = “The rain in Spain”
x = re.finditer(“ai”, string)for match in x:
print(match.start(), match.group())

输出:

4 ai

说明:上面程序中,在字符串中查找所有 “ai” 的所有匹配项,并使用迭代器输出每个匹配项的开始位置。