怎么提取页上的小说内容(提取电子书文字的软件分享)

Aiylah 阅读:30 发布日期： 2023-02-05 22:49:30

提取txt文本中的章节

在络上的小说，一般是txt格式的，并且往往是没有目录的。

那么有没办法提取出小说的目录呢？

下面是一个示例代码，用于提取txt文本中的章节作为目录：

import re

定义章节标题的正则表达式
将【正则表达式的字符串形式】编译为一个【正则表达式对象】
pattern = re.compile(r第[一二三四五六七八九十百千万壹贰叁肆伍陆柒捌玖拾佰仟]{1,6}章)

读取txt文件内容
with open(book.txt, r, encoding=utf-8) as f:
content = f.read()

查找所有匹配的章节标题
for match inpattern.finditer(): content为需要查找的内容
print(match.group()) 打印找到的str

这段代码使用正则表达式来查找文本中所有章节标题，并将它们输出到控制台。

在这个例子中，章节标题的格式为 “第X章”，其中X表示章节数，可能是中文数字。

如果您的文本中的章节格式不同，请修改正则表达式以匹配您的格式。

re.compile() 是 Python 中正则表达式库 re 中的一个函数。

它的作用是将【正则表达式的字符串形式】编译为一个【正则表达式对象】，这样可以提高正则匹配的效率。

使用 re.compile() 后，可以使用该对象的方法进行匹配和替换操作。

语法：

re.compile(pattern[, flags])

参数说明：

pattern：要编译的正则表达式字符串flags：正则表达式的标志位,可选参数，如IGNORECASE,DOTALL,MULTILINE等

返回值：返回编译后的正则表达式对象

示例：

import re

pattern = re.compile(rd+)

可以看出，re.compile() 函数是将正则表达式的字符串形式转化为正则表达式对象,以便使用其方法(match,search,findall…)更的进行正则匹配。

re.finditer() 是 Python 中正则表达式模块 re中的一个函数，它可以在字符串中查找所有与模式匹配的部分，并返回一个迭代器。

这个迭代器返回每个匹配项作为一个 match 对象，它有一些有用的属性，如 start() 和 end()，可以用来确定匹配的文本的位置。

语法:

re.finditer(pattern, string, flags=0)

参数:

pattern : 正则表达式模式字符串。string : 要查找的字符串。flags : 可选，正则表达式的标志参数，如 re.IGNORECASE, re.MULTILINE 等。

示例:

import re

string = “The rain in Spain”
x = re.finditer(“ai”, string)for match in x:
print(match.start(), match.group())

输出:

4 ai

说明:上面程序中，在字符串中查找所有 “ai” 的所有匹配项，并使用迭代器输出每个匹配项的开始位置。