实现英文自然语言处理的预处理功能。
源数据是从网页爬取的文本数据,所以很杂乱。
本代码实现了一直整套的数据预处理过程,最终将其清洗为比较整齐单词集合,放置在列表中。
此外,注释拉满,方便中文阅读者学习。
shared.ipynb在preprocessing的基础上构建了关于两个字典的映射,如果只看NLP预处理部分可以忽略。
stxupengyu/NLP-Preprocessing
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
| Name | Name | Last commit date | ||
|---|---|---|---|---|