common Crawl 中包含的网页数据里脏数据很多,需要进行细致的过滤才能获得纯净的中文文本。大佬我看您给出的技术文档里面说明了几种处理手段,但是较为笼统。不知道之后数据清洗的代码是否能开源呀。
common Crawl 中包含的网页数据里脏数据很多,需要进行细致的过滤才能获得纯净的中文文本。大佬我看您给出的技术文档里面说明了几种处理手段,但是较为笼统。不知道之后数据清洗的代码是否能开源呀。