大佬们原始网页的数据清洗是否会发布？

common Crawl 中包含的网页数据里脏数据很多，需要进行细致的过滤才能获得纯净的中文文本。大佬我看您给出的技术文档里面说明了几种处理手段，但是较为笼统。不知道之后数据清洗的代码是否能开源呀。