Welcome to documents's documentation!
琐事记录
2022年03月
2022-03-02
transformers bert
今天复现 transformers 的 bert ner 模型。踩了两个坑:
多个短句子拼接起来做 NER,不能乱选拼接符,比如之前用分号,导致准确率一直是 0,其实 bert tokenizer 有自带的一系列
[unusedX]
,预留给下游任务使用。一条完整的语料,前面必须加上
[CLS]
,因为预训练的时候一般都是这么训练出来的,使用的时候也要用这种模式,AB 句之间使用[SEP]
拼接,如果没有 B 句,那也要在最后加一个[SEP]
, 否则它可能感知不到句子的结束位置。
transformers dataset offline 模式
由于模型需要放到内网来跑。transformers 案例都是从互联网上临时加载数据集,有两种方法可以把数据集下载下来离线使用。
拷贝 cache 目录
外网运行一次数据加载,数据会自动加载到 ~/.cache
目录, 把它拷贝到内网就好了。
这个 cache 目录也可以通过 XDG_CACHE_HOME
环境变量配置的。
拷贝到内网后,还需要设置 HF_DATASETS_OFFLINE=true
启用离线模式。
手动保存数据
外网下载并导出数据到某个目录
import datasets
data = datasets.load_dataset(...)
data.save_to_disk(/YOUR/DATASET/DIR)
内网加载数据目录
import datasets
data = datasets.load_from_disk(/SAVED/DATA/DIR)
2022-03-08
创建一个新的 gradle 项目
安装 gradle
官网下载太慢,可以到腾讯云上去下载。 一般来说下载最新版 -bin 后缀的二进制版就好了,如果是些 kotlin 的话,可能需要源码编译 gradle 插件,最好下载 -all 的带源码版本,以免某些情况下编译不通过。
执行 gradle init
初始化项目,
配置 gradle
在 settings.gradle.kts 最前面添加仓库配置。
pluginManagement {
repositories {
maven("https://maven.aliyun.com/repository/gradle-plugin")
}
}
如果 maven 源是 http 而非 https, 对于高版本 gradle(7.x), 需要添加 allowInsecureProtocol 参数:
pluginManagement {
repositories {
maven {
url=uri("https://example.com/repository/gradle-plugin")
isAllowInsecureProtocol=true
}
}
}
坑
gradle 与 新版 spring 不兼容。 插件管理的坑,要求 https。 mongodb 要求额外引入包: mongodb-driver-sync 自动 boot>=2.3 依赖,spring-data-mongodb 就更新了 3.0 版本,要求 mongodb>=3.6,而公司一直用的是 3.2 发现虽然报错,但是可以访问,数据也正常生成了。 最后发现是 Bean 创建不正确。 https://docs.spring.io/spring-boot/docs/2.2.2.RELEASE/reference/html/appendix-dependency-versions.html#dependency-versions
http://gitlab.myhexin.com/10jqka/iwencai/a3/antaeus/antaeus http://gitlab.myhexin.com/10jqka/iwencai/a3/antaeus/antaeus-front
http://gitlab.myhexin.com/10jqka/iwencai/a3/auto-deep/ocr_doc_parser http://gitlab.myhexin.com/10jqka/iwencai/a3/auto-deep/ocr-client http://gitlab.myhexin.com/10jqka/iwencai/a3/auto-deep/auto-deep-back http://gitlab.myhexin.com/10jqka/iwencai/a3/auto-deep/auto_deep_models http://gitlab.myhexin.com/10jqka/iwencai/a3/auto-deep/reading_annotator_back
http://gitlab.myhexin.com/10jqka/iwencai/a3/pdf/kg-pdf-ocr-analyzer
http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/echo_pdf_machine http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/echo_executor http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/echo_integrator http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/echo_datasource http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/kg-dictionary http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/kg_lambda http://gitlab.myhexin.com/10jqka/iwencai/a3/echo/event_rule_front