|
要被处理为 RNAi 或 Non_RNAi。包含 PMID 以及 RNAi 或 Non_RNAi 分类的结果文件被进一步处理,以提取分类为 RNAi 的摘要的 PMID。这些 PMID 的摘要被检索并转换为 XML 格式,保留 PMID、文章标题和摘要文本。 创建用于实体识别的字典 创建了一个 perl 模块来容纳基因名称和细胞系名称的字典。基因名称及其别名列表是从 HGNC(HUGO 基因命名委员会)下载的[ 33 ],细胞系名称列表及其别名
是从 cellosaurus 下载的[ 34 ]。这些列表被进一典,其中细胞系Telegram 用户号码列表名称和基因名称标准化为其官方名称/符号。这些词典非常全面,基因词典包含 161,863 个条目,细胞系词典包含 73,370 个条目。 实体标记和细胞基因信息提取 被分类为 RNAi 的摘要被进一步处理,并且使用如上所述创建的字典,用细胞系的标准化名称或基因名称来标记基因和
细胞系提及。标记后,摘要将被进一步处理以提取细胞系名称和基因名称。这些以表格格式存储,以保留给定摘要内给定细胞系中研究的基因。 必需基因的验证 提取的基因按相关研究数量的降序排列。提取平均研究100次或更多次的基因,并且还提取平均研究这些基因20次或更多次的细胞系。此外还提取了研究最多的前 20 个基因、中位 20 个基因和后 20 个基因。通过选择相关 PMID 并手动扫描提取的细胞和基因信
|
|