Regal Credit Finance Limited

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 350|回復: 0

步处理以形成最终的字

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2023-8-2 19:29:43 | 顯示全部樓層 |閱讀模式

要被处理为 RNAi 或 Non_RNAi。包含 PMID 以及 RNAi 或 Non_RNAi 分类的结果文件被进一步处理,以提取分类为 RNAi 的摘要的 PMID。这些 PMID 的摘要被检索并转换为 XML 格式,保留 PMID、文章标题和摘要文本。 创建用于实体识别的字典 创建了一个 perl 模块来容纳基因名称和细胞系名称的字典。基因名称及其别名列表是从 HGNC(HUGO 基因命名委员会)下载的[ 33 ],细胞系名称列表及其别名

是从 cellosaurus 下载的[ 34 ]。这些列表被进一典,其中细胞系Telegram 用户号码列表名称和基因名称标准化为其官方名称/符号。这些词典非常全面,基因词典包含 161,863 个条目,细胞系词典包含 73,370 个条目。 实体标记和细胞基因信息提取 被分类为 RNAi 的摘要被进一步处理,并且使用如上所述创建的字典,用细胞系的标准化名称或基因名称来标记基因和

细胞系提及。标记后,摘要将被进一步处理以提取细胞系名称和基因名称。这些以表格格式存储,以保留给定摘要内给定细胞系中研究的基因。 必需基因的验证 提取的基因按相关研究数量的降序排列。提取平均研究100次或更多次的基因,并且还提取平均研究这些基因20次或更多次的细胞系。此外还提取了研究最多的前 20 个基因、中位 20 个基因和后 20 个基因。通过选择相关 PMID 并手动扫描提取的细胞和基因信



回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|Regal Credit Finance Limited

GMT+8, 2024-11-27 05:39 , Processed in 0.032790 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表