首页 > 电脑办公 > 正文

微软清华公布数据集 匹配准确率超过98%!

清华大学副教授、Arnetminer 创始人唐杰博士在微博上更新了清华和微软在 KDD 上公布的最新成果——Open Academic Graph。

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

「我们和微软在 KDD 上发布了一个非常大的学术数据,包含有微软 1.6 亿论文和 AMiner 里面抽取出来 1.55 亿论文,同时还给出了这两个数据之间的链接关系(可以用于做数据集成研究),欢迎大家下载,这也是清华和微软等单位联合成立的开发学术社区 Open Academic Society 。」

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

据雷锋网 AI 科技评论了解,该数据集仅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表的 6463 万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面,即链接关系、MAG 论文集及 AMiner 论文集。

在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:

{
  "mid": "xxxx",
  "aid": "yyyy"
}

其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。

对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:

示例如下:

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

在使用的时候,研究者可以通过以下两步进行操作:

  • 1. 采用 Microsoft Graph Search API 查询每个 AMiner 的论文标题,并且筛选出对应的链接论文。

  • 2. 如果两篇论文满足以下条件,则会被链接起来:

    1)标题相似;2)作者数目相同;3)有类似的作者名字及 4)相同的出版年份。

在测试过程中,研究者以 24012(TODO)链接论文对在数据集上进行测试,能够正确匹配的论文对有 23859 份,准确度达到 99.36%。

在 Open Academic Society 官网上,研究者又提供了一份准确率的最新数据:他们将 4100 个研究对进行准确性测试,发现有 4029 个成功匹配,准确率达到了 98.27%。

该数据集能够在 cloud API 上免费获得。如唐杰博士所言,这个数据集将成为 Open Academic Society 学术社区的重要组成部分。Open Academic Society 旨在建立一个共享、开源且不断扩展的知识图表体系,并构建以教育为核心的实体关系。以微软研究院旗下的 Microsoft Academic 和清华大学的 AMinergraph 领衔,知识图表的不断发展也得益于社区成员的持续贡献。

Open Academic Society 目前的成员包括 22 位老师/研究机构,也有不少华人,包括亚利桑那州立大学刘欢教授、澳大利亚国立大学 Lexing Xie博士、中科院程学旗博士、清华大学唐杰博士、UCLA 的 Yizhou Sun 博士、伊利诺伊大学厄巴纳-香槟分校 的 Chengxiang Zhai 等老师。

 

网友评论

三日内热门评论文章
热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
为您推荐
  • 相关阅读
  • 业界资讯
  • 手机通讯
  • 电脑办公
  • 新奇数码
  • 软件游戏
  • 科学探索