Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

COMPSCI 752

Big Data Management

Assignment 3 / Semester 1, 2022

Data Semantics and Knowledge Graph

1    Querying data through RDFS              [1.5 marks]

Suppose that our Tbox T and Abox A are defined as follows:

Tbox T:

RegisteredIn RegisteredIn HasPrograms Design           LedBy            LedBy

Abox A:

rdfs : domain

rdfs : range

rdfs : range

rdfs : subPropertyOf

rdfs : domain

rdfs : range

Design(Stats, DataScience)            Design(CS, InfoSys)                      RegisteredIn(Alice, DataScience) RegisteredIn(Peter, InfoSys)       RegisteredIn(Mary, DataScience)

LedBy(CS, Giovanni)

We consider the following conjunctive query:

Student

Program

Program

HasProgram

Dept

Professor

q(x) : − Student(x), RegisteredIn(x, y), HasPrograms(z, y), Dept(z)

Questions:

1. What is the answer of q(x) when evaluated on only Abox A? Explain the answer. [0.5 marks]

2. What is the answer of q(x) when evaluated on both Tbox and Abox < T, A >?

Explain the answer.

[1 mark]

2   Knowledge graph                                   [3.5 marks]

We will build a knowledge graph based on the profile text from Ninh’s homepage.

"Prior  to  joining University  of  Auckland  in  December  2018,  Ninh worked  in

Copenhagen  for  7  years  at  the University  of  Copenhagen  and  IT University  of Copenhagen.   He  received his  PhD  at  IT University  of  Copenhagen under  the    supervision  of  Professor  Rasmus  Pagh  in  2014.   After  that, he  spent  4  years in postdoctoral positions  in  Copenhagen.   He was  the  recipient  of  the best  paper  awards  in WWW  Conference  2014  and  PKDD  2020.   AMiner has  recognized    him  as  the  2022  AI  2000 Most  Influential  Scholar  Honorable Mention  in  Data  Mining  (Rising  Star)  for his  outstanding  and  vibrant  contributions  to  this  field between  2012  and  2021."

1. Unsupervised method:  Assume that nouns will be entities, and verbs form relations. Using NLP techniques (e.g. nltk packages), write a small Python script

to parse the above text into entities and relationships.      Construct a knowledge graph based on the parsing result.

[1 mark] [0.5 marks]

2.  Supervised method: Using a pre-trained model (e.g. https://spacy.io/models/ en) to parse the above text for entities and verbs.                                    [1 mark]   Assume that verbs form relations, construct a knowledge graph based on the pars-   ing result.                                                                                              [0.5 marks]

3. If we use some specific nouns as verbs, e.g. supervision,  award,  contribution, how do the constructed knowledge graphs above change?                   [0.5 marks]