Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Department of Econometrics and Business Statistics

ETW2800 TEXT ANALYTICS FOR BUSINESS

The objectives of this assignment are:

1.   Exploring the data set using predefined concept rules and custom concept rules in the Concepts node.

2.   Exploring the terms and their relationship in the Text Parsing node.

3.   Perform text categorisation and evaluate its performance.

INSTRUCTIONS

1.   Make sure that you regularly make backup copies of your work. Computer, disk, or cloud problems will not be accepted as valid reasons for late submissions or requests for extensions.

2.   Any students caught  plagiarising or  permitting others to  plagiarise their work will receive a zero mark on this assignment. Students should be aware of what constitutes plagiarism and collusion, and the procedure should one be suspected of committing such acts.

3.   Students  should  emphasise the  narration  and  how the  results  are  presented  and interpreted. Students should endeavour to ensure that the report is complete and well-composed. Poor presentation, poor command of English writing and/or failure to comply with instructions may result in a mark penalty. You are encouraged to access Studiosity for improving your report writing. The Studiosity link is on Moodle's

Assessment page.

*Please  note that the services available for you  in Studiosity  (accessible via  Moodle site) are supplementary to this unit. Studiosity is a third-party provider contracted by Monash University to assist you with generic skills such as essay writing, grammar,  referencing etc. They do  not provide  specific  comments  on  unit  content  or the  appropriateness  of your  answer  regarding assessment  tasks  and  learning  outcomes.  Rather,  they  address  your  key  skills  of  argument, structure, expression, and referencing.

Evaluation of your work for assessment purposes is conducted solely by your Monash teachers (chief examiners or tutors). You should use consultation hours provided by Monash teachers if you have concerns or questions about unit content and your understanding of that content or if you have questions specifically about assessment tasks.

a.   Your  report  should  not  be  more  than  2000  words  (excluding  footnotes,

references and appendix). Use default format, paragraph and margin settings  (These settings are in default mode whenever you open a new Word document)

b.   Font type: Times New Roman. Font size: 12.

c.    1.2 lines spacing between lines.

d.   All diagrams should be in line with the text for ease of reading and not placed in an Appendix at the end of the report.

4.   All submissions will be via Moodle. You will need to submit (i) the PDF version of the assignment.

ASSIGNMENT TASK

Assignment Aim:

Use SAS Visual Text Analytics to explore and categorise consumer complaints in the banking and finance industry.

Introduction to CFPBCOMPLAINTS data set:

With permission, SAS obtained the CFPBCOMPLAINTS data set from the Consumer Financial Protection Bureau (CFPB). The data are augmented for education purposes.

The  table   below   briefly   describes  the   provided   and   generated  variables   within  the CFPBCOMPLAINTS data set.

 

 

Instructions:

Follow the recording video to copy the CFPBCOMPLAINTS data set to your server so you can access it in Model Studio.

Proceed with the  prescribed text  analytics  process  below. Write  a  report  based  on your analysis. Your report should include all the related tables, diagrams and associated narrative. Keep your report concise and clear. No restriction or fixed format for you to write your report. Thoughtfulness, clarity of your  discussion and communication of your  results are important.

Stage 1: Exploring the CFPBCOMPLAINTS Data (10%)

    Study the provided metadata table above to understand the data set.

•    Use SAS Visual Analytics to explore the Consumer_disputed_ variable.  Build a  bar chart for this variable and explain the contents and distribution.

•    Create a List table to view and explore Company, Complaint_Narrative, Complaint_ID and  Consumer_disputed_  variables.  Assign  the  Text  and  Category  roles  to  two variables from these four variables for the text analytics project. Explain your choice.

Stage 2: Exploring Concepts (20%)

    Create a text analytics project in Model Studio. You can use any name for your project.

    Use the default template and make sure the project language is English.

    Assign the variables you have chosen in Stage 1 to the Text and Category role.

    Make sure the predefined concepts is included in the Concepts node.

•    Exploring the concepts that appear in the documents using predefined concepts and custom concepts. One of the purposes of exploring the concepts is to define a business problem and goal in Stage 3.

•    After exploring the concepts, you should  be able to  narrow down and focus on a specific area that you are keen to study and discover for your project.

Stage 3: Define A Business Problem and Goal (15%)

•    Concerning the Assignment Aim above, define a business problem and goal you will address  in  your  report.  (The  problem  and  aim  must  be  related  to  customers’ complaints as stated in the assignment aim.)

•    The business problem must be closely related to the selected data set. So you are advised to complete Stage 1 and Stage 2 before proceeding to this stage.

•    The business problem you have defined should be a question that can be solved by document categorisation.

    The business question and goal should be simple and concise. So it can be achieved.

•    The quality of the identified business problem can seriously affect your results and report. So spend some effort and time on this stage.

Stage 4: Exploring Terms (15%)

•    Identify TWO terms from the Kept Terms list in the Text Parsing node that are most significant to your business problem.

    Describe the role and other details of the selected terms.

•    Study the term map and explore at least two other terms that are highly similar to the terms that you have selected above.

Stage 5: Identifying the topics (15%)

•    Exploring the topics in the Topics node by examining the list of the important terms related to the topics.

•    Select a topic that is significantly related to your business problem by investigating how those important terms in the topic are used to match the documents.

•    Select one topic that is most suitable to be a category, then promote that topic to be a category.

Stage 6: Exploring Categories (10%)

    Rename the promoted topic category with a descriptive name.

•    You can inspect the Boolean logic and, if necessary, edit the rules or extend them with additional operators and linguistic qualifiers to obtain a better result in Stage 7.

Stage 7: Evaluating the documents categorisation (15%)

    Examine the Category node results and explain the diagnostic counts and metrics.

•    Explain which metric you should focus on for your problem.

    Provide limitations and recommendations to enhance your analysis in the future.