Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit


Take Home Project #2 (25 Mark)

H6751 Text & Web Mining


1.    Task1: Build a Sentiment Classifier with the following requirements. 1.1. Dataset

-        Use reviews_with_splits_lite.csv in rnn-transformer-sentiment\data\rt-polarity: Sentence-Level dataset from Rotten Tomatoes

(http://www.rottentomatoes.com/): 5331 positive sentences and 5331 negative sentences

-        Do not change split values in the file since everyone should use the same test data.

1.2. Algorithm

-        Use following code as baseline models.

•    Sentiment-Classification-with-RNNs-v3.ipynb

•    Sentiment-Classification-with-bert-v1.ipynb (use a gpu machine, such as google colab)

•    Sentiment-Classification-with-other-transformer-models-v1.ipynb (use a gpu machine, such as google colab)

1.3. Tasks

-        Task 1: optimize the RNN model (Sentiment-Classification-with-RNNs- v3.ipynb)

-        Task 2: optimize BERT (Sentiment-Classification-with-bert-v1.ipynb) or any other transformer model (Sentiment-Classification-with-other-transformer-     models-v1.ipynb).

•   For Task 2, if you want, instead of using the provided two baseline models’ code (i.e., Sentiment-Classification-with-bert-v1.ipynb and Sentiment-          Classification-with-other-transformer-models-v1.ipynb), you can use any      kinds of Neutral Networks to develop the best model in PyTorch with the provided dataset. For instance, you can use Multi-Layer Neural Networks,    RNN, LSTM, CNN, BERT, other transformer models, etc.

1.4. Improve the model using following approaches.

-        Text pre-processing, such as removing stop words, and using lemmatization, case folding, etc.

-        Change hyperparameters, such as learning rate, # of hidden units, mini-batch size, # of layers, dropout, batch norm, regularization, etc.

-        Any other techniques if you like to use.

-        Note that you cannot use an existing model without training with the provided dataset.

Submission:

Submit one zip file (use only zip compression file), named home-project-no2-

yourname.zip, that contains your report file, Jupyter Notebook files, data files (i.e., input data) and the best model files (e.g., model.pth files) through Turnitin on the class website.

-     Write a report in Word or PDF that discusses your observations, such as test results with various approaches. The report should contain up to 2,000 words and write down the    total number ofwords on your cover page.

-     The report file should have a cover page.

-     The Jupyter notebook files must show all output results of your Python code. So please make sure that you run all the cells in the notebook files before your submission.

-     If model files are too big for Turnitin submission, you do not need to include them in your zip file.

-     Note that Turnitin does not allow you to resubmit your assignment file.

-     Reports and required files submitted in after the due date will not be marked because of the strict university deadline.