Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Department of Chemical Engineering

CHEE418

Strategies for Process Investigations

Data Analysis and Modeling Project F2022

Description and Recommended Outline

November, 2022

[Note:  This  description is the same  as that posted in OnQ]

You are welcome to work on this project individually, or in a group of two.

In assessing the projects, I will take into account whether the project was done individ- ually, or as a group of two, to ensure an equitable assessment.

This project is a capstone experience in CHEE418, providing you with the opportunity to develop and present a complete statistical investigation and model estimation. The project is a summative assessment of the knowledge and expertise that you have developed in sta- tistical investigations, model estimation and assessment in the course.  Please keep in mind that your “toolkit” includes graphical and quantitative approaches for for exploring statis- tical distributions and systematic relationships, linear regression, nonlinear regression, and machine learning (neural nets, Principal Components Analysis).

In assessing the projects, I will be looking for evidence that you understand when and how to use appropriate tools to develop insights and interpretations, and develop and conirm models. It isn’t necessary to use all of these tools in your project, but rather the appropriate choice of tools will be guided by what you want to accomplish.

I will be posting some topics that you can use, typically with a paper containing data that you can estimate. I will also provide links to data sources as well. The socio-physical system that you investigate doesn’t have to be limited to chemical processes. Rather,  alongside chemical manufacturing, please feel free to consider wearable technologies, human health determinants, biomedical devices/materials/applications, pharmaceutical design and manu- facturing, chemometrics (analytical chemistry applications), environmental modeling, citizen science, social justice, plastics production/waste management, circular economy, and more! What I will be looking for is a clear statement of the system that you are investigating, and what the purpose is of the investigation, and what you hope to accomplish.

For the presentation in your report, please address the following:

.  what is the “system”that you are considering - please provide enough explanation and context. It is not necessary to go into a detailed explanation or literature review, but please describe the system you are looking sufficiently so that a non-expert reader can understand the problem you are studying.

.  the goals of your statistical investigation - is the goal to provide a predictive model? Develop a model that might support product development or process improvement?

.  a preliminary assessment of the data - what is the behaviour of each of the variables? Are there systematic co-dependencies between the factors and responses? Within the factors?

.  a description of the model development approach you have used - for example, are you going to use a linear regression approach? Why? What are the model forms you are pursuing? Will a nonlinear regression model be necessary? Why? Are you planning to use a machine learning approach?

.  a summary of the model development, estimation, reinement and inal assessment of adequacy for your investigation. Please be sure to use the appropriate model adequacy tools.

.  a brief discussion of next steps - what investigations or steps would you recommend to strengthen or add to the investigation? Why?

In some instances, you may be using data that have been previously analyzed and re- port.  That’s perfectly acceptable - in such cases, you should view your project as a review and assessment of the statistical methodology used and results obtained, and a reproduc- tion / validation of the statical model building results reported in the paper. I  will  be looking for more than simply reproducing what the investigators reported.  Rather, I will be looking for a critical assessment on the basis of statistical methodology, and any other insights you might have.  I am not expecting you to be technical domain experts (e.g., in pharma manufacturing) but I am expecting you to bring together what you have learned in CHEE418 together with the engineering foundations and judgment that you have developed.

I recommend using JMP or RStudio (or R) for your investigations, but you are welcome to use other software such as JASP, or Matlab if you prefer. There are also other public domain tools such as Knime.   If you use Excel, you will likely have to do extra work to generate diagnostics such as Lack of Fit tests, and so forth.  Also,  if you are interested in doing a machine learning or nonlinear regression model estimation, Excel will be very limited in this regard.

Please make sure you clearly identify the source of your data, and summarize the condi- tions under which they were collected. Did they come from passive (historical) observation? From a designed experiment? What else was going on when the experiments were run? Are there secondary variables (covariates) that we should be aware of?

Please also provide references both for your data source, and any other insights, descrip- tions or sources that you refer to in your investigation report. I am not looking for a formal academic paper style, but rather a report that you would expect to submit in an engineering or data analytics or management consulting irm.

Recommended Project Report Outline

1.  Introduction and Background - please provide enough explanation and context of the system you are considering. It is not necessary to go into a detailed explanation or literature review, but please describe the system you are looking sufficiently so that a non-expert reader can understand the problem you are studying.

Please describe clearly where the data you are using came from (e.g., from a journal paper, website, other source, experiments you conducted) and the system they are associated with (e.g., part of experimental program to optimize table production).

2.  Goals of the statistical investigation - is the goal to develop a model for predictions? Or to develop a model that might support product development or process improvement? This section can be very concise.

3.  Preliminary  Assessment  of the  Data - using  graphical  and  quantitative techniques (e.g., correlation), please assess whether systematic relationships appear in the data, and what form they take (e.g., quadratic, exponential, linear).  Are there systematic co-dependencies between the factors? Between the factors and response?

4.  Model Estimation Steps - please describe the model estimation approach (e.g., linear regression, nonlinear regression, machine learning) and the sequence of model esti- mation steps you took to arrive at the inal model Your discussion should describe candidate models that you considered,  and  a discussion about why you considered additional models (e.g., on the basis of graphical and/or quantitative diagnostics).  It isn’t necessary to show every individual model you considered, but please provide some representative examples of models (e.g., estimated a big model, then dropped terms).

5.  Final Proposed Model - please describe your inal proposed model, and why you believe it provides an adequate it to the data (using appropriate graphical and quantitative diagnostics). If you  estimated the model in coded variable form, please make sure you provide the inal model in original variables.  Please recommend the next steps that investigators might take  (if appropriate)  in order to strengthen or add to the investigation.

6.  Comparison  with  Published  Model  (if  appropriate) -  if you  are  using  data from  a paper, please compare the inal model that you obtained with the model reported in the paper, and comment on any diferences.  If there are major discrepancies, please describe where you think they may have arisen.   If you  are  not using data from a published paper in which a model is reported, you don’t have to include this section.

7.  References - if you used any references  (e.g., journal papers, websites) in your data analysis and modelling work, please include them in a reference section. Please use appropriate reference citations style and please use a format consistently. You are free to choose a format (e.g., using a format from a chemical engineering paper or the paper from which your data came).

Please note that this does not have to be a formal academic paper but rather a report that you might submit in an engineering or data analytics role for a company. Please orga- nize your presentation using the headings above.

Without igures, I would anticipate that the project text should be about 5 pages double spaced. Please include diagnostics for the inal model in the body of the report. If you have additional diagnostic graphics or quantitative diagnostic screen captures (e.g., for the model estimation steps) you are welcome to place them in an appendix. Please note that the 5 pages is intended an approximate idea of length, and is not intended to be a hard limit.