머신러닝을 이용한 화합물 조성기반 초경질 소재 특성 예측

Machine Learning Guided Prediction of Superhard Materials Based on Compositional Features

Article information

Korean J. Met. Mater.. 2022;60(8):619-627
Publication date (electronic) : 2022 July 12
doi : https://doi.org/10.3365/KJMM.2022.60.8.619
Department of Electrical and Electronic Engineering, Hannam University, Daejeon 34430, Republic of Korea
남충희
한남대학교 전기전자공학과
*Corresponding Author: Chunghee Nam Tel: +82-42-629-7472, E-mail: chnam@hnu.ac.kr

- 남충희 :교수

Received 2022 March 14; Accepted 2022 May 9.

Trans Abstract

In this study, the mechanical properties of materials were predicted using machine learning to search for superhard materials. Based on an AFOW database consisting of DFT quantum calculation values, the mechanical properties of materials were predicted using various machine learning models. For supervised learning, the entire data was divided into training data and test data at a ratio of 8:2. Since the discovery of superhard materials can be predicted based on the bulk modulus and shear modulus, the bulk modulus was primarily predicted using only the chemical compositional ratio (chemical formula), and then the shear modulus was obtained using the predicted bulk moduli. To obtain good prediction performance, cross-validation and hyper-parameter tuning were carried out. Each characteristic was predicted using XGBoost, one of the ensemble algorithms, and its performance was compared to the treebased machine learning of RandomForest and Support Vector Machine regression using the coefficient of determination (R2) and root-mean-square-error (RMSE) as metrics. For the recently introduced four superhard materials (Mo0.9W1.1BC, ReWC0.8, MoWC2, and ReWB), the results of this study were similar to those of previous studies including the experimental values or the DFT quantum calculations. The shear modulus was underpredicted, which can be understood since structural properties were not considering as a feature in our machine learning models.

1. 서 론

새로운 소재를 개발하기 위한 방법은 전통적으로 실험의 결과를 바탕으로 오류를 해결하면서 지속적인 시도를 하는 방법(try-and-error)이 아직도 유효하게 사용되고 있지만, 실험을 통해서 최적의 소재를 개발하기 위해서는 많은 시간이 요구되는 단점이 있다. 양자계산을 바탕으로 하는 밀도범함수 이론(Density Functional Theroy: DFT)은 실험으로 접근하기 힘든 소재의 물리적 특성을 얻을 수 있을 뿐 아니라, 새로운 실험결과를 해석하는데 유효하게 사용된다. DFT 양자계산을 이용한 세라믹 소재(inorganic materials) 개발[1], 리튬이온 배터리 소재 탐색[2], 투명전도성 반-허슬러 합금(half-Heusler alloy)개발[3], 다양한 에너지 소재의 특성예측[4], 자성소재의 기저상태 예측[5] 등이 대표적이다.

최근에는 DFT 양자계산을 바탕으로 얻어진 대량의 소재 데이터를 기반으로 머신러닝을 이용하여 소재의 특성을 예측하는 연구결과가 주목을 받고 있다[6-13]. 양자계산 DFT를 기반으로 하는 소재 데이터로부터 리튬이온 배터리 개발을 위한 분자 전극 물질 개발[6], 에너지 밴드갭 예측 [7], 2-dimensional 자성소재 특성예측[8], 열전소재 개발 [9], 초경질(superhard) 소재 개발[10-13] 등이 대표적이다.

이 가운데, 소재의 기계적 특성과 관련된 부피탄성계수(bulk modulus)와 전단탄성계수(shear modulus)는 경도(hardness)와 비압축성(incompressibility)이 우수한 소재를 개발하는데 사용되는 대표적인 물성에 해당한다. 최근에 DFT 양자계산을 통해서 얻어진 부피탄성계수 및 전단 탄성계수 데이터를 이용하여 우수한 기계적 특성을 갖는 소재 후보군을 발굴하는데 머신러닝이 활용되면서 새로운 초경질 소재 개발에 대한 기대가 커지고 있다 [10-13].

본 연구에서는 AFLOW (Automatic FLOW for Materials Discovery)[12]에서 제공되는 6524개 소재의 부피탄성계수 및 전단탄성계수 DFT 양자계산 결과를 바탕으로 머신러닝을 적용하여 앞서 보고된 4가지 소재에 대한 기계적 특성을 예측하였다 [10,11]. 4가지 소재는 AFLOW 및 Material project의 dataset에 없는 소재로서, 최근 머신러닝 기반 소재설계를 통해서 초경질 특성을 가지는 소재로서 소개되었으며 다음과 같다: Mo0.9W1.1BC, ReWC0.8, MoWC2, ReWB 이다 [10,11].

서포트벡터 머신 회귀(Support Vector Machine Regression: SVR), 랜덤포레스터 회귀(RandomForest Regression: RF), XGboost Regression(XGB)의 3가지 머신러닝 모델을 이용하되, 교차검증(cross validation: CV)과 하이퍼 매개변수 조정(hyper-parameter tuning)을 통해서 각 모델의 최적화된 결과를 확인하였다. 각 모델의 회귀분석 결과를 바탕으로 얻어지는 결정계수(coefficient of determination: R2)값과 root-mean-square-error (RMSE)등 2개의 성능지표를 이용하여 각 모델의 소재특성 예측값을 상호 비교하였다. 마지막으로, 초경질 소재는 부피탄성계수와 전단탄성계수 모두 우수하여야 하므로 부피탄성계수 > 300 GPa, 전단탄성계수 > 200 GPa 조건을 만족하는 예측값을 기준으로 F1-socre 값도 계산하여 비교하였다 [16].

2. 실험방법

그림 1(a, b)은 AFLOW에서 얻은 전체 데이터의 부피 탄성계수와 전단탄성계수의 분포를 각각 보여준다 [12]. 부피탄성계수는 0~450 GPa 사이에 분포하고 있으며 평균값은 112 GPa이며, 10~300 GPa에 다수의 소재가 분포하고 있는 것을 알 수 있다. 전단탄성계수는 0~300 GPa 사잇값을 가지며 대부분 40~200 GPa에 다수의 소재가 분포하고 있고 평균값은 55 GPa이다.

Fig. 1.

Histogram of (a) bulk and (b) shear moduli for 5287 samples based on density functional theory (DFT) calculation from AFLOW dataset.

본 연구의 목적은 소재의 화학조성비만으로 기계적 특성이 우수한 소재를 탐색하는 것으로서 DFT 양자계산 과정 없이 소재의 기계적 특성을 예측하는 것이 목적이다. 부피탄성계수(K)와 전단탄성계수(G)는 기계적 특성을 예측하는 주요한 물성이며 소재의 경도(hardness: Hv)는 이 두 값을 바탕으로 식(1)과 같이 설명된다 [12,17]. 식(1)에서 k=(G/K) 이며, Pugh ratio(k)를 의미한다 [12,17].

(1) Hv=0.92 k1.137 G0.708

그러므로, 본 연구의 목적인 기계적 특성이 우수한 소재 탐색을 위해서는 부피탄성계수와 전단탄성계수 특성이 모두 우수한 소재를 예측하는 것이 필요하다.

그림 2의 아키텍쳐를 바탕으로 부피탄성계수와 전단탄성 계수를 예측하여 기계적 특성이 우수한 소재를 탐색하고자 한다. AFLOW에서 제공하는 6524개 소재 데이터 중에서 중복되는 화학조성비를 제외하면 5287개 소재 데이터가 남게 된다. 이중에서 부피탄성계수가 100 GPa 미만인 소재는 2714개이며 이는 전체 데이터의 51.3%에 해당한다. 부피탄성계수가 100 GPa 미만인 경우를 모두 포함하여 학습하게 되면, 부피탄성계수가 작은 값으로 치우칠 수 있는 편향된 예측 결과를 나타낼 수 있으므로 본 연구에서는 100 GPa 이상인 2573개 소재를 기반으로 머신러닝 모델을 학습한다. 최근 비슷한 예로, 새로운 열전소재 개발을 위해서 열전도도 데이터를 특정 구간으로 구분하여 회귀 분석한 결과 성능지표 R2> 0.9 이상의 결과가 보고되었다 [18].

Fig. 2.

Architecture of data-driven prediction of material’s mechanical properties based on AFLOW dataset.

화학조성비를 이용한 특성인자 생성은 파이썬 모듈인 Pymatgen과 Matminer를 이용하여 식 (2)와 같은 방법으로 얻어진다 [14]. 우선 Pymatgen으로부터 ‘composition’ 객체를 생성하고, 이로부터 Matmimer의 “MultiFeaturizer”를 이용하여 특성인자를 생성한다 [14,15]. 사용된 특성인자 생성은 화학량론(Stoichiometry), 개별원소특성(ElementProperty), 원자가궤도(ValenceOrbital), 원소비율(ElementFraction)의 4가지 특성추출법을 아래의 예시처럼 적용하였다 [13,14].

property of compositional average = x×property valuex+y×property valueyx+y

예를 들어 Si1O2의 특성인자중 하나인 atomic number의 compositional average 값은 식(2)를 이용하여 다음과 같이 계산된다. (1×14+2×8)/(1+2) = 10 으로 계산되고, 여기서 14, 8은 Si(규소) 원자와 O(산소) 원자의 atomic number를 나타낸다.

위의 방법을 이용하면 사용된 소재의 화학조성비를 바탕으로 221개의 특성인자가 얻어진다. 머신러닝에 필요한 특성인자의 상호 관계성은 피어슨 상관 계수 (Pearson correlation coefficient)로 나타낼 수 있으며 그 값은 –1과 1 사이의 값을 갖는다[19]. 피어슨 상관 계수의 절댓값이 클수록 특성인자의 상호 관계성이 높은 것을 의미한다. 본 연구에서는 피어슨 상관 계수의 절댓값이 0.95 보다 큰 특성인자는 사용하지 않는 조건으로 특성인자 34개를 줄여서 최종 187개를 이용하였다. 그림 2에서 본 것처럼 전단 탄성계수는 화학조성비만으로는 예측결과가 우수하지 않다. 그러므로 부피탄성계수를 특성인자에 포함하여 전단 탄성 계수를 예측하는 최적화된 모델을 찾는다. 이 때, 전단탄성계수는 범위 40 GPa이상, 310 GPa이하의 값을 가지는 2864개 소재를 이용하여 편향된 결과 없는 최적화된 머신 러닝 모델을 찾는다. 최종적으로, 탐색하고자 하는 4개 소재의 화학조성비를 바탕으로 특성인자를 이용하여 전단 탄성계수를 예측할 수 있다.

3. 결과 및 고찰

학습과정에서 3가지 모델 SVR, RF, XGB를 사용하였으며, 학습데이터(train data)와 테스트 데이터(test data)의 비율은 8:2로 하였다. 부피탄성계수(K) 및 전단탄성계수(G)의 전체 데이터(full dataset), 학습데이터, 테스트 데이터의 분포는 그림 3에 각각 나타나 있다. 학습데이터와 테스트 데이터가 8:2로 분류되었기 때문에, 학습데이터는 전체데이터와 유사한 분포를 가지는 것을 그림 3 (a, c)를 통해서 알 수 있다. 전체 데이터의 20%인 테스트 데이터의 분포 또한 특정한 값에 편향되지 않고 전체 데이터와 유사하게 분포함을 그림 3(b, d)를 통해서 확인할 수 있다.

Fig. 3.

Training and test data split for supervised machine learning on (a, b) bulk and (c, d) shear modulus.

학습데이터와 교차검증시 k-fold값은 5로 하였으며 매개 변수 조정에서 SVR은 2개 값(γ, C), RF는 5개값(n_estimator, max_depth, max_features, min_samples _leaf, min_samples_split), XGB에서는 8개값(n_estimator, colsample_bytree, max_depth, reg_alpha, reg_lambda, subsample, min_child_wight)을 사용하였다.

그림 4는 테스트 데이터의 부피탄성계수 예측을 위해서 사용된 3가지 모델 회귀 예측 결과를 비교한 것이다. 그림 4(a, b, c)는 각각 SVR, RF, XGB 3가지 모델의 교차검증 및 매개변수 조정 결과를 거쳐서 최적화된 결과를 보여주며 XGB가 가장 우수한 결과를 보인다. XGB 모델을 이용한 테스트 데이터 예측결과 R2은 0.889, RMSE는 19.193의 값을 나타내었다. 그림 4(c)에서 보는 것처럼, XGB 결과에서 부피탄성게수는 편향된 결과가 아닌 적절한 회귀 예측 성능을 보여주며 이것을 확인하기 위해서 에러분포를 확인하였다. 그림 4(d)는 부피탄성계수 XGB 회귀 모델을 바탕으로 전체 데이터와 테스트 데이터의 예측값과 참값의 분포와 에러율을 보여준다. 여기서 에러는 식(3)과 같이 참값(DFT 양자계산 값)과 예측값의 차이를 참값으로 나눈 값을 의미한다.

Fig. 4.

Predicted bulk modulus of the test data using (a) SVR, (b) RF, and (c) XGB after cross-validated training. The dashed line is the ideal 1:1 ratio between actual and predicted values. Two metrics of R2 and rmse are shown in each figure. (d) Fraction of the test and all data predicted within the relative percent error for the cross-validated XGB model.

에러가 양의 값이면 예측값이 참값보다 작은 경우 즉 과소예측(under-predicted)된 경우이고, 에러가 음이면 예측값이 참값보다 큰 과대예측(over-predicted)된 경우이다. 전체 데이터에서 8:2로 나누어진 테스트 데이터에 대한 에러 분포를 보면, ±20% 안에 대부분의 에러가 분포함을 알 수 있으며, 에러가 한쪽으로 편향되지 않은 결과를 보여주는 것을 그림 4(d)를 통해서 확인할 수 있다.

(3) error(%) = actual value-predicted valueactual value ×100

최근 머신러닝을 이용하여 기계적 특성이 우수하다고 소개된 4가지 소재의 부피탄성계수를 본 연구를 통해서 얻은 XGB 모델을 기반으로 화학조성비만을 이용하여 예측하여 그 결과를 비교하였다 [10,11]. 4가지 소재는 Mo0.9W1.1BC, ReWC0.8, MoWC2, ReWB이다. 본 연구의 머신러닝 모델을 기반으로 4가지 소재에 대한 부피탄성계수값을 예측한 결과와, 타 연구그룹의 실험결과 및 머신러닝 예측결과[10], 타 연구그룹의 DFT 양자계산 결과[11]의 비교는 표 1에 나타나 있다. 표 1의 부피탄성계수의 머신러닝 예측값, 실험결과 값, 계산값의 결과를 비교하여보면, Mo0.9W1.1BC, ReWC0.8 의 경우에는 본 연구의 XGB 모델 예측값이 실험값과 유사함을 알 수 있다. 이것은, 타 연구 그룹에서 발표한 머신러닝 예측값보다 더욱 정확한 예측 결과를 보여준다. MoWC2 의 경우에는 본 연구의 XGB 모델 예측값이 타 연구그룹 DFT 양자계산 값과 유사함을 알 수 있다. ReWB 경우에는 본 연구의 XGB 모델 예측값과 타그룹 머신러닝 예측값과 유사하며 DFT 양자계산값과 비교하면 10% 이내의 차이를 보여준다.

Comparison of Mechanical properties (B, G, and Pugh ratio) predicted in this study and other studies on four specific compounds. Experimental and calculated values in Ref. [10 and 11] are also provided

SHAP(SHapley Additive exPlanations)는 머신러닝에 사용된 특성인자가 예측결과에 얼마나 중요하게 영향을 주는지를 알려준다 [20]. 그림 5는 XGB 모델에서 사용된 187개의 특성인자 가운데, 우선순위가 높은 20개의 주요 평균(mean) SHAP value를 순서대로 보여주고 있다. 주요 20 개의 특성인자 중에서 top-5에 대해서 정리하면 표 2와 같다. 주요 특성인자 가운데 첫번째와 두번째에 해당하는 “MagpieData mean MeltingT”, “MagpieData mean GSvolume_pa”, 부피탄성계수와의 산점도는 그림 5에 표시되어 있다. 주요 2개의 특성인자와 부피탄성계수와의 직접적인 관계는 그림 5에서 확인할 수 는 없지만, 트리기반 XGB 모델에서는 주요하게 작동하여 높은 예측 성능 결과를 보여준다.

Fig. 5.

Mean SHAP values for 20 important features and scattered plot for bulk modulus vs two important features.

Top 5 features obtained from mean SHAP values for predicting bulk modulus with XGB.

그림 6(a)는 XGB 모델에서 187개 특성인자를 사용했을 경우이며, 그림 6(b)는주요 20개 특성인자만을 사용했을 경우의 train data와 test data 에 대한 예측결과를 각각 보여준다. 그림 6(b)에서 보는 것처럼 20개의 주요 특성인자만 사용했을 경우의 성능지표 결과로는 R2=0.880, RMSE=19.978 로서 그 결과가 187개 특성인자를 사용했을 때 보다 크게 감소하지 않는 것을 알 수 있다.

Fig. 6.

Parity plots for predicted and actual bulk modulus using XGB with (a) 187 features and (b) 20 important features.

초경질 소재는 부피탄성계수와 전단탄성계수 모두 우수한 소재여야 하므로, 본 연구에서는 부피탄성계수 임계값 = 300 GPa, 전단탄성계수 임계값 200 GPa을 택하여 혼합행렬(confusion matrix)을 그림 6과 같이 얻었다. 임계값을 기준으로 소재의 예측값을 분류하기 위한 성능지표로는 정밀도(precision), 재현율(recall), F1-score를 사용하였으며 식 (4)~(6)으로 표현된다.

(4) Precision = (true positive) / (true positive + false positive)
(5) Recall = (true positive) / (true positive + false negative)
(6) F-1 score = 2 × (precision × recall) / (precision + recall)

여기서, true positive(TP)는 예측값과 참값이 모두 임계값 초과인 경우, true negative(TN)은 예측값과 참값이 모두 임계값 이하인경우, false negative(FN)은 참값은 임계값 초과이지만 예측값이 임계값 이하인경우, false positive (FP)는 참값은 임계값 이하이나 예측값이 임계값 초과인 경우이다. 부피탄성계수 Test data의 예측값과 참값을 기준으로 그림 6의 사분면 영역에 TP, TN, FN, FP에 해당하는 데이터 개수가 표시되어 있으며, 이것을 바탕으로 정밀도, 재현율, F-1 socre를 계산하여 표 3에 정리하였다. 그 결과, 부피탄성계수 예측에서 187개 특성인자와 20개 주요 특성인자에 대한 F-1 score값이 큰 차이가 없으므로 XGB 모델에서 20개 주요 특성인자가 중요하게 작동하고 있음을 확인할 수 있다.

Recall, precision and F1-score based on the XGB guided prediction of bulk modulus and shear modulus with all features and 20-features, respectively.

그림 7은 AFLOW에서 제공하는 전단탄성계수 데이터에서 40 GPa이상, 310 GPa 이하의 값을 가지는 2864개 소재를 이용하여 3가지 모델(SVR, RF, XGB)을 이용하여 학습한 후, 테스트 데이터를 예측한 결과이다. 학습데이타와 테스트 데이터 비율, 교차검증 조건은 부피탄성계수 머신러닝 학습 조건과 같다. 전단 탄성계수는 화학조성비만을 이용할 경우 머신러닝 예측결과가 우수하지 않다. 그러므로, 그림 2의 아키텍쳐에서 설명한 것처럼 전단탄성계수의 경우에는 화학조성비 뿐 아니라 AFLOW에서 제공하는 부피탄성계수값도 특성인자에 포함시켜 모델을 학습하였다. XGB 모델의 결과를 이용한 테스트 데이터의 회귀결과가 가장 우수함을 그림 7의 성능지표 R2과 RMSE 비교를 통해서 알 수 있으며, 그 값은 각각 0.868과 14.839(GPa) 이다.

Fig. 7.

Predicted shear modulus of the test data using (a) SVR, (b) RF, and (c) XGB after cross-validated training. The dashed line is the ideal 1:1 ratio between actual and predicted values. Two metrics of R2 and rmse are shown in each figure.

그림 8은 전단탄성계수의 임계값 200 GPa을 기준으로 분류 성능지표인 정밀도, 재현율, F-1 score를 확인하기 위하여 187 특성인자(그림 8(a))와 주요 특성인자 20개(그림 8(b))를 사용하여 나타낸 결과이다. 그림 8(b)에서 보는 것처럼 전단 탄성계수의 경우에도 부피탄성계수와 마찬가지로 주요 특성인자 20개만을 사용할 경우 회귀 예측성능 결과가 R2=0.864, RMSE=15.075 로서 큰 차이가 없는것을 알 수 있다. 하지만, 전단탄성계수 임계값을 200 GPa으로 설정하여 분류 할 경우 573개의 소재의 test data 에 비해서 임계값 이상인 경우는 17개 소재만 해당하여 불균형한 분포를 가지게 된다. 이런 불균형한 데이터 분포의 분류 문제에서는 부피탄성계수에서 본 것처럼 정밀도와 재현율을 모두 포함하는 F-1 score 성능지표를 비교하는 것이 효과적이다. 표 3에서 보이는 것처럼 전단탄성계수 예측에서 187개 특성인자를 사용할 경우 F-1 score는 0.69이며, 20개 주요 특성인자를 사용할 경우에는 0.54로서 20% 정도의 차이를 보이는 것을 알 수 있다. 즉 부피탄성계수에 비해서 전단탄성계수의 예측 성능이 특성인자에 영향을 많이 받을 뿐 아니라 조성으로부터 얻은 특성인자만으로는 한계가 있음을 알 수 있다.

Fig. 8.

Parity plots for predicted and actual shear modulus using XGB with (a) 187 features and (b) 20 important features.

그림 9(a)는 AFLOW에서 제공하는 DFT 양자계산 결과값인 부피탄성계수와 전단탄성계수의 분포를 보여준다. 그림 9(b)는 AFLOW에서 제공하는 DFT 양자계산 부피탄성 계수 값과, 본 연구결과인 XGB모델을 통해서 예측된 전단 탄성계수의 분포를 보여준다. 그림 9(a, b)는 비슷한 분포를 보여주므로 전단 탄성계수 예측이 우수하다는 것을 알 수 있다. 전단탄성계수 예측에서 부피탄성계수가 중요한 특성인자(important feature)로 작용하기 때문에 부피 탄성계수가 증가할수록, 전단 탄성계수도 대략적으로 증가하는 것을 그림 9(b)를 통해서 볼 수 있다. 그림 9에서 보는 것처럼, 기계적 특성이 우수한 소재는 전체 데이터 분포에서 우상향에 위치한다. 표 1에서 소개한 4개 소재의 부피탄성계수는 화학 조성비만을 이용하여 XGB모델을 기반으로 예측한 부피탄성계수이며, 이 값은 전단탄성계수 예측을 위해서 특성인자로 사용하였다. 최종, 4개 소재의 예측된 전단탄성계수값과 부피탄성계수값을 그림 9(b)에 표시하면 우상향에 위치함을 알 수 있다. 표 1과 함께 그림 9(b)를 살펴보면, Mo0.9W1.1BC, ReWC0.8 두 소재에 대한 전단 탄성계수 값은 150 GPa 이상으로 높은 값을 가진다. Pugh ratio 값[12]을 살펴보면, 타 연구 그룹과의[10] 비교를 통해서 Mo0.9W1.1BC, ReWC0.8 두 소재에 대한 본 연구결과의 예측값이 적절함을 알 수 있다. Pugh ratio가 0.57보다 작으면 연성영역(ductile regime)으로 여겨 지는데 [10], 위의 두 소재에 대한 참고문헌[10]에서 보고된 값뿐 아니라 본 연구의 예측된 값이 0.57보다 작은 결과를 나타낸다. 이러한 결과는 전단 탄성계수가 과소예측(under predicted)되었기 때문으로 이해될 수 있다. 또 다른 두 소재 MoWC2, ReWB의 경우, 참고문헌에서 보고된 전단탄성 계수의 DFT 양자계산 값보다 작은 이유도 과소예측된 머신러닝 모델의 결과로 이해할 수 있다. 그 결과, 두 소재 MoWC2, ReWB의 Pugh ratio 값도 0.57 또는 0.56의 값으로 계산된다. 전단 탄성계수가 과소 예측된 이유는, 머신러닝 과정에서 소재의 다양한 특성을 결정하는 구조(structure)인자가 포함되지 않았기 때문으로 여겨진다 [12,21].

Fig. 9.

(a) Bulk and shear moduli from AFLOW dataset based on DFT calculation. (b) Predicted shear and actual (DFT calculation) bulk moduli. Positions of mechanical properties predicted on the four specific compounds are indicated in (b).

4. 결 론

AFLOW에서 제공하는 DFT 양자계산 결과로 얻어진 부피탄성계수와 전단탄성계수를 목표값으로하여 화학조성비 만으로 머신러닝을 통하여 예측하였다. 머신러닝에 필요한 특성인자는 Pymatgen과 Matminer를 통해서 얻었으며, 3가지 머신러닝 모델(SVR, RF, XGB)을 통해서 R2과 RMSE 성능지표를 이용해서 회귀분석 결과를 비교하였다. 부피탄성계수 예측시에는 100 GPa 이상인 소재 데이터를 사용하여 작은값으로 편향되어 예측될 수 있는 한계를 줄였으며 그 결과 우수한 성능의 XGB 머신러닝 모델을 얻을 수 있었다. 전단탄성계수 머신러닝 모델 적용시에는 부피탄성계수를 특성인자로 사용하였으며, 화학조성비만을 사용할 때 보다 우수한 성능을 나타내었다. 본 연구에서 얻어진 머신러닝 모델을 이용하여, 최근에 소개된 4가지 소재에 대한 부피탄성계수와 전단탄성계수를 예측하여 타 연구그룹에서 발표한 결과와 비교하였으며 유사한 결과를 확인하였다.

Acknowledgements

본 연구는 과학기술정보통신부 재원으로 한국연구재단의 지원을 받아 수행된 연구이며, 이에 감사드립니다(NRF2021R1F1A1052971).

References

0. Mater 7114. 2021.
1. Lee J.-W., Park W. B.. Korean J. Met. Mater 59:256. 2021;
2. Urban A., Seo D.-H., Ceder G.. npj Comput. Mater 2:16002. 2016;
3. Nawa K., Miura Y.. RSC Adv 9:30462. 2019;
4. Jain A., Shin Y., Persson K. A.. Nat Rev Mater 1:15004. 2016;
5. Horton M. K., Montoya J. H., L M., Persson K. A.. npj Comput. Mater 5:64. 2019;
6. Müller S., Sauter C., Shunmugasundaram R., Wenzler N., Andrade V. De, Carlo F. D., Konukoglu E., Wood V.. Nat. Commun 12:6205. 2021;
7. Zhuo Y. Z., Tehrani A. M., Brgoch J.. J. Phys. Chem. Lett. 9 7:1668. 2018;
8. Rhone T. D., Chen W., Desai S., Torrisi S. B., Larson D. T., Yacoby A., Kaxiras E.. Sci Rep 10:15795. 2020;
9. Wang T., Zhang C., Snoussi H., Zhang G.. Adv. Funct. Mater 30:1906041. 2020;
10. Tehrani A. M., Oliynyk A. O., Parry M., Rizvi Z., Couper S., Lin F., Miyagi L., Sparks T. D., Brgoch J.. J. Am. Chem. Soc 140:9844. 2018;
11. Zuo Y., Qin M., Chen C., Ye W., Li Xi., Luo J., Ong S. P.. Mater. Today 51:126. 2021;
12. Avery P., Wang X., Oses C., Gossett E., Proserpio D. M., Toher C., Curtarolo S., Zurek E.. npj Comput. Mater 5:89. 2019;
13. Chen W.-C., Schmidt J. N., Yan Y. K., Chen C.-C.. npj Comput. Mater 7:114. 2021;
14. Ong S. P., Richards W. D., Jain A., Hautier G., Kocher M., Cholia S., Gunter D., Chevrier V. L., Persson K. A., Ceder G.. Comput. Mater. Sci 68:314. 2013;
15. Ward L., Dunn A., Faghaninia A., Zimmermann N. E.R., Bajaj S., Wang Q., Montoya J., Chen J., Bystrom K., Dylla M., Chard K., Asta M., Persson K. A., Snyder G. J., Foster I., Jain A.. Comput. Mater. Sci 152:60. 2018;
16. Oses C., Kusne A. G., Rodriguez E., Paglione J., Curtarolo S., Takeuchi I.. npj Comput. Mater 4:29. 2018;
17. Tian Y., Xu B., Zhao Z.. Int. J. Refract. Hard. Met 33:93. 2012;
18. Tewari A., Dixit S., Sahni N., Bordas S. P.A.. Data-Centric Eng 1e8. 2020;
19. Chen P., Li F., Wu C. J. Phys. Conf. Ser 1757:012054. 2021;
20. Moncada-Torres A., Maaren1 M. C. van, Hendriks M. P., Siesling S., Geleijnse G.. Sci. Rep 11:6968. 2021;
21. Boateng S., Lee K. R., Cho H., Lee K. H., Kim C.. Korean J. Met. Mater 58:728. 2020;

Article information Continued

Fig. 1.

Histogram of (a) bulk and (b) shear moduli for 5287 samples based on density functional theory (DFT) calculation from AFLOW dataset.

Fig. 2.

Architecture of data-driven prediction of material’s mechanical properties based on AFLOW dataset.

Fig. 3.

Training and test data split for supervised machine learning on (a, b) bulk and (c, d) shear modulus.

Fig. 4.

Predicted bulk modulus of the test data using (a) SVR, (b) RF, and (c) XGB after cross-validated training. The dashed line is the ideal 1:1 ratio between actual and predicted values. Two metrics of R2 and rmse are shown in each figure. (d) Fraction of the test and all data predicted within the relative percent error for the cross-validated XGB model.

Fig. 5.

Mean SHAP values for 20 important features and scattered plot for bulk modulus vs two important features.

Fig. 6.

Parity plots for predicted and actual bulk modulus using XGB with (a) 187 features and (b) 20 important features.

Fig. 7.

Predicted shear modulus of the test data using (a) SVR, (b) RF, and (c) XGB after cross-validated training. The dashed line is the ideal 1:1 ratio between actual and predicted values. Two metrics of R2 and rmse are shown in each figure.

Fig. 8.

Parity plots for predicted and actual shear modulus using XGB with (a) 187 features and (b) 20 important features.

Fig. 9.

(a) Bulk and shear moduli from AFLOW dataset based on DFT calculation. (b) Predicted shear and actual (DFT calculation) bulk moduli. Positions of mechanical properties predicted on the four specific compounds are indicated in (b).

Table 1.

Comparison of Mechanical properties (B, G, and Pugh ratio) predicted in this study and other studies on four specific compounds. Experimental and calculated values in Ref. [10 and 11] are also provided

Mo0.9W1.1B1C1 ReWC0.8 MoWC2 ReWB
Bulk modulus (GPa) XGB in this study 335.6 371.1 359.2 336.7
Predicted in others 370 [10] 398 [10] 365[11] 335[11]
Experiments 342 [10] 380 [10] - -
DFT calculation - - 358 [11] 353 [11]
Shear modulus (GPa) XGB in this study 178.7 190.6 204.7 189.9
DFT calculation - - 260.5 [11] 144.1 [11]
Pugh ratio this study 0.53 0.51 0.57 0.56
other studies 0.46 [10] 0.52 [10] - -

Table 2.

Top 5 features obtained from mean SHAP values for predicting bulk modulus with XGB.

Top 5 features description
MagpieData mean MeltingT Mean melting temperature among elements in composition
MagpieData mean GSvolume_pa Mean DFT-computed volume of elemental solid among elements in composition
MagpieData maximum GSvolume_pa Maximum DFT-computed volume of elemental solid among elements in composition
MagpieData mean Electronegativity Mean electronegativity among elements in composition
MagpieData avg_dev MeltingT Average deviation of melting temperature among elements in composition

Table 3.

Recall, precision and F1-score based on the XGB guided prediction of bulk modulus and shear modulus with all features and 20-features, respectively.

Bulk modulus
Shear modulus
all features 20 features all features 20 features
Recall 0.70 0.69 0.53 0.35
precision 0.95 0.95 1 0.86
F1 score 0.81 0.80 0.69 0.54