Notice of Conyac Termination ( Updated on November 25)

Naoko Yamazaki (naoko_yamazaki)

ID Verified
Over 9 years ago Female
Japan
Japanese (Native) English German
Culture Business Marketing Machinery Pharmaceuticals

Example Translations

Marketing [English ≫ Japanese]

Original text

In this application data set, there is no target variable included, i.e. it is empty because before we run a campaign we do not know who is going to respond (obviously!!).
Therefore the deviating variable is the target, PURCHASE, is deviating because it is blank.

In the output file there are 5078 customers who have decision_rr_PURCHASE = 1.
These will all be contacted.
This is close to the Predicted 1 value in the confusion matrix, 4929.

Using this last output file, could you provide an estimate of the maximum number of expected respondents if all the prospects were contacted?

The estimate is calculated by summing the probabilities in the output column
proba_rr_PURCHASE.

Using the confusion matrix, could you provide an estimate of the maximum number of expected respondents if all (100%) of the prospects were contacted?

From the confusion matrix, when the % of population is set at 100%, the Predicted 1/True 1 value (i.e. the true positives) = 2146.

Why is there a difference between the average response rate given in the confusion matrix, i.e. in answer for question (i) and the average response rate given in Model Overview?

The data is split into estimation and validation sub-sets. The % of 1s in the estimation data set is 9.13%, and the % of 1s in the validation data set is 8.71%. This can be checked in the Statistical Reports/Nominal Targets. The average response rate given in the model overview is that for the estimation data set (9.13%).
The response indicated using the confusion matrix is given by dividing the number of responders by the total number of customers in the apply data set, which is 2146 / 24635 = 8.71% (the Classification Rate).

The Weighted Count on the Apply-in data is split evenly between the deciles. InfiniteInsight has calculated the Min and Max score that defines the boundaries of the bin for each decile.
There is a predicted number of responders for each decile. The variable Money Spend is summed for each decile.

Many organisations will be interested in segmentations based on Recency, Frequency and Monetary value (RFM).
How could Recency and Frequency be added to the decile chart as well?

Only continuous variables can be summed in the decile chart output. Currently Recency and Frequency are defined, in Description, as ordinal.
If these were reclassified as continuous then they would be eligible for selection for the decile output.

The output table contains two columns for each reason code requested:

reason_name_<criterion>_<threshold>_<rank>_rr_<target name>: contains the name of the variable selected as a reason code. For example, the output column named reason_name_Below_Mean_1_rr_<target name> contains the name of the variable being the most important (1) reason code with respect to the target variable.
Among the variables whose contribution is below (Below) the mean (Mean) of the population contribution, the selected variable will be the one having the highest deviation with it.

reason_value_<criterion>_<threshold>_<rank>_rr_<target name>: contains the value of the reason code, which is the difference between the variable contribution for the customer and the threshold.

The important point is that each customer’s score, which is a composite of scores contributed from each explanatory variable, can be assessed in detail, so it is possible to identify why each customer has a high or low overall score.

Using this HTML output it is very easy to see how changing a value for an explanatory variable changes the model overall score. This gives the user a what-if? type facility.
The model is fully portable, as it is HTML. Scores are calculated in real time.

The user can build what-if? Scenarios, calculate scores in real time, and the model is portable.

Provide an estimation of the maximum number of respondents if all customers in this file had been contacted?

If you sum the probabilities proba_rr_PURCHASE,the sum is 2169 responders in the total population.

[......]

The classification model gives the probability of customers buying the book and the regression model estimates the Amount they will spend.
In a marketing campaign, we would want to prioritise the customers with a high probability to respond and those who are going to spend the most. Therefore, to identify these customers more easily, the analyst could consider creating a new score, using the classification model and regression model together, which is (probability to respond x AMOUNT).
Ranking on this composite score will enable the identification of the most valuable customers, with high probability and high spend estimate.

Translated text

この一連のアプリケーションデータには、目標変数は含まれていない。例えば、戦略を実行する前は、誰が応じてくれるかわからないので、(言うまでもなく!!)目標変数は空である。
したがって、変動する変数は目的であり、そのPURCHASEは空欄なので変動する。

出力ファイルには、decision_rr_PURCHASE = 1を持つ5078名の顧客がいる。
これらの顧客は全員、接触してくるだろう。
これは、混同行列におけるPredicted 1 valueの4929名に近い。

この最新の出力ファイルを使って、もし全ての潜在顧客と接触していたら、最大期待応答者数の推定に届くことができるだろうか?

推定は、出力列における見込み客が訪れる確率の総計によって計算される。
proba_rr_PURCHASE

混同行列を使って、もし全て (100%) の潜在顧客と接触していたら、最大期待応答者数の推定に届くことができるだろうか?

混同行列で、人口のパーセンテージを100%と設定した場合、Predicted 1/True 1 value (すなわち、true positives) = 2146.

なぜ混同行列、すなわち answer for question (i) における平均応答率とModel Overviewにより提示された平均応答率に差があるのだろうか?

このデータは、大きく推定データと検証データの二つに分かれている。一連の推定データにおける1sのパーセンテージは9.13%、一連の検証データにおける1sのパーセンテージは8.71%である。この事実は、統計報告/名目ターゲットで確認できる。Model Overviewにより提示された平均応答率は、一連の推定データにおけるものである (9.13%)。
混同行列を使って識別された応答は、応答者数を一連のアプリケーションデータにおける顧客の全体数で割った数、つまり、2146 / 24635 = 8.71% (分類率)により、割り出されている。

Apply-in dataにおける加重値計算は、十分位数の中で均等に分けられる。InfiniteInsightは、十分位数ごとの値の範囲の境界線を定義する最大値及び最小値を算出してきた。
十分位数ごとに、予測される複数の応答者が含まれていた。変わりやすい金銭の消費に関しては、十分位数ごとに計算された。

多くの組織がRecency(最新購入日)、Frequency(購買頻度・回数)、Monetary value(購入金額)、つまり RFMに基づくセグメンテーションに関心を持つだろう。
どのようにすれば、RecencyとFrequency もまた十分位数 の表に加えることができるのだろうか?

十分位数の表の出力に加えることができるのは、連続型変数だけである。最近では、RecencyとFrequencyは記述で序数として定義されている。
もし、RecencyとFrequency が連続として再分類されれば、RecencyとFrequency は十分位数出力の選別に適しているということになるだろう。

産出表は、要求されたそれぞれの理由コードのための2列を含んでいる:

reason_name_<criterion>_<threshold>_<rank>_rr_<target name>: 理由コードとして選別された変数の名前を含む。例えば、reason_name_Below_Mean_1_rr_<target name> という名前の出力列は、目標変数に関する最も重要な (1) 理由コードの名前を含んでいる。
全人口による寄与の平均(Mean)を下回る寄与度の変数の間で選別された変数は、最も高い偏差が生じるものとなるだろう。

reason_value_<criterion>_<threshold>_<rank>_rr_<target name>: 理由コードの値を含む。つまり顧客と閾値の変数寄与度の差。

重要な点は、それぞれの顧客のスコア、つまりそれぞれの説明変数に寄与されたスコアを合わせたものを詳細に評価することが可能であり、なぜそれぞれの顧客が高いか、もしくは低い全体スコアになるのかを割り出すことができるということである。

このHTML outputを使って、説明変数の値がどのようにしてモデル全体スコアを変化させるのかを見ることは、とても簡単である。これによりユーザーは、起こりうる事態を想定する際にとても便利になる。
このモデルはHTML同様、完全に持ち運び可能で、スコアは即時計算される。

ユーザーは起こりうる仮定の事態を想定しやすくなり、スコアを即時計算し、モデルを持ち運ぶことができる。

もし、このファイルの全ての顧客が接触してきたとしたら、最大期待応答者数の推定に届くことができるだろうか?

もし、可能性を合計したら、proba_rr_PURCHASE、全人口の2169 名の応答者。

(中略)

分類モデルによって顧客の購買の可能性がわかったり、回帰モデルによって、顧客の消費額を推定することができる。
マーケティング戦略では、反応のある確率が高く、さらに最も高額消費が見込まれる顧客を最も優先させたいと望むだろう。したがって、分類モデルと回帰モデルを一緒に使うことで (応答の可能性 x AMOUNT).これらの顧客をもっと簡単に識別するために、アナリストは新たなスコアを作ることができる。集成値のランク付けにより、高い確率で高額消費が推定される、最も大切な顧客を識別することが可能になるだろう。