Notes on Text Mining and Analytics - 5

Text Categorization: Discriminative Classifier

逻辑斯蒂回归模型(LR)

由上一节的推广,引出这一节的逻辑斯蒂回归模型。其表现形式为: Discriminative Classifier: Logistic Regression 所以当我们确定了模型和目标函数来刻画数据后,下一步就是估算参数的值。 Estimation of Parameters 一般来说,在求最值的问题中牛顿法用的比较多。

k近邻(knn)

k值的多数是基于经验进行选择的,但可以使用交叉验证来确定k值的选择是否合理(交叉验证简单说就是把数据分成训练集和测试集,验证不同k值情况下的模型)。 K-Nearest Neighbors k最近邻也可以被用作判别式分类器,下图作为其被用作判别式分类器的一个说明: K-NN as a Discriminative Classifier

支持向量机模型(SVM)

在二维平面,平面上有两种不同的数据。由于这些数据是线性可分的,所以可以用一条直线将这两类数据分开,这条直线就相当于一个超平面,超平面一边的数据点所对应的y全是-1 ,另一边所对应的y全是1。

  • 最大间隔分类器Maximum Margin Classifier的定义 边界仅由一些数据点决定,这些数据点被称为support vectors。中间的实线便是寻找到的最优超平面(Optimal Hyper Plane),其到两条虚线边界的距离相等

线性SVM Linear SVM

Text Categorization: Evaluation

Method1. 分类准确率 Classification Accuracy

做出正确决策的比例。其中有借助人工标注的结果,将人工标注的和模型训练所得到的结果进行比较,计算模型的准确率。

但是这种方法也会存在一些问题,比如对于垃圾邮件的处理,有时候可能需要低一些的准确率,宁愿要垃圾邮件进入box也不愿将正常的邮件过滤出去。

我们首先定义Human表示真实的情况,System表示模型预测的结果。 Define - TP表示模型和人,结果相同且都为yes - TN表示模型和人,结果相同且都为no - FN表示模型为no,人为yes - FP表示模型为yes,人为no 这里的negative都是相对于模型所预测的结果

  • 计算方法:
    • 查全率和查准率 Precision and recall
      • Precison代表查准率,意思就是当模型输出为yes时,正确决策占模型输出为yes的总决策数的比例(即What’s the percent of correct decisions when the system says yes? That’s called precision.)
      • Recall代表查全率(或召回率),也即recall代表模型把应该为yes的判断正确了多少(recall tells us whether the system has actually indeed assigned all the categories that it should have to this document. )
    • Combine Precision and Recall: F-Measure Combine Precision and Recall: F-Measure 其中β一般取1,此时precision和recall各占0.5。0<β<1时,查准率precision有更大的影响,β>1时,查全率recall有更大的影响。
  • Per-Document Evaluation 根据每个document来评价
  • Per-Category Evaluation 根据每个种类评价
  • Macro 分别计算categories和documents的precision和recall。
  • Micro 将所有的结果放在一个池子中,再计算precision和recall。平等对待所有的。

大体上说,macro会比micro更加informative。(In general macro average tends to be more informative than micro average, just because it might reflect the need for understanding performance on each category or performance on each document which are needed in applications.)

Method2. Ranking

Ranking

Ranking

观点挖掘和情感分析 Opinion Mining and Sentiment Analysis: Motivation

什么是观点挖掘和情感分析?

Opinion Representation

Opinion Representation

为什么观点挖掘和情感分析很重要?

Why Opinion Mining

Why Opinion Mining

Reference

[1] C. Zhai and S. Massung, Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining. ACM and Morgan & Claypool Publishers, 2016. Chapters 15 & 18. [2] Yang, Yiming. An Evaluation of Statistical Approaches to Text Categorization. Inf. Retr. 1, 1-2 (May 1999), 69-90. doi: 10.1023/A:1009982220290. [3] Bing Liu, Sentiment analysis and opinion mining. Morgan & Claypool Publishers, 2012. [4] Bo Pang and Lillian Lee, Opinion mining and sentiment analysis, Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. [5] Manning, Chris D., Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2007. (Chapters 13-15)