Java编程

贪心学院二期nlp

自然语言处理(natural language processing)NLP的维度NLP项目的实验流程

自然语言处理(natural language processing)

NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复

目前领域面临的问题:一词多义(ambiguity)

贪心学院二期nlp

NLP的维度

由底层到高层的过程:

声音:最底层的形式单词(morphology):分词(token),POS词性标注(part-of-speech),NER命名体识别(named entity recognition)句子结构(syntax):句法分析,依存句法语义(semantic):理解语句的含义 NLP项目的实验流程 原始文本分词及相关技术(NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较包括常见的分词工具)清洗(标点符号的移除/停用词的移除/低频词的移除)最全中文停用词表整理(1893个)英文 停用词 词典,停用词需要根据自己的场景进行自定义修改.标准化,一般是针对英文有stemming和lemmatization. 词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)是基于一系列的提取规则实现的特征提取,将第4步获取的词转换为向量形式(机器可识别的形式).例如tf-idf,woed2Vec等,tf-idf的计算过程建模评估模型

个人整理笔记,方便复习,若侵权,请联系。

附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

Similar Posts

发表评论

邮箱地址不会被公开。 必填项已用*标注