दिलचस्प पोस्ट
NSTimer टाइमरविथटाइम टाइम: काम नहीं कर रहा है क्या जावा सरणियों का अधिकतम आकार है? मैं मक्खी पर जेफैम के अंदर जेपीएनएल कैसे बदलूं? पायथन `यदि एक्स कोई नहीं है 'या` नहीं तो x नहीं है'? क्या Xcode "ऐसी कोई फ़ाइल या निर्देशिका त्रुटि नहीं है"? एकाधिक पंक्तियों में ghci में फ़ंक्शन कैसे परिभाषित करें? शब्दकोश पाठ फ़ाइल कोणीय 2: मूलभूत घटक से रूटप्रर्म प्राप्त करना एंड्रॉइड स्टूडियो: क्यों minSdkVersion और targetSdkVersion दोनों AndroidManifest.xml और build.gradle में निर्दिष्ट हैं? क्या ऐप्पल एसआईआरआई के लिए एपीआई प्रदान करता है? एंड्रॉइड पर एक जावा लाइब्रेरी में कोड के लिए नोक्लास डीफफाउंड एरर <? Php और <के बीच का अंतर? टैब या विंडो सक्रिय नहीं होने पर ब्राउज़र कैसे जावास्क्रिप्ट को रोकते हैं? उच्च ट्रैफ़िक परिदृश्य में ASP.NET में ThreadPool.QueueUserWorkItem का उपयोग करना स्विफ्ट में एक तर्क के रूप में किसी भी प्रकार के नंबर को लेने के लिए सामान्य फ़ंक्शन के लिए एक प्रकार के प्रोटोकॉल को कैसे अपनाना चाहिए?

यू में यूटीएफ -8 प्रारूप में डेटा कैसे पढ़ा जाए?

मेरा सिस्टम: win7 + R-3.0.2।

> Sys.getlocale() [1] "LC_COLLATE=Chinese (Simplified)_People's Republic of China.936;LC_CTYPE=Chinese (Simplified)_People's Republic of China.936;LC_MONETARY=Chinese (Simplified)_People's republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People's Republic of China.936" 

माइक्रोसॉफ्ट नोटपैड में सहेजी गई समान सामग्री वाली दो फ़ाइलें हैं: एक को एन्सी प्रारूप के रूप में सहेजा गया है, दूसरा को यूटीएफ 8 प्रारूप के रूप में सहेजा गया है। डेटा का नाम M370 मलेशिया एयरलाइंस में है। या आप इस तरह से फ़ाइल बना सकते हैं

1) माइक्रोसॉफ्ट नोटपैड में डेटा की प्रतिलिपि बनाएँ

 乘客姓名,性别,出生日期HuangTianhui,男,1948/05/28姜翠云,女,1952/03/27李红晶,女,1994/12/09 

2) इसे test.ansi के रूप में नोटबुक में एन्सी प्रारूप में सहेजें।
3) इसे नोटपैड में यूटीएफ -8 प्रारूप के साथ test.utf8 के रूप में सहेजें।

 read.table("test.ansi",sep=",",header=TRUE) #can work fine read.table("test.utf8",sep=",",header=TRUE) #can't work 

फिर, मैं यूटीएफ -8 में एन्कोडिंग सेट करता हूं

 options(encoding="utf-8") read.table("test.utf8",sep=",",header=TRUE,encoding="utf-8") In read.table("test.utf8", sep = ",",header=TRUE,encoding = "utf-8") : invalid input found on input connection 'test.utf8' 

मैं डेटा फ़ाइल कैसे पढ़ सकता हूं (test.utf8)?
अजगर में, यह बहुत सरल है

 rfile=open("g:\\test.utf8","r",encoding="utf-8").read() rfile '\ufeff乘客姓名,性别,出生日期\n\nHuangTianhui,男,1948/05/28\n\n姜翠云,女,1952/03 /27\n\n李红晶,女,1994/12/09' rfile.replace("\n\n","\n").replace("\ufeff","").splitlines() ['乘客姓名,性别,出生日期', 'HuangTianhui,男,1948/05/28', '姜翠云,女,1952/03/27', '李红晶,女,1994/12/09'] 

पायथन आर से बेहतर काम कर सकता है

मैं कहता हूं, जैसा कि सतीश कहते हैं, समस्या का हल कुछ कम है, फिर भी कुछ रहना है।
मुझे पता चला कि जब डेटा data.frame में है, तो इसे ठीक से प्रदर्शित नहीं किया जा सकता है,
जब डेटा data.frame का एक स्तंभ होता है, यह ठीक से प्रदर्शित किया जा सकता है,
पर्याप्त अजीब है, जब डेटा data.frame की एक पंक्ति है, तो इसे ठीक से प्रदर्शित नहीं किया जा सकता।

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

Solutions Collecting From Web of "यू में यूटीएफ -8 प्रारूप में डेटा कैसे पढ़ा जाए?"

ओएस: विंडोज़ 7 (64-बिट)

संस्करण:

 package_version(R.version) [1] '3.0.2' 

अपना स्थान "चीनी" से "अंग्रेजी_अमेरिकी राज्यों" से बदलें।

  Sys.setlocale(category="LC_ALL", locale = "English_United States.1252") Sys.getlocale(category="LC_ALL") [1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252" 

चीनी एन्कोडिंग के साथ डेटा में पढ़ें

  df_ch <- read.table("test.utf8", sep=",", header=FALSE, encoding="chinese", stringsAsFactors=FALSE ) 

UTF-8 एन्कोडिंग के साथ डेटा में पढ़ें

  df_utf8 <- read.table("test.utf8", sep=",", header=FALSE, encoding="UTF-8", stringsAsFactors=FALSE ) 

RStudio संस्करण 0.98.501 में

  df_ch$V1[1] [1] "乘客姓å" df_utf8$V1[1] [2] "乘客姓名" df_utf8$V1 [1] "乘客姓名" "HuangTianhui" "姜翠云" "李红晶" "LuiChing" "宋飞飞" [7] "唐旭东" "YangJiabao" "买买提江·阿布拉" "安文兰" "鲍媛华" "边亮京" [13] "边茂勤" "曹蕊" "车俊章" "陈长军" "陈建设" "陈昀" [19] "戴淑玲" "丁立军" "丁莹" "丁颖" "董国伟" "杜文忠" [25] "冯栋" "冯纪新" "付宝峰" "甘福祥" "甘涛" "高歌" [31] "管文杰" "韩静" "侯爱琴" "侯波" "胡偲婠(婴儿)" "胡效宁" 

डेटा फ्रेम से एक पंक्ति के लिए यूनिकोड डेटा प्रदर्शित करें

  df_utf8[1,] V1 V2 V3 1 <U+FEFF><U+4E58><U+5BA2><U+59D3><U+540D> <U+6027><U+522B> <U+51FA><U+751F><U+65E5><U+671F> 

डेटा फ्रेम से एक पंक्ति के लिए चीनी डेटा प्रदर्शित करें

 as.character(df_utf8[1,]) [1] "乘客姓名" "性别" "出生日期" as.character(df_utf8[2,]) [1] "HuangTianhui" "男" "1948/05/28" 

अंतरराष्ट्रीय वर्णों के साथ डेटा के कई स्तंभ प्रदर्शित करना डेटा फ्रेम को सूची में रूपांतरित करके और डेटा को चरित्र स्वरूप में स्थानांतरित करके किया जा सकता है।

  df_utf8_ch <- lapply(df_utf8, as.character) df_utf8_ch 

$ V1 1 "乘客 姓名" "हुआंगटियानहुई" "姜翠云" "李红晶" "लुइचिंग" "宋飞飞"
7 "唐旭东" "यांग जियाबाओ" "买买提 江 · 阿布拉" "安文兰" "鲍媛华" "边 亮 京"
[13] "边 茂 勤" "曹 蕊" "车 俊 章" "陈长军" "陈 建设" "陈 昀"
[1 9] "戴淑玲" "丁立军" "丁 莹" "丁颖" "董国伟" "杜文忠"
[25] "冯 栋" "冯 纪 新" "付宝峰" "甘福祥" "甘 涛" "高歌"
[31] "管 文杰" "韩 静" "侯爱琴" "侯波" "胡 偲 婠 (婴儿)" "胡 效 宁"
[37] "黄毅" "姜学仁" "姜 颖" "焦 微微" "焦 文学" "鞠 坤"
[43] "康旭" "黎明 中" "李国辉" "李洁" "李 乐" "李文博"
[4 9] "李燕" "李宇辰" "李志 锦" "李志欣" "李智" "栗 延 林"
[55] "梁 路 阳" "梁旭阳" "林安南" "林明峰" "刘凤英" "刘金鹏"
[61] "刘强" "刘如生" "刘顺 超" "柳忠福" "楼 宝 棠" "卢 先 初"
[67] "鹿 建华" "罗伟" "马骏" "马文芝" "毛 土 贵" "么 立 飞"
[73] "蒙 高 生" "孟 兵" "孟凡 余" "欧阳 欣" "石贤文" "宋春玲"
[7 9] "宋 坤" "苏 强国" "汤 雪竹" "田军伟" "田清君" "汪 厚 彬"
[85] "王春勇" "王纯华" "王丹" "王海涛" "王利军" "王 林诗"
[9 1] "王 墨 恒 (婴儿)" "王守宪" "王淑敏" "王献军" "王永刚"

$ V2 1 "性别" "男" "女" "女" "女" "男" "男" "女" "男" "女" "女" "男" "女" "女" "女" "男"
[17] "男" "女" "女" "男" "女" "女" "男" "男" "男" "男" "男" "男" "男" "女" "男" "女"
[33] "女" "男" "女" "男" "女" "男" "女" "女" "男" "男" "男" "男" "男" "女" "男" "女"
[4 9] "女" "男" "男" "男" "男" "男" "男" "男" "男" "男" "女" "男" "男" "男" "男" "男"
[65] "男" "男" "男" "男" "男" "女" "男" "男" "男" "男" "男" "女" "男"
$ वी 3 1 "出生 日期" " 1 948/05/28" "1952/03/27" "1994/12/09" "1 969/08/02" "1982/03/01" "1983/08/03" " 1988/08/25 "[9]" 1979/07/10 "" 1 949/10/20 "" 1 971/10/21 "" 1987/06/06 "" 1 947/07/19 "" 1982/02/19 "" 1 946/03/20 "" 1 979/06/06 "[17]" 1956/03/07 "" 1957/08/11 "" 1956/12/07 "" 1971/04/06 "" 1 9 52/04 / 25 "" 1986/10/24 "" 1 966/10/26 "" 1 964/06/07 "[25]" 1993/03/09 "" 1944/01/06 "" 1986/12/06 "" 1 9 65 / 11/21 "" 1 971/01/29 "" 1987/11/16 "" 1 979/10/03 "" 1 961/05/28 "[33]" 1 969/06/24 "" 1 9 7 9/05/15 " "2011/02/25" "1 99 0/01" "1984/06/18" "有待 确认" "1987/04/13" "1983/05/09" [41] "1 965/12/17" " 1982/11/07 "" 1980/08/09 "" 1 945/12/19 "" 1958/05/18 "" 1987/02/06 "" 1982/12/03 "" 1985/07/16 "[49 ] "1983/07/19" "1987/11/06" "1984/04/14" "1 979/05/22" "1 973/05/05" "1985/10/26" "1954/03/26" "1984/11/12" [57] "1987/03/27" "1980/05/25" "1 949/05/10" "1981/12/26" "1 9 74/08/13" "1 9 38/01 / 22 "" 1 968/02/29 "" 1 942/05/22 "[65]" 1 935/04/21 "" 1981/10/14 "" 1957/03/28 "" 1985/08/20 "" 1 9 81 / 12/25 "" 1 947/08/01 "" 1 942/08/02 "" 1983/06/15 "[73]" 1 901/01/04 1 "" 1 974/04/26 "" 1 9 44/08/23 "" 1 976/10/12 "" 1988/01/18 "" 1 947/04/06 "

  View(df_ch) 

चीनी एन्कोडिंग

  View(df_utf8) 

यहां छवि विवरण दर्ज करें

आरजीईई (64-बिट) में

यहां छवि विवरण दर्ज करें

देखें (df_ch)

यहां छवि विवरण दर्ज करें

देखें (df_utf8)

यहां छवि विवरण दर्ज करें

अच्छी बात यह है कि आपके पास यूटफ़ 8 प्रारूप में सभी आंकड़ों को आगे डेटा विश्लेषण के लिए इस्तेमाल किया जा सकता है

एक बार आपका विश्लेषण किया जाता है, तो आप स्थान को "चीनी" में बदल सकते हैं

  Sys.setlocale(category="LC_ALL", locale = "chinese") Sys.getlocale(category="LC_ALL") [1] "LC_COLLATE=Chinese (Simplified)_People's Republic of China.936;LC_CTYPE=Chinese (Simplified)_People's Republic of China.936;LC_MONETARY=Chinese (Simplified)_People's Republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People's Republic of China.936" 

कुछ फ़ंक्शन आपको वर्ण स्ट्रिंग एन्कोडिंग के बीच कनवर्ट करने के लिए एक्सप्लोर करना पड़ सकता है।

एन्कोडिंग ()

iconv ()

HTH

fileEncoding लिए एक अलग तर्क आज़माएं: fileEncoding :

  read.table("test.utf8", sep = "," , header=TRUE, fileEncoding = "UTF-8")